Google beugt sich der chinesischen Hoheit und wird dafür geohrfeigt. Im Westen, von Mitbewerbern bzw deren quasiamtliche Blogger, und jedem, der sich zur Mediensprecher berufen fühlt.
Gut, dass niemand im Glashaus sitzt. Oder auf die Idee käme, dass Google, als börsennotiertes Unternehmen genauso wie jeder Mensch, nicht gegen Gesetze verstossen darf. Im Endeffekt hatte Google nur zwei Möglichkeiten: entweder man beugt sich den chinesischen Zensur-Auflagen. Oder man überlässt den Markt den Mitbewerbern.
Die letztere Möglichkeit wäre sehr viel leichter mit der bisher zur Schau getragenen Standfestigkeit gegenüber den US-Behörden zu vereinbaren. Und zwar genauso, wie die Kritik der Mitbewerber versäumt, darauf einzugehen, dass man selbst den US-Behörden die gewünschten Daten und mehr im Handumdrehen lieferte. Unterschiede sind offenbar nur noch auf Algorithmen begrenzt.
Und ist deshalb wie kaum ein Zweiter in der Lage, mehr als 1000 Mio Webseiten genauer unter die Lupe zu nehmen, um selbst etwas zu lernen: nämlich die Dokumentbeschaffenheit, die von autonomen Tools verstanden bzw verarbeitet werden können muss. Und bei der jetzt veröffentlichten Analyse Web Authoring Statistics sieht man, das Audi ein avantgardistischer Einzelfall ist. Denn nach wie vor setzt die Mehrzahl der Web-Autoren weniger auf fortschrittliche Technik als auf Jahrmarkt-Präsentation.
META und auch BR-Elemente [HTML-Tags] stehen nach wie vor an der Spitze der Beliebtesten. META, weil man damit den Aberglauben an die Wirkung der META-Tags aufrecht erhält, und BR wahrscheinlich, weil sich damit Dinge soweit aus dem Blickfeld verschieben lassen, dass nur Anwender mit besonders grossen Bildschirmen sich über so ellenlange wie zusammenhangslose Wortlisten amüsieren.
Und in Fettschrift weist Google darauf hin, dass die Zahl der Autoren, die die völlig nutzlose Anweisung <meta name="revisit-after"> in ihre Seiten stopfen, grösser ist, als die Zahl der Anwender, die <em> benutzen.
Immerhin, von den 20 meistgebrauchten Elementen im BODY der untersuchten HTML-Seiten dienen 14 nur der Präsentation und drei für JavaScript-Power-Programmierung [onload, onunload, oncontextmenu]. Hochgezogene Augenbrauen verursacht auch die Beobachtung, dass <table> in mehr als doppelt so vielen Seiten vorkommt, wie z.B. das <td>-Element.
Das erklärt, warum eine Vielzahl von Seiten einfach nicht gefunden wird. Und das erklärt, warum eine geringe Zahl anderer Seiten auch gut versteckt ist.
Wie diese Suchanfrage zeigt, gibt es auch heute, ungefähr 10 Jahre nach Einführung der Möglichkeit, Webseiten per Passwort-Schutz vor dem Zugriff Unbefugter zu schützen, immer noch schlafende Mützen, die das nicht benützen.
Wenn dann Statistiken der Kundschaft und Gratis-Nutzer offenliegen, wird manch' ein Administrator sich vor Lachen biegen.
"Um Ihnen nur die treffendsten Ergebnisse anzuzeigen, wurden einige Einträge ausgelassen, die den 19 bereits angezeigten Treffern sehr ähnlich sind." Und das ist gerecht. Denn wer sich - als Site-Verantwortlicher - nicht nur die paar Texthappen, sondern den Quellcode seiner Seiten mal ehrlich betrachtet, muss erkennen, dass Google Recht hat, wenn Seiten als "sehr ähnlich" eingestuft werden.
Grund für diese Einstufung ist i.d.R. lausiges Design. Damit meine ich nicht die Präsentation, das Aussehen einer Site. Sondern den HTML-Code, der zu diesem Design oder Aussehen führt. Wer sich selbst in die Dubletten-Falle begibt, setzt meist auf recht antike HTML: Tabellen, möglichst verschachtelt, mit Vorgaben für Farbe, Schrift, Grösse usw in jeder Tabellen-Zelle [entweder traditionell oder auch durch wiederholte Style-Anweisungen und somit halb traditionell und halb aktuell].
Wer den seitenspezifischen Text aus solchen Seiten entfernt, zieht selten mehr als 25% Information aus dem Quellcode. Wenn angesichts dieser Proportion eine Maschine befindet, dass die Seiten sich "sehr ähnlich" sind, kann dagegen bei nüchterner Betrachtung niemand etwas einwenden [und am Arbeitsplatz dürfte eigentlich keine andere Betrachtungsweise erlaubt sein].
Noch besser wird es, wenn Designer und Autoren mangels besseren Wissens Hover- und sonstige visuellen Effekte [die ja wichtiger als der eigentliche Inhalt sind] per JavaScript implementieren. Da wimmelt es im Quellcode vor Pseudo-Programmierung: onclick, onclack, onmouseover, onmouseunder usw. Die häufigsten "Wörter" in solchen Seiten sind dann nicht selten MM_showHideLayers, onMouseOver, onMouseOut, width, height, src, span usw.
Suchmaschinen ist natürlich schon klar, dass Code-Suppe kein eigentlicher Inhalt ist. Aber wenn Seiten fast nur aus Code bestehen und kaum Inhalt haben, kann in den Seiten kaum etwas drinstehen. Es handelt sich halt um Dubletten. Wer weiss, warum JavaScript nur mit Vorsicht zu geniessen ist, kann das nur begrüssen.
Ich habe kürzlich die Firefox-Installation durch die jüngste Version aktualisiert und schau mal einer guck, diese Version kapiert tatsächlich, was ich mit vielen Tastatur-Anschlägen beabsichtige, die ich mir im Laufe der Jahre - nicht wenige davon, bevor man Mäuse an den Computer anschloss - angewöhnt habe.
Bei Mozilla [support.mozilla.com/] gibt's gar eine Liste aller Befehle unterteilt nach Betriebssystem. Dummerweise scheint die Seite öfters eine neue Adresse zu haben.
Wenn Ihr Unternehmen neue Kunden sucht, kann Ihnen vielleicht geholfen werden. Yahoo stellt hier eine Dame vor, die offenbar kaufwillig ist. Glaubt man der Werbekampagne für Yahoos Pay per Click-Offerte, ereichen Sie über Yahoo "bis zu 90% der Internetanwender". Wer sich auf der Szene auskennt, fragt sich natürlich, ob die dabei benutzte Ziffer '0' an der richtigen Stelle erscheint.
Manche Online-Shops haben, um neue Käufer anzuziehen, allerdings nur auf einen alten Trick gesetzt.
Wissen, wie stark die Konkurrenz ist, zählt zum Geschäft. Dazu gehört auch die Feststellung, wieviele konkurrierende Seiten bei den Suchmaschinen eigentlich indexiert sind. Auf die oben rechts bei Google ausgegebenen Zahlen ist aber, seitdem Google es bei der Schätzung der Ergebnisse nicht mehr so genau nimmt, kein Verlass mehr.
So zeigt die willkürlich genommene Formulierung stecker eingesteckt als stellvertretendes Beispiel heute früh 80.700 Ergebnisse. Grenze ich die Suche auf solche Seiten ein, die beide Wörter tatsächlich aufeinanderfolgend enthalten [auffindbar, wenn man die Phrase sucht: "stecker eingesteckt"], bleiben keine 900 übrig. Dabei sind natürlich die Ergebnisse am Anfang beider Listen ähnlich, da moderne Suchalgorithmen längst Seiten bevorzugen, in denen die gesuchten Wörter als Phrase [oder möglichst nacheinander] enthalten sind, auch wenn der Anwender nicht ausdrücklich danach suchte.
Hier auf der ersten Seite zu landen, sollte also wesentlich einfacher sein, als für eine Formulierung gefunden zu werden, bei der die Ergebniszahl für die Phrase fast so hoch ist, wie für die einfache [nicht durch Anführungszeichen eingegrenzte] Wortkombination. Beispiel: "nordrhein westfalen".
Ich wusste, dass ich schonmal 'was darüber geschrieben hatte, konnte mich aber nicht erinnern, wann und wo. Eine Google-Suche zeigte mir schnell, wo das gewesen sein soll. Gleichzeitig machte sie mich stutzig:
Wie die beiden Abbildungen zeigen, passt die Beschreibung in der Ergebnisliste nicht zum Seiteninhalt wie er im Google-Cache steckt. Diese Beobachtung konnte man früher ab und zu mal bei Vollmond am Sonnabend machen. Heute scheint sie bei öfters aktualisierten Seiten eher zum guten Ton zu gehören.
Wie sich aber zeigt, war Google auf der falschen Fährte. Was ich wirklich gesucht hatte, fand sich per egrep -i javascript ~/mail/sent-200{4,5}-??|egrep -i 'kunden sichtbar' in einer verschickten Mail. Womit ich zum eigentlichen Thema komme:
Auf das Ergebnis der obigen Suche hatte ich schonmal hingewiesen. Ich bin gestern wieder über einen Einkaufswagen gestolpert, der nur bedient werden kann, wenn man JavaScript im Browser [aus Sicherheitsgründen] nicht ausgeknippst hat. Solche Anwender sehen nämlich statt der Shopfront die möglicherweise suboptimal einladende Seite, wie hier gescreenshottet:
Inzwischen hat Google zumindest in den ersten 100 Ergebnissen aus allen "nicht sichtbaren" Seiten unsichtbare gemacht, d.h. sie wurden zum "Zusätzlichen Ergebnis" befördert. "Zusätzliche Ergebnisse" bedeutet eine Gattung von Dokument, die bei der regulären Suche nicht gerade Priorität geniesst.
Aber auch nicht auf JS basierende Shopping-Lösungen sind heuer oft vom "Ladenschluss" bedroht. Das liegt i.d.R. aber weniger an der Software als an den verantwortlichen Site-Betreibern, die offenbar darauf aus sind, aus jedem Quadratzentimeter "Ladenfläche" die maximale Rendite zu ziehen.
Und ganz gleich, ob man Templates [Schablonen] oder auch nach Zufallsauswahl rotierende Textblöcke einsetzt, oft produziert man nicht mehr als "Dubletten", die natürlich ebenfalls nur herhalten dürfen, wenn der primäre Datenbestand nichts besseres bietet.
Shop- [und auch andere Site-] Betreiber sollten daher darauf achten, dass der seitenspezifische Teil der Seite, wie sie vom Webserver geliefert wird, länger ist, als das, was man in allen Seiten vorfindet. "Länger" ist wesentlich länger, z.B. 80 zu 20%. Und berücksichtigt werden muss nicht nur sichtbarer Text, sondern jedes Byte inkl HTML, CSS, Kommentare, Text und was man sonst noch in HTML-Dateien vorfindet.
Irgendjemand leiert einen neuen sog Suchmaschinen Optimierungs-Wettbewerb an und siehe da, kurze Zeit später hat Yahoo hunderte von Seiten zum Thema [bzw solche, die die vorgegebene Formulierung enthalten] im Index, während Google keine einzige findet.
Was lernen wir? Dass Yahoo manuell dafür gesorgt hat, dass diese Seiten wesentlich schneller als normale neue Sites in den Index kommen. Und dass es egal ist, denn die Leute, die bereit sind, diese Formulierung für Werbung zu nutzen, setzen eh auf Googles AdWord-Treffer.
Wenn Bertelsmann [bekannt für Zeitungs-Drücker, Perma-Buchclubs und auch heimliche Rootkit-Installation auf Home-Computern] und andere EU-Schwergewichte sich entscheiden, eine europäische Suchmaschine auf Kosten des möglicherweise nicht gefragten Steuerzahlers zu basteln, wundert sich niemand, wenn dabei ein Name entsteht, der andernorts bereits etabliert ist. Cool.
Glaubt man einem Artikel bei Nature.com, so entscheiden Anwender innerhalb der ersten 50 Millisekunden, ob eine Site ihren Ansprüchen genügt oder nicht. Schlimmer noch: da der Mensch, so Nature, dazu neigt, eine einmal getroffene Entscheidung eher zu rechtfertigen als unter veränderten Gesichtspunkten neu zu erwägen, hält man auch später an diesem Urteil fest.
http://www.nature.com/news/2006/060109/full/060109-13.html
Soll heissen, dass eine ablehnende Instant-Entscheidung auch in Zukunft, wenn man wieder mal über eine bereits "bewertete" URL stolpert, beachtet wird. Gilt natürlich nicht nur für Informations-Konsumenten sondern auch Produzenten oder Knotenpunkt-Betreiber, die gewillt sind, einen Link auf Ihre Site zu setzen. Und wenn Ihre aufgrund eines komplizierten Aufbaus zu lange braucht, um im Browser zu erscheinen, haben Sie offenbar bereits verloren.
Matt Cutts erinnert daran, dass Spam auf nicht-amerikanischen Sites ab 2006 [das ist ab heute] genauso verpönt ist, wie auf amerikanischen Präsenzen. Er liefert gleich ein Beispiel einer deutschen, sich u.a. dem Vertrieb von in Stuttgart gebauten Kraftfahrzeugen der oberen Preisklasse widmenden Site, die per JavaScript Seriösität simuliert.
Die Simulation basiert auf einem Code-Happen:
<!-- url="http://www.automobile.de/1googlecount usw... usf... //-->
Den Suchmaschinen will man dagegen Müll unterjubeln, der zu attraktivem Ranking verhelfen soll. Irgend eine Leuchte ist dabei doch tatsächlich auf die glorreiche Idee gekommen, das Kind beim Namen zu nennen: <div class="container_searchengine">.
Ich bin überrascht, dass man glaubt, Fahrzeuge für den gehobenen Anspruch [oder irgendetwas anderes] heute noch mit den billigsten Anfängertricks an den Mann bringen zu können.
Und wenn Sie's noch nicht getan haben und sich nicht gerne etwas vorgaukeln lassen, sollten Sie JavaScipt im Browser deaktivieren.
Eine der jüngsten Yahoo PR-Meldungen hat Unabhängigkeit als Schwerpunktthema. Yahoo will das Web unabhängig vom Browser und unabhängig von Zeitaufwand machen, so dass der Anwender das Beste des Webs mit jedem [kommunikationsfähigen] Gadget nutzen kann. Vielleicht sollte Yahoo mit der eigenen Startseite anfangen. Rufen Sie mal die Startseiten von Yahoo und Google mit einer Stopuhr in der Hand auf.
Das ist möglicherweise eine Altersfrage, aber manche Dinge verstehe ich einfach nicht - z.B. den Nutzen der jüngsten Yahoo-Aquisition Webjay. Ist die Startseite - für jüngere Anwender - so cool, dass man bereit ist, genug Zeit damit zu verbringen, um Nutzen zu entdecken? Für mein selbstgestricktes Media-Centre, das mehrere Rechner zu Hause mit Musik und jetzt auch mit selbst gefilmten Video-Aufnahmen versorgt, habe ich mich letztes Jahr mit dem Thema Podcasting befasst und bin dabei über Webjay-Playlists gestolpert.
Meiner Meinung nach muss man bei Nutzung von Sites wie Webjay [oder auch Flickr] sehr, sehr viel Zeit mitbringen [oder sehr gelangweilt sein], wenn man so ein paar der wenigen [aber je nach Geschmack durchaus attraktiven] Perlen entdecken will.
Aber wenn man mal ein gewisses Alter erreicht hat, sollte man wissen, dass die Menschen entweder Zeit oder Geld haben. Warum Yahoo Webjay kaufte, ist mir ein Rätsel.
Prognosen am Jahresanfang sind nichts Neues. Die von Prof. Ed Felten haben sich in der Vergangenheit aber mehr als einmal recht praxisorientiert erwiesen. So meint er jetzt, dass DRM-Management auch 2006 mehr als einmal für Schlagzeilen gut sein wird. Der Fall Google-Books wird irgendwann in gegenseitigem Einvernehmen geregelt werden. Was dazu führt, dass sich hinterher jeder fragt, was die Aufregung sollte.
Weiterhin: wir müssen damit rechnen, dass es modisch werden wird, das Internet als "kaputt und überholungsbedürftig" zu betrachten. Ein Standpunkt, der überwiegend von Leuten vertreten werden wird, die für schlechte Entscheidungen bekannt sind. Sicherlich reiner Zufall, dass dieser Punkt der dreizehnte in Prof. Feltens Liste ist.
Dass Microsoft bzw MSN besonders aktiv ist, wenn es darum geht, ineffizient zu spidern, ist kein Geheimnis. Tom Foremski weist darauf hin, dass MSN 18% seiner Bandbreite verbraucht. Und dafür 0.0007% der Besucher liefert. Yahoo verhält sich ähnlich, aber nicht ganz so extrem. Auch meinen eigenen Logfiles lässt sich entnehmen, dass Yahoo aktiver als Google spidert, dafür aber bestenfalls einen Bruchteil der Google-Besucher liefert. Warum das so ist, ist Vielen klar, wenn man einen einzigen Blick auf die jeweilige Startseite wirft.
Ich bin offenbar nicht der Einzige, der glaubt, das Phänomen "Sandbox" existiert nur im Sandkasten, nicht aber in der Disziplin Suchmaschinenoptimierung. Mike Grehan vertritt die gleiche Meinung in Sachen Sandbox, nennt aber - meiner unmassgeblichen Meinung nach - nicht unbedingt die naheliegendsten Gründe. Wieso? Seitenfummelei, Wortfrequenz-Friemeln und HTML-Tag-Verschiebung sind soooo 1996 und heute genauso nützlich wie ein Loch im Kopf.
http://www.clickz.com/experts/search/resultsärticle.php/3575856
Oder mit anderen Worten: Suchmaschinen kümmern sich einen feuchten Kehrricht darum, was Sie sagen, wenn Sie weder glaubhafte Zeugen noch Referenzen mitbringen. Die Betonung liegt hier auf "glaubhaft".
© Copyright 1998 - 2008 Klaus Schallhorn.