Das waren's nur noch Zwei; Google Ungereimtheiten, Bugs & Algebra

Das waren's nur noch Zweikommasoundsoviel

Nachdem Yahoo im Maerz vom Google-Datenverwerter zum Betreiber einer eigenen Suchmaschine auf Inktomi-, AltaVista- und AllTheWeb- Technik wurde, stellte man Ende Maerz bzw Anfang April auch AllTheWeb und AltaVista, die vor einiger Zeit mit Overture in das Yahoo-Eigentum wechselten, auf Yahoo-Daten um. Waehrend die Umstellung selbst fuer einige Schlagzeilen gut war, hat sich, nachdem sich der Staub gesetzt hat, nichts geaendert. Soll heissen, wenn wir von einem Artikel in der deutschen Zeitschrift CHIP [englisch fuer Pommes Frites], absehen, in dem MSN zur besten Suchmaschine hochgelobt wird.

Ich kann noch nicht einmal ueber moeglicherweise veraenderte Besucherzahlen durch Yahoo berichten, da meine Site aufgrund der UK Domain in der Standard-Einstellung bei Yahoo.de nicht gefunden wird. Und wie bekannt, werden Einstellungen von der Mehrzahl der Anwender nicht benutzt bzw veraendert. Aber nachdem in den ersten Tagen die Standard-Einstellung auch bei AltaVista auf "deutsch" lautete, muss sich jemand an eine vor mehr als einem Jahr gemachte Aenderung erinnert haben, die dazu fuehrte, dass bei AV diese Einstellung standardgemaess auf "weltweit" gesetzt wurde. Dort findet man meine Site auch heute.

Ich sage "Zweikommasoundsoviel", weil die Ergebnisse bei Yahoo.de und AltaVista bzw AllTheWeb nicht uebereinstimmen. Im April scheint man die beiden letzteren auf sehr magere Datenbestaende umgestellt zu haben - die Erbsenzaehler werden wissen, warum - so dass eine Suche, die bei Yahoo.de angeblich 10.8 Mio Ergebnisse produziert [Yahoo.com z. Vergleich 334,000], bei AltaVista nur 17,500 und bei AllTheWeb nur knappe 12,000 Seiten findet. Schon auf der ersten Seite sieht man fuer nahezu alle Suchanfragen einige Unterschiede zwischen AltaVista und AllTheWeb. Diese ergeben sich bei naeherer Pruefung teilweise durch den bei ATW durch Klick abschaltbaren Familienfilter. Aber oft nur teilweise.

Auf der Strecke geblieben sind durch die Umstellung interessante Moeglichkeiten der erweiterten Suche. Teilweise, vermute ich, weil sie nicht genutzt wurden [selbst die Phrasensuche wird heute von bestenfalls 2% aller Anwender genutzt]. Auf der Strecke geblieben ist damit auch die Konkurrenz, die, so sagen uns die Markthueter, das Geschaeft beleben soll.

Waehrend Yahoo die neue Suche als "Eigenschoepfung" hinstellt, darf man davon ausgehen, dass die besten Ideen von Inktomi mit denen von AltaVista und AllTheWeb kombiniert wurden bzw werden.

Aber auch andere Ideen wurden teilweise sehr schnell realisiert. So sieht man bei Yahoo.de, dass Stemming angewendet wird. Wer beim Suchen einen Begriff im Plural eingibt, findet in den Ergebnissen nicht nur hervorgehobene Wortteile, wie seit einiger Zeit bei Google, sondern auch solche, die nur als Singular in einer Beschreibung erscheinen.

Auf den Wortstamm reduzierte Begriffe haben, so scheint es, zwar nicht das gleiche Gewicht wie in der vom Anwender eingegebenen Form im Seiteninhalt gefundene, aber bei manchen Suchanfragen beobachtete geringe Unterschiede zwischen Einzahl und Mehrzahl deuten daraufhin, dass Stemming bei Yahoo.de einen groesseren Einfluss als bei Google hat.

Auffallend ist, dass Yahoo.de meistens dann sehr mit Google uebereinstimmt, wenn man Einwort-Suchanfragen stellt, waehrend wie schon frueher bei AltaVista und auch AllTheWeb mit einer steigenden Zahl der Suchbegriffe auch die Abweichungen groesser werden.

Groesser ist dabei nicht unbedingt besser, denn wenn Sie "Ihre" Suchbegriffe und Formulierungen kennen, werden Sie auch wissen, welche Praesenzen fuer welche Formulierungen gefunden werden sollten. Diese Sites sind in der Regel bei Yahoo fuer Mehrwortanfragen nicht zu sehen, waehrend dort gefundene oft voellig Unbekannte sind.

Die Zeit wird zeigen, ob sich Marktanteile verschieben.

Google Ungereimtheit

Gelegentlich findet man bei Google Ergebnisse, die mit dem Praedikat "Zusaetzliche Ergebnis" ausgezeichnet sind. Nachdem Google ueber diese Art der Resultate, die vor ein paar Monaten erstmals auftauchten, keine Auskunft gibt, ist man gezwungen, zu raten, wo diese Ergebnisse herkommen.

Oder genauer zu recherchieren. Wer eine solcher Ergebnis aufruft und darin vorkommende Substantive oder Namen in den Suchschlitz hintereinanderpackt, um eine moeglichst selten vorkommende Wortfolge zu konstruieren, kann diese Seite dann auch ueber diese Formulierung finden. In der Regel wird, wenn die Wortfolge lang bzw eindeutig genug ist, unter der oder dem Ergebnis angeboten, "Sie koennen bei Bedarf die Suche unter Einbeziehung der uebersprungenen Ergebnisse wiederholen."

Und siehe da, man stoesst fast immer auf sehr oder ueberwiegend identische oder aehnlivje Seiten, von denen nur eine nicht als "Zusaetzliche Ergebnis" markiert wird, wobei nicht in allen Faellen das "Original" erkannt wird.

Google scheint damit alle Dubletten im Datenbestand zu haben, und bei entsprechenden Anfragen nur die Seite in die Ergebnisse einzuschleusen, die als "Original" gilt. "Faelschungen", oder Kopien, werden unterdrueckt.

Unterdrueckt werden auch, so mehren sich die Anzeichen und sollte man annehmen, in solchen Seiten enthaltene Links. Was mir aber ebenfalls aufgefallen zu sein scheint, ist dass Links der "Originale" nicht weitergegeben werden. Das waere schade, denn damit wuerde der ursaechliche Seitenersteller mit denen, die solche Seiten kopieren, ueber einen Kamm geschoren.

Google Bugs?

Software ist nie fertig. Das sieht man gelegentlich auch bei Google, wenn sich Bugs, die nicht sein sollten, bemerkbar machen. Das Problem der langen URLs, die, wenn sie in den Ergebnissen erscheinen, das Layout zerschiessen, ist nicht neu. Ich sehe solche Verstuemmelungen einmal pro Woche, vielleicht, weil ich meinen Browser auf nur 640 Pixel Breite setze, vielleicht aber auch, weil Google anscheinend nicht in der Lage ist, Zeichenfolgen, die "zu breit" sind, zu umbrechen. Das fuehrt in der Praxis dazu, dass die "zu lange" Zeichenkette in vorhandene AdWords-Anzeigen laeuft und alles andere unter die Tabelle mit den Anzeigen schiebt. Oder aktuell, wie vermutet werden darf, zu voelligen Entfernung einer Site aus dem Google-Datenbestand.

Wie man bei Intern.de nachlesen konnte, scheint eine Site, die wegen eines "zu breiten" TITLEs ohne Leerzeichen bei Google angeschwaerzt wurde, aus dem Datenbestand verschwunden zu sein. Auch bei Yahoo.com ist sie nicht zu finden, obwohl man 244 Links auf die Site kennt, u.a. auch vom ODP.

Dass es sich um eine Verkettung ungluecklicher Zufaelle handeln koennte, darf nicht ausgeschlossen werden. Da neue Seiten beim ersten Spidern nur voruebergehend in den Datenbestand kommen, koennen wir nicht ausschliessen, dass die Site [noch?] nicht permanent aufgenommen wurde.

Zerschossene Daten sind aber kein Einzelfall. Die Suchanfrage

  site:www.cam4spy.de +"webhits hilfe"

bringt zwei Seiten bei Google, die, wenn man sie aufruft, leer sind, aber die, wenn man das "Archiv" bzw den Cache abruft und sich dann den Quellcode der Cache-Seite zieht, so aussehen, als haette jemand mutwillig in die Mitte einer Seite eine andere kopiert. Das ist entweder Datenkorruption bei Google, oder ein popeliger Versuch, Google zu ueberlisten. Ich habe zunaechst auf das erstere getippt. Aber die Suchanfrage

  site:www.cam4spy.de +webhits

produziert gleich 100 Seiten, in die etwas "gerutscht" ist. Ersetzt man webhits durch red11, sinds 34 Seiten. Finanzberatung ergibt 2 Seiten, "Au Pair" 80, Agentur 8 usw.

Die erste Vermutung lag nahe, weil ich auch letztes Jahr schon Dinge beobachtet hatte, die nicht ausgiebig genug getesteten Code vermuten liessen. So ergab die Suche "site:www.google.com -google" Seiten von Adobe und mehreren .EDU Sites.

Fuer die zweite spricht, dass die Einfuegung stets an der gleichen Stelle erfolgt. Dagegen spricht aber die Tatsache, dass man bei Aufruf der "eigenartigen" Seiten nichts, oder fast nichts, erhaelt:

  HTTP/1.1 200 OK
  Date: Tue, 27 Apr 2004 18:59:07 GMT
  Server: Apache/1.3.23 (Unix) mod_python/2.7.8 Python/2.2 PHP/4.3.0 mod_perl/1.26
  X-Powered-By: PHP/4.3.0
  Expires: Mon, 26 Jul 1997 05:00:00 GMT
  Last-Modified: Tue, 27 Apr 2004 18:59:07 GMT
  Cache-Control: post-check=0, pre-check=0
  Pragma: no-cache
  Status: 404 Not Found
  Connection: close
  Content-Type: text/html

Was wiederum auf einen "kreativ konfigurierten Server" schliessen laesst. Man fragt sich daher, was das Ganze soll.

Und vor einer Woche wurde ich durch eine Verkettung von Indizien darauf aufmerksam, dass eine mir bis dato unbekannte Site laut Google angeblich 358 mal von meiner Site verlinkt wird. Die sind auch nach dem juengsten Update noch drin. Den Namen der angeblich verlinkten Domain erwaehne ich hier bewusst nicht. Er ist aber nicht nur mir bekannt.

Google Algebra

Zunaechst rauscht es durch die US-Blog Szene, dass man Googles Zahlen nicht trauen sollte, weil man bei eingesetzen Rechnern, der Plattengroessen und Arbeitsspeicher genauso wie bei den taeglichen Suchanfragen und allen anderen Werten extrem untertreibt, was gleichzeitig bedeutet, dass Googles Faehigkeiten bezogen auf den Unterhalt der groessten und auch noch dezentralen Rechner-Farm der Welt massiv unterschaetzt.

Und dann kommt der Boersengang, der ebenfalls ueberrascht. Erstens will man nur fuer ca $US 2.7 Mrd Aktien verdruecken, waehrend die Finanz-Presse von 15, 25 und auch bis zu 50 Mrd Dollar schwaermte. Und dann gibts beim IPO auch noch eine Versteigerung, statt dass man, wie es sich bei solchen Anlassen "gehoert", alles ueber Druecker [Broker auf Hochdeutsch] zu verscherbeln.

The Register hat eine interessante Analyse des sog Filings bei der SEC selbst, die sich ueberraschend und wohltuend von dem absetzt, was man sonst so in den letzten Tagen zum Thema Google-IPO lesen konnte [wobei es erst in der 2. Haelfte der Seite zur Sache geht].

Kuriositaeten:

So macht man CSS Files unsichtbar... Auch Text kann unsichtbar gemacht werden... Und Verstaendnisschwierigkeiten sind offenbar nichts Neues.

Neu auf der Suchmaschinen-Site

Wenn Sie Ihre taegliche Dosis meistens ernst gemeinter Kommentare ueber die Suchmaschinen-Szene brauchen, empfehle ich meinen fast jeden Tag aktualisierten Suchmaschinen-Blog.

Und im Kundenbereich wurden mehrere Seiten vor und nach meinem Oster-Urlaub neuen Realitaeten angepasst. Die letzte Aenderung [ganz oben auf der "Was ist neu Seite"] vom 22.4. sollte von jedem Kunden beachtet werden.

Newsletter Archiv

© Copyright 1998 - 2008 Klaus Schallhorn.