Google-Panne, AltaVista, Hexerei & Kritik.

1. Suchmaschinen-Schluckauf

Am 4.3. berichtete ich auf meinen Newsseiten, dass Google auch auf HTTPS-Servern abgelegte Seiten indiziert und dabei das robots.txt File auf diesen Servern ignoriert. Das fuehrte dazu, dass von Google auch /cgi-bin-Aufrufe erfolgten, d.h. ueber ein GET aufrufbare Programme von Google aufgerufen oder ausgefuehrt wurden. Da selbst der derzeitige Medienliebling Google nicht so intelligent ist, dass die Suchmaschine Formularfelder eigenstaendig ausfuellen kann, ist die Ausfuehrung von Programmen auf fremden Servern kaum sinnvoll.

Ein paar Stunden spaeter hatte ich eine Mail von Google.

> Thank you for calling this issue to our attention.  We are
> currently looking into it and will get back to you shortly.

Am 8.3. erhielt ich eine Mail, dass man das Problem gefunden und gefixt habe, was mich veranlasste, meine News-Meldung um eine entsprechende Anmerkung zu erweitern.

Am gleichen Tag erhielt ich von einem anderen Google-Mitarbeiter, diesmal von einem deutschsprachigen Google-Ableger, eine Mail, in der die Methodik meiner Suchmaschinen-Statistik fuer Unzufriedenheit sorgt.

> Ich bin mit
> Ihrer Methodik nicht ganz einverstanden:

und ...

> Ich sehe nicht, was das mit
> einem niedrigeren Aktualitaetsgrad zu tun hat...wenn Sie 300s nicht
> zaehlen, waere Google besser als search.ch, wie es sich gehoert :-)

Wie das im Leben so ist, ist der Ton substantieller Bestandteil der Musik.

Auf meine Antwort:

> Ich moechte mir nicht anmassen, Google mit search.ch zu
> vergleichen. Bevor Sie aber Ihre eigene PR vollends glauben,
> bedarf es einiger zusaetzlicher Reparaturen.

In den Folgezeilen erklaerte ich, wie Google aufgrund einiger, sagen wir mal, Eigenarten, zu Sicherheitsverstoessen missbraucht werden koennte, wenn jemand ein paar leicht verifizierbare Zusammenhaenge erkennt und ausnutzt. Die Erklaerung schloss ich mit den folgenden Saetzen ab:

> Leider verhaelt sich Google, so wird mir
> gesagt, in dieser Beziehung nicht anders als andere Suchmaschinen,
> d.h. Hinweise [oft Hilferufe der betroffenen Site-Betreiber]
> werden, so sagt man mir, ignoriert.

Erwartungsgemaess habe ich daraufhin keine Antwort erhalten.

Den Mitarbeiter, der mir am 8.3. den HTTPS-Fix meldete, wies ich am gleichen Tag auf die neu entdeckte Problematik hin. Diese wurde als nicht bedenklich zurueckgewiesen:

> and will not pose a problem for the
> majority of our users.  Of course we are happy to respond to any
> complaints about this issue should any arise - to date we haven't
> received any whatsoever.

Da Sicherheitsfragen gelegentlich tieferes Verstaendnis der Materie oder Bestaetigung anerkannter Experten bedingt, ging ich davon aus, dass die Meinung eines fuehrenden amerikanischen Sicherheitsexperten meiner Aussage mehr Gewicht verleihen wuerde. Bewaffnet mit einer sog. "2nd Opinion", d.h. einer Bestaetigung des Risikos durch Bruce Schneier, erklaerte ich die Zusammenhaenge so, dass auch nicht sicherheitsbewusste Anwender die Problematik nicht verkennen koennen.

Auch daraufhin habe ich bisher nichts gehoert. Wie Bruce Schneier in seinem ausgezeichneten Newsletter oft bestaetigt, ist es heute ueblich, dass Sicherheitsprobleme von der Industrie totgeschwiegen werden, solange niemand publiziert.

Die Publikation andererseits fuehrt oft zu sofortigen sog. Exploits, d.h. zur Ausnutzung der veroeffentlichten Loecher zur Schaedigung Dritter, noch bevor die Industrie sich endlich zu einem Fix bequemt. Da das gemeldete Risiko aber nicht nur Google sondern zahlreiche Suchmaschinen angeht und dort ebenfalls Totschweigen praktiziert wird, kann ich Interessierten nur den Umstieg auf Open-Source-Systeme empfehlen.

Fuer englischsprachige an der Sicherheit ihres PCs interessierte Leser ist Bruce Schneiers kostenloser Newsletter Zwangslektuere:

http://www.schneier.com/crypto-gram.html

2. AltaHut

Ueber die Unstimmigkeiten mit AltaVistas deutscher Presse-Agentur Vibrio [neu lat.: "Vibrator"] und AltaVistas Aktualitaet hatte ich in der letzten Ausgabe dieses Newsletters ausfuehrlich berichtet. Daraufhin erhielt ich einen Anruf von AltaVista UK Marketing, eine Zunft, die bei mir besonders hohen Stellenwert hat, gefolgt von dem Anruf eines Technikers von AltaVista UK.

Aus diesem Gespraech gingen mehrere mir bisher nicht bekannte Dinge hervor, z.B. dass AV nicht konnektierte Server [DNS kann nicht aufgeloest werden], nur bei voelligem Neubau der Datenbanken entfernt, bei Zwischen-Updates also in der Annahme, dass betroffene Server nur zeitweise nicht erreichbar sind, diese im Datenbestand behalten werden.

Damit wissen wir, dass seit zumindest dem 14.11.2001 kein volles Update stattgefunden hat, da der von meinem Provider an diesem Tag geloeschte DNS-Eintrag oder genauer der Server mit fast 100 Seiten immer noch im AV-Datenbestand gefunden wird. Auch die auf meinem Server am 9.11. geloeschten Seiten sind immer noch in AltaVistas Datenbestand. Warum diese bisher nicht entfernt wurden, wollte man mir bis Monatsende mitteilen.

Gleichzeitig hat man mich aber davon ueberzeugen koennen, dass - im Gegensatz zu meiner frueheren Behauptung - bei AV tatsaechlich Link-Popularitaet beruecksichtigt wird, wobei die Methodik naeher an Kleinbergs HITS-Algorithmus kommt als an Googles Pagerank.

Wie bekannt [sein sollte], hatte ich bis Nov 2001 auf jeder meiner Seiten die Bezeichnung "business interactive". Wer bei Google diese beiden Woerter [ohne Anfuehrungszeichen oder sonstige Syntax] eingibt, findet meine Site meist auf Platz eins - weil eine grosse Zahl von Links mit diesem Linktext auf meine Eingangsseite zeigt.

Wenn ich bei AV zusaetzlich das Wort "Schritt", das vom 9.11. bis Januar Bestandteil des TITLE der Eingangsseite war, ebenfalls ohne Syntax eingebe, finde ich meine Site ebenfalls auf Platz eins. Das gleiche gilt, wenn ich "business suchmaschinen" eingebe oder auch z.B. "interactive business schritt" eingebe, jeweils ohne qualifizierende Syntax als reine Wortfolge.

AV kombiniert hier die Linktexte fremder Seiten und im TITLE meiner Eingangsseite gefundene Begriffe. Was neu zu sein scheint, ist dass die Wortfolge bei AltaVista keine Rolle [mehr] spielt, wie das Beispiel "interactive business schritt" zeigt, waehrend bei Google die Suche nach "interactive business" andere Ergebnisse produziert.

Auch ueber die einfache Suche nach "business interactive" ohne Syntax finde ich meine Seite bei AV inzwischen auf der 2. Seite der Ergebnisse. Dass dieses Resultat von dem im Januar gemeldeten abweicht, ist natuerliche Folge der "Schwankungsbreiten". Wie ich vor langer Zeit berichtete, schwanken Suchergebnisse bei AltaVista manchmal von Minute zu Minute, Woche zu Woche oder auch Monat zu Monat.

Viele [fuer den Techniker] interessante Diskussionspunkte fuehren nicht an der Beobachtung vorbei, dass AltaVistas Datenbestand nicht zu den aktuellsten zaehlt.

3. Suchmaschinen-Hexerei

Jeder weiss - oder sollte wissen - dass Brueckenseiten historisches Relikt der Suchmaschinen-Strategie sind. Moderne Algorithmen, die Linkpopularitaet und andere externe Faktoren beruecksichtigen, beeinflussen Suchergebnisse heute immer mehr. Im Extremfall fuehrt das dazu, dass bei nicht haeufigen Formulierungen schon wenige Links ausreichen, eine Seite fuer eine bestimmte Formulierung nach "oben" zu bringen. Zahlreiche sich dem Thema "Google-Bombing" widmende unterschiedlich qualifizierte Artikel erklaeren, wie man nur durch das Setzen von Links die Suchmaschinenposition fuer eine Formulierung, die nicht in der Ziel-Seite enthalten sein muss, beeinflusst.

Schon das Beispiel "business interactive" oben belegt, dass meine Eingangsseite fuer diese Formulierung gefunden wird, obwohl diese Wortfolge nicht auf meinen Seiten vorkommt [das stimmt nicht ganz: ich habe kuerzlich ein Archiv aelterer Newsletter-Ausgaben auf meiner Site angelegt. In ein paar noch nicht gespiderten Seiten taucht diese Formulierung an nicht prominenter Stelle auf]. Die Suche nach den beiden massgeblichen Worten - ich moechte die erneute Wiederholung hier vermeiden - zeigt bei AV eine Zahl von fast drei Millionen und bei Google 2.6 Mio Fundstellen.

Die Suche nach "Eselsbrücke" ergibt bei AV 1,200 und bei Google 2,100 Fundstellen. Wenn jeder Leser dieses Newsletters einen Link auf

http://www.witch.de/marketing.php

mit dem Linktext "Eselsbrücke" setzt, waere sichergestellt, dass bei einer entsprechenden Suchanfrage diese Seite zuerst ausgegeben wird. Diese Seite bietet unter Punkt 2. S.E.O. die maschinelle Erstellung sog. Brueckenseiten bei gleichzeitigem Hosting einer Site an.

Originalton Witch:

"Dabei wird fuer jeden denkbaren Suchbegriff jeweils eine optimale Seite erstellt. Diese Seiten sind 100% optimiert fuer Suchmaschinen und werden von diesen auch gefunden und eingelesen. Ueber diese Seiten wird der Besucher dann von der Suchmaschine zu Ihrer Homepage geleitet. Vor allem Praesenzen mit Frames oder Datenbanken, wie z. B. Online-Shops, profitieren von diesen "Einstiegsseiten"."

Waehrend ich das Argument "Online-Shops" gelten lassen will, weil dort ueberwiegend dynamische Seiten eingesetzt werden, die von den meisten Suchmaschinen ignoriert werden, wissen wir, dass die heute wichtigen Suchmaschinen zwar viel finden, aber laengst nicht alles indizieren. Hinzukommt, dass fuer jede Formulierung, die gefunden werden soll, eine suchmaschinenspezifische Seite optimiert werden sollte. Eine Seite, die in allen Suchmaschinen fuer die gleiche Formulierung [nur aufgrund der Seiteneigenschaften] gefunden wird, gibt es nicht. Genausowenig werden Links auf Brueckenseiten gesetzt, so dass externe Faktoren hier nicht weiterhelfen.

Es ist ja wohl kein Geheimnis, wenn ich hier erklaere, dass ich ueber mehrere Test-Praesenzen verfuege, die bei unterschiedlichen Providern gehostet sind und bei denen weder der Whois-Eintrag noch der Seiteninhalt irgendwelche Rueckschluesse darauf erlaubt, dass diese von mir genutzt werden.

Die regelmaessige Beobachtung dieser - teilweise gut verlinkten - Sites zeigt z.B., dass kleinere Suchmaschinen wie Acoon oder Abacho auch nach mehrfacher Anmeldung viele Praesenzen nicht spidern, und dass selbst groessere wie AllTheWeb, AltaVista, Fireball, Google oder Inktomi immer nur ein paar Seiten jeder indizierten Praesenz in den Datenbestand aufnehmen. Schweizer oder oesterreichische Suchmaschinen koennen Sie zum Grossteil ignorieren, auch wenn Sie eine CH oder AT Domain betreiben. Bei diesen und den kleineren deutschen und auch internationalen koennen Sie Ihre Seiten anmelden, bis Sie schwarz werden. Die wiederholte Anmeldung wirkt sich daher nur auf Ihren Blutdruck aus.

Daher ist es wesentlich lukrativer, sich auf die wenigen Grossen zu konzentrieren, die mehr als 98% aller Besucher, die Ihre Site ueber Suchmaschinen finden, bringen.

Wobei wieder gilt, dass Off-Page Kriterien, d.h. externe Faktoren wie Verlinkung, Linktexte, und andere Dinge ausschlaggebend sind, sobald eine Seite fuer Suchbegriffe gefunden werden soll, bei denen die Zahl der Fundstellen fuenf-, sechs- oder siebenstelligen Werte erreicht.

Leidiger Kommerz

Es ist keine Kunst, Seiten fuer Formulierungen wie Sony Ghettoblaster auf die besseren Plaetze zu bringen, selbst bei Google, wenn die Zahl der Fundstellen unter 300 liegt [wenn Seiten aus Deutschland selektiert wird]. Wer sich Googles Cache [Archiv] der Seiten holt, sieht, was Google und allen User-agents untergeschoben wird, die nicht Mozilla-kompatibel sind. Wer mit einem normalen Browser auf eine der vielen Fundstellen zugreift, wird auf Amazon umgeleitet.

Dass Amazon ein Low-Tech-Unternehmen ist, ist ebenfalls bekannt. Dort erfordert die Seiten-Erstellung oder die Korrektur einfacher aber gravierender HTML-Fehler "technische Experten". Gravierend, weil die Seitenfehlkonstruktion seit letztem Sommer dazu fuehrt, dass bei manchen Browsern der Absendeknopf im Einkaufswagen fehlt.

Dabei ist es denkbar, dass Amazon das Spamming der Suchmaschinen an Dritte nicht delegiert, weil interne Qualifikationen fehlen, sondern um im Falle des Erwischtwerdens mit dem Finger auf Dritte verweisen zu koennen.

Fazit: wenn Sie Bademaentel, Fahrradklammern, Ghettoblaster oder andere Dinge loswerden wollen, die in nur sehr wenigen Seiten genannt werden, koennen Brueckenseiten genauso erfolgreich sein, wie einfache Seiten, bei denen die Interessen der Anwender im Vordergrund stehen und die deshalb auch von Site-Betreibern verlinkt werden.

Solange Ihre Brueckenseiten nicht auffallen. Aber sowie die Zahl der Fundstellen steigt, verlieren alle Manipulationsversuche auch fuer den Site-Betreiber an Wert. Dass Brueckenseiten wie die Ghettoblaster- Beispiele auch fuer den User wertlos sind, sehen Sie selbst.

4. Suchmaschinen-Kritik

Ich muss nochmal auf meinen Schriftverkehr zurueckgreifen, auch wenn diese Ausgabe wesentlich laenger wurde, als geplant. Warum ich kommentarlos zitiere, sehen Sie am Ende des Zitats.

On Sat, 16 Mar 2002, wba wrote:
 
> Hallo und guten Tag,
 
dto
 
> Frage: Erstellen wir Webseiten fuer Suchmaschi(e)nen? Oder erstellen
> wir Webseiten fuer Menschen?
 
Beides, da die letzteren Seiten zu einem grossen Teil ueber die
ersteren finden.
 
> Frage: Unterwerfen wir uns mit Design und technischen
> Moeglichkeiten/Entwicklungen dem, was die Suchmaschi(e)nen
> koennen/wollen/vorgeben, oder nutzen wir die rasanten Entwicklungen
> des Internet, um Informationen zu "praesentieren"?
 
Das haengt, wie Sie in meinem Tutorial lesen koennen, von der
Zielgruppe ab. Bei erfolgreichen Sites steht diese im Vordergrund.
 
> Beispiel: Flash bietet weit mehr Moeglichkeiten, Informationen visuell
> attraktiv zu praesentieren als HTML-pur. Und darauf sollen wir
> verzichten, nur, weil Suchmaschi(e)nen (und deren Entwickler) uns das
> vorschreiben?
> Sorry, aber das erscheint mir mehr Rueckschritt als Fortschritt.
>
> Andersrum wird ein Schuh draus: die Suchmaschi(e)nen muessen der
> zugegebenermaßen irre rasanten Entwicklung Tribut zollen. Sie muessen
> lernen, auch dynamische Seiten korrekt zu lesen und zu ranken. Oder
> erwarten Sie etwa von den Herstellern dynamischer
> Content-Management-Systeme, daß die sich auf das Codierungsniveau von
> sagen wir 1997 zurueckbegeben?
 
Ich beschreibe auf meiner Site nicht etwaige Zukunftsvisionen oder
Wunschvorstellungen, sondern den Ist-Zustand. Dieser unterliegt
nicht meiner Kontrolle, sondern orientiert sich an Erfahrungen und
Entwicklungen der Information-Retrieval Fachrichtung ueber die
letzten ca 40 Jahre.
 
Wenn Ihnen der Ist-Zustand nicht zusagt, hindert Sie niemand
daran, diesen zu verbessern und eine eigene Suchmaschine zu
entwickeln, die Flash und JavaScript auswertet. Die Personenkreise,
die Suchmaschinen professionell betreiben und entwickeln, haben gute
Gruende dafuer, diese Dinge _nicht_ auszuwerten. Wer die
existierenden Suchmaschinen nutzen will, muss den Ist-Zustand
hinnehmen oder ihn aendern.
 
> ist Ihre Seite sehr gut, aber, bitte, das WWW wird zu WERBEZWECKEN
> genutzt!
 
Aber eben nicht ausschliesslich und nicht einmal ueberwiegend,
auch wenn die Marketing-Welt dies gerne so sehen wuerde. Auf dem
Web ist der Anwender [vielleicht erstmals] "Koenig".
 
> Das bedeutet aber auch, daß eben nicht der Informatiker/Programmierer
> entscheidet, wie die Seite auszusehen hat, sondern die Marketing- und
> Werbemenschen. Wir sind beim alten Fight des Programmierers mit dem
> Grafiker :-)
 
Dieser wurde laengst entschieden, nur hat sich das noch nicht
ueberall herumgesprochen. Vergleichen Sie z.B. die Anwender-Zahlen
von Google oder Yahoo einerseits und Hotbot andererseits. Yahoo
und Google setzen auf puristisches Seitenlayout _ausschliesslich_
aus Eigennutz, d.h. weil die Mehrzahl der Anwender dies bevorzugen.
 
> Sie koennen doch nicht wirklich allen Ernstes verlangen, daß wir die
> vielfaeltigen Design-Moeglichkeiten, die uns das WWW mit Technologien
> wie Java, Javascript, DHTML oder Flash bietet, ignorieren, nur, weil
> die dummen Suchmaschi(e)nen damit nichts anzufangen wissen?!
 
Wenn Sie Programmierkenntnisse besitzen wuerden [mit Betonung auf
Zuverlaessigkeit und Sicherheit laufender Prozesse], wuerden Sie
schnell erkennen, dass es nicht "Dummheit" sondern ausgepraegte
Intelligenz ist, die dazu fuehrt, dass man Flash, JS usw missachtet.
 
> Einem solchen Diktat werden sich die Werber und Marketingleute nie
> unterwerfen. Mich eingeschlossen :-)
 
Abwarten.
 
mfg
 
ks

usw... Ende der email. Damit, dachte ich, war der Fall wohl erledigt. War er nicht. Kurz danach kam die email als unzustellbar zurueck.

Im Juni letzten Jahres lasen Sie folgendes in diesem Newsletter:

> Professionelle Web-Gestalter setzen auf systemneutrale HTML und
> dynamische Informationsaufbereitung auf dem Server. Flash ist
> fuer immer noch Flaschen und JavaScript fuer Kritzler.
>
> Deshalb zeigen mehr als 600,000 Links auf www.yahoo.de und keine
> 5,000 auf www.kolibri.de [geprueft bei www.altavista.de mit der
> _deutschen_ und NICHT der internationalen Einstellung].

Kolibri, eine Suchmaschine die ohne Flash und JavaScript nicht genutzt werden konnte, wurde inzwischen eingestellt. Der Besucherandrang war offensichtlich nicht zu verkraften.

Newsletter Archiv

© Copyright 1998 - 2008 Klaus Schallhorn.