InfoSeek, Inktomi, email-Marketing.

Downtime

Ich bin eigentlich kein aberglaeubiger Mensch, aber irgendwie schaffe ich es nicht, einen Server mehr als 120 Tage ohne Unterbrechung zu betreiben. Am letzten Sonnabend musste ich den Server anhalten, weil der Provider Maschinen innerhalb des Gebaeudes verlegen wollte. Die fuer 30 Minuten geplante Downtime summierte sich auf - nach meiner Uhr - mehr als zwei Stunden.

Dienstag abend musste ich den Server nochmals anhalten, weil der Provider nach dem "Umzug" vergass, die Maschine vom USP zu fuettern. Naechste Woche muss die Maschine nochmal "runter". Wo mehr als ein UPS verfuegbar ist, muss die Chance, den richtigen UPS an die richtige Maschine zu haengen, durch die Zahl der vorhandenen UPS-Geraete dividiert werden. Ergo: koordinierte Downtime fuer mehrere Server.

Steinzeit-Web

Manche Effekte auf dem Web sieht man nur, wenn man, wie ich, stoerrisch einen alten Browser einsetzt, weil Neue groesser, klobiger, langsamer und keineswegs sicherer sind. Schon gar nicht absturzsicherer [Erfahrene wissen, dass Netscape 3.0.4 der beste Browser ist, den man fuer Unix-Systeme findet].

Ueberraschend finde ich die Beobachtung, dass selbst bei Suchmaschinen korrekte HTML eher zu den Ausnahmen zaehlt. Manche liefern Seiten, die unbrauchbar sind - bar jeder Navigation - wenn JavaScript deaktiviert ist. Andere haben so viele Fehler, dass Seiteninhalte nur erraten werden koennen. Eine dritte Mutation erlaubt die Abarbeitung und Darstellung von Seiten nur durch den Windows-Explorer in Verbindung mit ActiveX oder anderen Plugins.

Der ultimative Effekt ist zwar ist in jedem Fall der Browser- Absturz, besonders dann, wenn man eine History-Liste mit URLs hat, die man in der jetzigen Sitzung noch besuchen moechte, trotzdem glaube ich, dass viele Anbieter sich das Leben durch Abschalten des Servers vereinfachen koennten.

Ein kurzes Script, das bei den fuehrenden Suchmaschinen die Startseite abruft, um diese durch einen Validator zu schieben, zeigt, dass keine fehlerfreie Startseiten liefert. 2484 Warnungen und Fehlermeldungen produziert WebLint fuer die Startseiten der wichtigsten Suchmaschinen. Diese Zahl steigt auf ueber 6000 [sechstausend] fuer die nach einer Suche gelieferten Seiten von insges. 14 Suchmaschinen.

Mickey Mouse gegen Dagobert Duck

Mickey Mouse mag nette Eigenschaften und auch Character haben, trotzdem ist sie, im Vergleich zu Dagobert Duck, eine Waisen- Knaebin. Seitdem Infoseek durch Disney kontrolliert wird, wird der Verluste niemand Herr. Mehr als $1000 Mio gruene Dollarnoten wurden im letzten Geschaeftsjahr in den Sand gesetzt.

Da man Talent nicht an der Leine halten kann, wenn man Computer kauft, ist die Fluktuation des Personals bei Infoseek, heute go.com, immer noch in vollem Gange. Jetzt verkuendet man, dass man sich mehr auf "Unterhaltung und Freizeit" konzentrieren will, auf diesem Sektor "bessere" Ergebnisse bieten moechte [obwohl man fuer alle anderen Suchanfragen ebenfalls die besten zu liefern verspricht] und ueberhaupt wieder mal in der Presse genannt werden moechte. Alte und neue Medien scheinen nicht miteinander auszukommen.

Mathematik-Einschraenkungen

Inktomis letzte Pressemeldung ist voller Superlatrinen. Mehr als 1000 Mio Seiten auf dem Web will man bei Inktomi gemessen haben. Ich bestreite diese Zahl aus gleich zwei verschiedenen Gruenden. Der erste manifestiert sich in vielen Log Files als gelegentlicher Abruf von Seiten aus dem Stammverzeichnis, wenn eine Seite tatsaechlich in einem tiefer liegenden Verzeichnis wohnt.

Der zweite Grund ist das leidige Dubletten-Problem. Wer bei zum Beispiel www.swisssearch.ch sucht [einem von vielen Inktomi- Kunden], findet nicht nur einen Hinweis auf ein fehlendes Flash Einsteck-Modul [Plugin] sondern regelmaessig Dubletten. Die gleiche Beobachtung gilt auch fuer andere Verwender von Inktomi- Daten.

Manche Dubletten entstehen durch zweifelhafte Links, wenn ein Site-Verantwortlicher mal einen Link auf "/" setzt und dann auf die gleiche Seite mit dem Link "/index.html" verweist. Schlimmer sind tatsaechliche Dubletten, wenn eine URL mehr als einmal in einer Datenbank enthalten ist, wenn also die Datei /index.html mehrfach in die Datenbank gespeist wird.

Zusaetzlichen Aufwand kostet den Suchmaschinenbetreiber die Erkennung von Dubletten, bei denen ein Text unveraendert unter mehr als einer URL abgelegt wird, z.B. /1.html, /2.html usw... wenn also nur der Datei-Name, nicht aber der Inhalt veraendert wird. Inktomi - und viele andere Suchmaschinen - fallen auf alle drei Arten herein, wobei die erste Variation Unkenntnis eines Webmasters und die Dritte Ausnutzung erkannter Schwaechen ist, alle drei aber nur durch nachlaessige Programmierung bei den Suchmaschinen erst moeglich werden.

Eine weitere Neuerung bei Inktomi ist die Media Database [oder Mediendatenbank], die die groesste der Welt sein soll und die keine Medien - Radio, TV, Print usw. - sondern Information ueber 2.5 Mio Multimedia-Objekte - AVI, WAV, MP3 usw - enthaelt. Inktomi verspricht nicht nur, dass man fuer jede Suchanfrage die relevantesten Dateien nennt, sondern gleichzeitig die aktuellsten und qualitativ wertvollsten. Oder, wie man hier sagt, "Pull the other one".

Bleibenden Eindruck hinterlaesst der Teil der Pressemeldung, der "Inktomi's Concept Induction" erklaert, ein Vorgang, bei dem unter Beruecksichtigung der durch Klick-Analyse gewonnenen Daten [schliesslich muss man DirectHit Paroli bieten] sog. "advanced supercomputing techniques" eingesetzt werden. Kenner der Materie wissen zu schliessen, dass die seit Juni 1999 genutzte Technik offensichtlich so fortschrittlich ist, dass Perl-Scripts nicht mehr ausreichen.

Die Technik, die zu "Ergebnissen hoechster Qualitaet und Relevanz" fuehrt, koennen Sie "in action" sehen, wenn Sie bei zum Beispiel Hotbot nach searoom suchen. Die auf den ersten beiden Plaetzen ausgegebenen Seiten fuehren zur Seite eines Web Design-Studios, einmal unter http://www.searoom.com/index.html und dann ohne index.html. Oder wenn an erster Stelle ein Ergebnis erscheint, dessen Beschreibung lautet: "Server Error: the Query failed".

Offensichtlich kommt man auch im 21. Jahrhundert nicht ohne leichte Uebertreibung aus. Jede Suchmaschine ist die groesste, schnellste, vollste und intelligenteste. Und jede liefert die relevantesten Ergebnisse, denn wer sich mit Information Retrieval befasst, weiss, dass alle tatsaechlich relevanten Algorithmen Mitte des letzten Jahrhunderts [in den 1960ern] entwickelt wurden und dass es bis heute keine eigentlichen Fortschritte bei der Dokumentanalyse gibt.

Suchmaschinen bemessen Rang, d.h. den Wert einer Seite fuer eine spezifische Anfrage, immer noch durch simple Arithmetik: Wie oft kommt der Suchbegriff in einem Dokument vor, und wie unterscheidet sich dieser Wert von allen anderen Dokumenten.

Manche gehen soweit und geben jedem Suchbegriff einen eigenen Wert - Worte, die haeufig in der Datenbank vorkommen, erhalten einen geringeren Wert als seltene Begriffe - am eigentlichen Selektionsverfahren aendert sich aber nichts.

Seitdem die traditionelle Welt das Web zum "Wilden Westen", in dem jede Schandtat erlaubt zu sein scheint, erklaerte, seitdem jeder, der aufs Schnelle Geld aus ist, sich mit Suchmaschinen und der preiswerten Moeglichkeit, "gefunden zu werden", befasst, mussten die Suchmaschinen miterleben, wie technisch Begabte erkennbar einfachere Rankingmethoden ungehemmt zum eigenen Vorteil missbrauchten: manche Site-Betreiber meldeten tausende und abertausende von Seiten mit nur geringen Abweichungen an, um sich mit Gewalt auf einen der begehrten vorderen Plaetze zu zwaengen.

Was den Anwendern als kreativer und intelligenter Fortschritt, als Evolution der Suchmaschinen, verkauft wird, ist seit jetzt mehreren Jahren nicht mehr als der stets hinterherhinkende Versuch systematischer Entsorgung - die Bemuehung, den Schrott zu bewaeltigen.

Die bei den Suchmaschinen entwickelte "Kreativitaet" fuehrt vor allem dazu, dass man Methoden entwickelt, die oft nicht viel ehrlicher sind, als die der Spammer. Da Anwender nicht in barer Muenze - sondern nur durch Zeitaufwand fuer das Laden meist ignorierter Banner - fuer die Nutzung der Datenbanken bezahlen, gibt es keine Reklamationen.

Ausserdem faellt es kaum jemand auf, wenn Suchmaschinen nur Teilbestaende der angeblich verwalteten Datenmengen online haben. Niemand scheint zu merken, dass manche Seiten, auch wenn sie monate- oder jahrelang nicht veraendert wurden, mal "drin" sind und mal nicht. Dass "Verschwinden" und "Wiederauftauchen" immer ganze Gruppen von Sites [voellig unabhaengig voneinander] betrifft. Dass bei jedem "Wiederauftauchen" die dem Set eigene Rangfolge dieser Seiten wiederhergestellt wird.

Aktualitaet wird bestenfalls durch Daten-Rotation simuliert. Wirklich intelligente Such-Syntax und damit die Moeglichkeit, am Muell vorbeizusuchen, gibt es nur bei einer Handvoll der Grossen. Viele Suchmaschinen-Spider laufen entweder im Kreis, oder rufen Seiten ab, die vor Jahren geloescht wurden, oder deren Zugriff per robots.txt oder Passwort-Schutz nicht erlaubt oder moeglich ist.

Da sich besonders Ehrgeizige damit nicht abfinden wollen, hat diese Entwicklung dazu gefuehrt, dass ganze Sites unter vielen Domainnamen gehostet und bei den Suchmaschinen angemeldet werden. Nicht funktionierende [oder angestrebte] Vermeidung solcher Dubletten erreicht genau das Gegenteil von dem, was die "Evolution" der Suchmaschinen - die Bewaeltigung der rapide wachsenden Menge oft wertloser Seiten - erreichen soll. Die Katze beisst sich als in das eigene Endstueck.

Militaer-Strategie

Niemand ist gezwungen, Spam-Seiten zu erstellen, bei denen ein urspruenglicher Text mit 100 oder mehr geringfuegigen Modifikationen auf den Server kommt, nur damit eine mit etwas Glueck genau dem derzeitigen Ranking-Verfahren einer oder mehrerer Suchmaschinen entspricht - und alle anderen die Datenbanken zusaetzlich vollmuellen.

Schrot ist nie so zielsicher wie Scharfschiessen - und in diesem Falle oft so sichtbar, dass die Methode als Verzeiflungstat erkennbar wird.

Jedes gute email-Programm sichert Kopien aller ausgehenden, und bei entsprechender Konfiguration, auch eingehender Nachrichten. Wenn Sie regelmaessigen Kundenkontakt per email haben, finden Sie in diesen Kopien gestellte Fragen, Material fuer hunderte oder gar tausende von Seiten, jede mit eigenem Inhalt und jede einen anderen Gesichtspunkt Ihres Angebots/Produktes/Service behandelnd.

Wenn Sie jede potentielle Kundenbeziehung wie eine Affaere behandeln, wissen Sie, dass Sie Ihre Seele, und nicht etwa ein animiertes GIF, geben muessen, um ernstgenommen zu werden.

Solche und wirkliche Information enthaltende Seiten bieten, wie systematische Modifikationen einer Musterseite auch, den Vorteil, dass Sie Ihre Gesamt-Seitenzahl in den Suchmaschinen in die Hoehe katapultieren.

Mit dem feinen Unterschied, dass der Suchende Ihre Site als Informationsquelle, die auf jede Frage eine Antwort hat, erkennt - und nicht als jemand, der mit dem Sprachrohr dringend auf sich aufmerksam machen will.

Newsletter Archiv

© Copyright 1998 - 2009 Klaus Schallhorn.