Information Retrieval ist eine inzwischen fünf Jahrzehnte alte Disziplin. Die grössten Fortschritte wurden in den sechziger Jahren gemacht. Während viele Thesen auf Untersuchungen mit vergleichsweise geringen Datenbeständen basierten, erlauben Hardware-Fortschritte der letzten Jahre heute die Realisierung der Theorien auch bei massiven Dokumentensammlungen.
Führend bei der Entwicklung neuer Modelle und der Verifizierung bekannter IR-Thesen ist unter anderem IBMs Research-Lab, wo die Idee der Berücksichtigung externer Links 1997 eine neue Richtung einschlug.
Das von J. Kleinberg et al entwickelte Clever-System, basierend auf dem Vorgänger HITS und mehreren teilweise bereits zwanzig Jahre alten Theorien hat sich in der Labor-Praxis bereits so bewährt, dass zwischen Bewertungen von Dokumenten, die durch geschulte Mitarbeiter von Unternehmen wie Yahoo! durchgeführt werden, und maschinellen durch Systeme wie z.B. Clever keine signifikanten qualitativen Unterschiede gemessen werden können.
Clever und alle verwandten Modelle berücksichtigen bei der Bewertung von Web Seiten nicht die Zahl sondern die Qualität externer Links. Die naive Annahme, man könne sein Ranking durch Eintrag in Linklisten und sog. Free-4-All-Seiten verbessern ist genauso naiv, wie die Annahme, es gäbe - weltweit - mehr als vielleicht zwanzig oder dreissig bedeutende Suchmaschinen.
Der Eintrag in solche Wegwerf-Verzeichnisse ist nicht nur unsinnig, weil Einträge dort bestenfalls ein paar Stunden bis zu ein paar Tagen sichtbar sind - unzählige "Web Promoter" und Submit-Roboter in aller Welt nehmen dort ununterbrochen Anmeldungen vor, während die meisten solcher [privat betriebenen] Verzeichnisse selten mehr als 50 bis 200 URLs speichern. Der Eintrag ist nicht einmal deshalb wirkungslos, weil er von den Suchmaschinen-Spidern, die bestenfalls alle paar Wochen dort vorbeikommen, kaum gefunden werden kann, sondern vor allem, weil die qualitative Auswertung bei der Berücksichtigung externer Links im Vordergrund steht.
Clever und ähnliche Modelle eignen sich von der Konzeption her - und hieran scheitert letztendlich jeder Manipulationsversuch - nicht für die eigentliche Bewertung von Seiten während der eigentlichen Suche, sondern vor allem für den Aufbau von Verzeichnissen wie Yahoo! oder die zyklische Ermittlung eines nicht von Dokumenteigenschaften abhängigen Wertes. Clever zielte darauf ab, manuelle Arbeit - die bei z.B. Yahoo! durch nahezu 100 bibliothekarisch ausgebildete Mitarbeiter durchgeführt wird - durch Automatisierung zu ersetzen.
Ein automatisch erstelltes Verzeichnis setzt daher ein Vokabular an Kategorien oder Stichwörtern voraus, die Grundlage des zu erstellenden Verzeichnisses werden. Alle auf der Theorie basierenden Modelle sind nicht Echtzeit-fähig, weil der Datenanalyse-Aufwand und vor allem der Datensichtungs-Aufwand erheblich ist. So rechnet auch Googles System heute - mit mehr als zehntausend Maschinen, etwa eine Woche lang, bis Seitenwerte aller Domains und deren Seiten ermittelt werden. Diese Berechnung erfolgt daher stets in Abständen von mehreren Wochen.
Kleinbergs Vorgehensweise: für jede Kategorie oder jeden Suchbegriff wird zunächst ein Basis-Set an Daten beschafft. Dies erfolgt entweder über eine hausinterne bereits betriebene Suchmaschine oder durch Abfragen bei einer der grossen Suchmaschinen. Das Basis-Set für eine spezifische Suchformulierung besteht damit meist aus max. 200 URLs.
Diese Basis wird im nächsten Schritt auf Links hin untersucht. Die durch Verfolgung dieser Links abgerufenen Seiten bilden zusammen mit dem Basis-Set die sog. erweiterte Basis. Die Grösse des erweiterten Basis-Sets ist Modell-abhängig, ist aber in der Regel durch eine Linktiefe von etwa zwei begrenzt, wobei gelegentlich andere Einschränkungen dafür sorgen, dass entweder nur eine bestimmte Zahl von Links einer Seite verfolgt wird oder das erweiterte Set durch ein frei gewähltes Limit auf eine vorgegebene maximale Grösse begrenzt ist.
Dieses erweiterte Basis-Set wird nun ausgiebig untersucht, wobei zwei Arten von Seiten besondere Aufmerksamkeit geschenkt wird:
Dabei geht man von der Überlegung aus, dass die Autoren von Hub-Seiten, die auf viele externe Datensammlungen verweisen, sich mit der Materie ausgiebig befasst haben und die durch manuelle Beurteilung durch die Autoren der Hubs zustandegekommene Link-Sammlung besonders wertvoll ist, wenn sie eine hohe Überschneidung mit anderen Hubs besitzt, Unterschiede aber gleichzeitig zeigen, dass es sich nicht um Dubletten handelt.
Autoritäts-Seiten wiederum sind besonders wertvoll, wenn viele Hubs Links auf diese Seiten unterhalten.
Wie relevant diese Links bezogen auf die ursprüngliche Anfrage, die das Basis-Set ergab, sind, wird durch inhaltliche Analyse aller Dokumente ermittelt. Hierbei geht man davon aus, dass ein Verhältnis zwischen Relevanz und der absoluten Entfernung des Suchbegriffes von der Position des Links besteht. Soll heissen, je weiter ein Suchbegriff von eigentlichen Link in einer HTML-Seite entfernt ist, desto geringer die Relevanz dieses Links bezogen auf den Suchbegriff. Wird der Suchbegriff im eigentlichen Link-Text, also zwischen <a href...> und </a> gefunden, wird maximale Relevanz angenommen.
In einem iterativen Prozess werden diese Bewertungen durch Gewichtung normiert und ergeben letztendlich ein Set an Ergebnis-Seiten, die bezogen auf den ursprünglichen Suchbegriff eine hohe Qualität besitzen. Die vollständige Beschreibung finden Sie in den [englischsprachigen] Original-Texten: Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text und Experiments in Topic Distillation.
Zahlreiche Versuchsläufe zeigen, dass die Methodik unabhängig von der Zusammensetzung des ursprünglichen Basis-Sets stets Ergebnisse gleichbleibender Qualität liefert, die sich bereits 1997 mit manueller Yahoo!-Arbeit messen konnten oder diese gar übertreffen. Eine der wichtigsten Erkenntnisse der bei IBM betriebenen Forschung: die auf den ersten Blick völlig chaotische Struktur des Webs besitzt durch die manuelle Analyse und Bewertung vieler Autoren von Hub-Seiten eine bisher nicht erkannte kooperative Ordnung, die dazu führt, dass selbst unterschiedlichste Basis-Sets für einen Suchbegriff immer zu nahezu identischen Ergebnissen führen.
Dabei wurde aber gleichzeitig beobachtet, dass die Methodik leicht verallgemeinert, wenn zu spezifische Anfragen oder Suchbegriffe Ausgangsbasis für die Ermittlung des Basis-Sets bilden.
Systeme wie Clever eignen sich zunächst nur für den Aufbau von Portal-Verzeichnissen oder themenspezifischen Informationssammlungen, weil die Analyse - im Vergleich zum Unterhalt einer traditionellen Suchmaschine - relativ aufwendig ist und noch nicht in Echtzeit erfolgen kann. Dieser Zustand wird vielleicht solange anhalten, wie die Fähigkeit der Weltbevölkerung, neue Inhalte zu produzieren, grösser ist, als die Kapazität der Analysesysteme.
Trotzdem werden inzwischen gewonnene Erkenntnisse und ähnliche Ideen bei heute nahezu allen Suchmaschinen berücksichtigt: Seiten, die in ein von einer Suchmaschine zusätzlich betriebenes Verzeichnis oder auch in öffentlichen Verzeichnissen wie Yahoo! oder dem Open Directory Project aufgenommen wurden, erhalten heute bei allen grossen Suchmaschinen automatisch ein besseres Ranking.
Die sicherste Strategie, in die somit als "Verstärker" fungierenden Verzeichnisse aufgenommen zu werden, ist immer noch die Erstellung so wertvoller wie attraktiver Inhalte.
© Copyright 1998 - 2008 Klaus Schallhorn.