Wie Google Pagerank, d.h. Linkpopularität, berechnet

Google findet, wie traditionelle Suchmaschinen, überwiegend Seiten, die vom Anwender gesuchte Wörter im Text enthalten. Bei etablierten und über längere Zeit bekannten Präsenzen liefert Google aber auch relevante Seiten, wenn diese die gesuchten Begriffe nicht enthalten. Hierdurch unterscheidet sich Google von vielen Suchmaschinen.

Google war die erste kommerziell betriebene Suchmaschine, die Linkpopularität beim Suchmaschinen-Ranking berücksichtigt, und die gleichzeitig den bekanntesten Linkpopularität-Algorithmus einsetzt und pflegt. Während Suchmaschinen wie AllTheWeb und AltaVista ebenfalls Linkpopularität berücksichtigen, hat diese bei Google die erkennbar grösste Bedeutung.

Googles ursprünglicher Algorithmus wird [in englischer Sprache] in einer ausführlichen Abhandlung der Entwickler dokumentiert.

Während die Implementierung in der Vergangenheit mehrfach verbessert wurde [und entscheidene Konfigurationseinstellungen in der bei Stanford veröffentlichten Arbeit nicht genannt werden], erfolgen alle Berechnungen der Linkpopularität prinzipiell immer noch nach dem ursprünglichen Verfahren.

Der auf den Namen Pagerank getaufte Algorithmus berechnet nicht mehr als die Wichtigkeit einer Web-Seite. Die Wichtigkeit oder Bedeutung - und damit die Linkpopularität - einer einzelnen Seite wird durch Berücksichtigung aller bekannten Empfehlungen Dritter ermittelt. Eine Empfehlung entsteht, wenn eine Seite einen Link auf eine andere enthält, wenn z.B. ein Verbraucherschutzverband auf einer seiner Seiten einen Link auf einen Hersteller anbringt. Festgehalten wird der Pagerank-Wert der Quellseite wie auch der dortige Linktext.

Der Google Pagerank Algorithmus [und vergleichbare Verfahren] berücksichtigt dabei nicht den semantischen Inhalt von Linktexten. Ob ein Link eine tatsächliche Empfehlung [z.B. "Testsieger im Produktvergleich"] oder vielleicht eine Produktwarnung ausdrückt [z.B. "Unfallgefahr im Alltag"], bleibt bei den Berechnungen der Linkpopularität wie auch bei der Sortierung der Suchergebnisse unberücksichtigt.

Da die Linktexte aller externen Empfehlungen aber bei der Ermittlung potentieller Fundstellen ebenfalls Anwendung finden, werden die ersteren nur bei der Suche nach z.B. "Testsieger" berücksichtigt, während tatsächliche Warnungen nur in die Gleichung eingehen, wenn der Anwender "Unfallgefahr" sucht. Auf die maschinelle Erkennung der Bedeutung kann also verzichtet werden.

Google findet damit für jede Suchanfrage nur Seiten, die die gesuchten Begriffe im Seitentext enthalten, oder auf die unter Nennung dieser Wörter von aussen von ausreichend "wertvollen" Seiten oft genug verlinkt wird.

Der eigentliche Pagerank [Wert] einer Seite - ohne Berücksichtigung des Inhalts - wird nach einer bestechend einfachen iterativen Formel ermittelt. Die in der Stanford-Arbeit von Brin und Page veröffentliche Formel lautet

PR(A) = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn))

wobei PR(A) der Pagerank der Zielseite, d ein Dämpfungsfaktor, PR(T) der Pagerank einer externen Seite und C(T) die Zahl der von dieser Seite ausgehenden Links ist. Um den Pagerank einer beliebigen Seite ermitteln zu können, müssen wir zuvor die Bedeutung aller auf diese Seite linkenden Seiten kennen. Das augenscheinliche Dilemma der anfangs unbekannten Werte wird dadurch gelöst, dass allen - oder besser, fast allen - Seiten ein einheitlicher Ausgangswert zugeteilt wird.

Die Pagerank-Funktionsweise ist leichter erklärt, wenn wir uns auf drei Web-Seiten beschränken, für die wir die Linkpopularität ermitteln wollen.

Nehmen wir an, das Web besteht aus drei Seiten, die wir A, B und C nennen. A linkt auf B und C, B nur auf C, und C auf A und B. A hat damit einen eingehenden Link [von C], B hat zwei [von A und C] und C hat zwei eingehende Links [von A und B].

Wenn wir den Ausgangswert jeder Seite auf 1.0 setzen und den in der Stanford-Arbeit genannten Dämpfungsfaktor von 0.85 anwenden, sehen wir, wie Google arbeitet.

Jede Seite kann (Pagerank/Zahl der ausgehenden Links) weitergeben, d.h. zunächst einmal (1/Links).

A verteilt also (1/2)=0.5 je Link, B gibt (1/1)=1 weiter und C wie die erste Seite ebenfalls (1/2)=0.5. Die Summe aller an eine Seite weitergegebenen Werte wird vor der Addition mit dem Dämpfungsfaktor multipliziert. Wir haben daher

  1. Ausgangswert plus die von C verteilte Summe multipliziert mal Dämpfung:
    (1-0.85) + (0.85 * 0.5) = 0.575 Pagerank,
  2. Ausgangswert plus 0.5 von A und 0.5 von B, beide multipliziert mal 0.85 ergibt einen Pagerank von:
    (1-0.85) + 0.85*(0.5+0.5) = 1.
  3. Ausgangswert plus 0.5 von A plus 1.0 von B, d.h.:
    (1-0.85) + 0.85*(0.5+1.0) = 1.425.

Wir sehen, dass C die wichtigste Seite ist, weil sie wie B auch zwei eingehende Links besitzt, vor allem aber, weil ihr von B ein ungeteilter Pagerank-Wert zugewiesen wurde.

In der Praxis werden diese Kalkulationen mehrfach wiederholt. Die Anzahl der iterativen Berechnungen ist nicht bekannt, wird von Insidern aber auf zwischen 20 und 100 geschätzt und oft bis zu einer Woche. Beobachten können Sie das durch die Kalkulationen ausgelöste Auf und Ab betroffener Seiten - während eines Updates - tagelang, wenn Sie bei www.google.com, www2.google.com und www3.google.com suchen und die Ergebnisse vergleichen. Die Wiederholung der Berechnungen führt mit jeder zusätzlichen Kalkulation zu ausgeglichenen Wahrscheinlichkeitswerten für die Linkpopularität jeder Seite.

Schon das kurze Beispiel sollte zeigen, dass bei Google nicht die Zahl der auf eine Seite eingehenden Links, sondern deren Wert oder Pagerank entscheidet. Der Wert eines Links wiederum basiert auf dem Pagerank der Quellseite [dividiert durch die Zahl der von dieser ausgehenden Links]. Und Google ist durchaus in der Lage, zwischen systematisch erstellten Links und ausgesprochenen "Empfehlungen" zu unterscheiden. Pagerank ignoriert z.B. alle Links, die in Verbindung mit Bannerwerbung, Gästebüchern oder auch Redaktionssystemen systematisch angebracht werden oder die auf Präsenzen in einem Firmenverbund oder Linksystem hindeuten.

Manipulationsversuche, z.B. durch Einrichtung von Web-Verzeichnissen, Linklisten oder auch systematischen Linktausch werden ebenfalls von Google erkannt und bei den Berechnungen ignoriert. Krasse Missbräuche führen oft zur vollständigen Sperre der beteiligten Sites.

Der Pagerank-Algorithmus hat für den Betreiber einer neuen Site, die sich Themen mit hohem Wettbewerb widmet, einen bedeutenden Nachteil. Neue Sites haben kaum eine Chance, bei Google gefunden zu werden, da eine neu eingerichtete Site selten von aussen verlinkt ist, d.h. sie wird im Vergleich zu etablierten Präsenzen entsprechend niedrig bewertet. Hinzukommt, dass die zuerst ausgegebenen Suchergebnisse auch das grösste Wachstum externer Links aufweisen.

Aus diesem Grunde empfehle ich den Eintrag in den wichtigsten Verzeichnissen, allen voran das Open Directory Project sowie Yahoo!.

Die Bedeutung des Pagerank bei der Rangfolge der Suchergebnisse für jede Suchanfrage ist unterschiedlich. Je grösser die Zahl indizierter Fundstellen für eine Suchanfrage, desto wichtiger wird Pagerank im Vergleich zum eigentlichen Seiteninhalt und semantisch betonendem Seitenaufbau für die Suchmaschinen-Position. Bei Themen mit geringem Wettbewerb oder Seiten, deren Linkpopularität in etwa einheitlich ist, entscheidet aber auch bei Google relevanter Inhalt und vorteilhafte Seitenkonstruktion.


© Copyright 1998 - 2008 Klaus Schallhorn.