Weisse Schrift auf weissem Hintergrund ist im Browser nicht sichtbar [das gilt für jede Farbkombination, bei der Vorder- und Hintergrundfarbe übereinstimmen oder nahezu identisch sind]. Skrupellose Site-Betreiber nutzen diese Erkenntnis und wiederholen wichtige Suchbegriffe am Ende einer Datei in der Hintergrundfarbe - hunderte oder tausende male. Offenbar ist es einfacher, an den Erfolg herumgereichter Suchmaschinentricks zu glauben, als sich ernsthaft mit der Materie zu beschäftigen.
Nachdem diese Manipulationen bei den Suchmaschinen beobachtet wurden, setzte man zunächst auf Methoden der Farb-Erkennung. Farben können in Seiten durch Namen [z.b. white] oder hexadezimal [#ffffff] angegeben werden.
Es gibt zwar mehrere bei der Seitenanalyse eingesetzte Methoden zur Farbzuordnung für Text und jeweiligen Hintergrund, diese setzen aber stets korrekte HTML-Syntax voraus. Sobald Seiten syntaktische Fehler enthalten, scheitert jeder Erkennungsversuch [fehlerhafte Seiten werden auch von jedem Browser unterschiedlich dargestellt], da die Synchronisation der Stapel für Vorder- und Hintergrundfarbe bei der Seitenanalyse nicht mehr gegeben ist.
Noch schwieriger wird die Farberkennung, wenn Seitenautoren für den Hintergrund einer Seite, Tabelle oder einzelner Elemente Grafik einsetzen. Während Suchmaschinen zwar in der Lage sind, solche Grafiken zu laden und auch zu analysieren, sieht man allein aus Kostengründen hiervon ab.
Suchmaschinen sind daher dazu übergegangen, Farben völlig zu ignorieren. Statt dessen erfolgen gründlichere Text-Analysen. Diese sind zuverlässiger und vor allem effizienter.
Da beim Bearbeiten einer Seite die Zahl der Worte, Wortschatz und Wortpositionen bekannt sind, kann vergleichsweise einfach ermittelt werden, welche Wörter oder Wortfolgen "zu oft" in einer Seite erscheinen oder wo zahlreiche, im üblichen Sprachgebrauch unbekannte Wiederholungen erfolgen.
Jede Wortsammlung weist eine natürliche Häufigkeitskurve auf, die in etwa der Zipf'schen Formel entspricht, Oder vereinfacht: das Wort "der" kommt in dieser Seite häufiger vor, als das Wort "Zipf". Dazwischen gibt es der Anzahl der unterschiedlichen Wörter entsprechende Gradierungen. Am Anfang der Distributionskurve finden wir einige wenige sehr oft vorkommende Wörter, gefolgt von einer grösseren Anzahl immer seltener vorkommenden Ausdrücken.
Typische Kurven und Distributionswerte sind ebenso bekannte Grössen wie die eigentlichen Wörter, die am Anfang der Kurve angesiedelt sind: hier finden wir ausschliesslich Stop-Worte ohne distinktive Bedeutung. Dokumente, deren Inhalt nicht der Norm entsprechen und auf Anwendung typischer Suchmaschinentricks schliessen lassen, werden bei den marktführenden Suchmaschinen entsprechend bewertet.
Suchmaschinen-Tutorial:
Inhalt
Weiter: Verbotene Suchmaschinentricks:
HTML-Missbrauch
© Copyright 1998 - 2008 Klaus Schallhorn.