Textanalyse der Suchmaschinen

Für die Bewertung einer Seite und die anschliessende Indizierung wird zunächst eine nach Häufigkeiten sortierte Liste der Worte erstellt [u.U. auch Phrasen wie "New York"]. Gleichzeitig wird bei Suchmaschinen, die die Phrasen-Suche unterstützen, die Position aller Wörter festgehalten, so dass sich später genaue Wortfolgen in den Datenbeständen schnell wiederfinden lassen.

Damit lassen sich auch zu häufige direkte Wiederholungen von Suchbegriffen oder Wortfolgen, von meist sich selbst überlistenden Bauernfängern in kleiner Schrift in der Hintergrundfarbe einer Seite plaziert, ohne grossen Aufwand ermitteln.

Für jedes Wort wird dann die Häufigkeit festgehalten, teilweise auch die Wortdichte, die bei manchen Suchmaschinen zur Qualitätsermittlung beim Ranking normiert wird. Wörter, die im Titel, den Überschriften und anderen semantisch betonten Stellen vorkommen, erhalten zusätzliche Gewichtung.

Sog. Stop-Worte, d.h. besonders häufig vorkommende Bindeworte ohne eigene Bedeutung - "der, die, das usw" und je nach Suchmaschine hunderte oder zigtausende andere - werden, wenn keine Phrasensuche unterstützt wird, aus der Liste der zu indizierenden Worte entfernt. Unterstützt die Suchmaschine die Phrasensuche, wird für Stop-Worte nur die Position festgehalten.

Fortschrittlichere Suchmaschinen haben zusätzliche Logik, die die Bedeutung bzw. Aussagekraft einzelner Begriffe oder deren Häufigkeit im allgemeinen Sprachgebrauch für Kategorisierungszwecke berücksichtigen.

Term Vector und Document Vector-Algorithmen haben, wie viele Bereiche des Information Retrieval, in den letzten Jahren neue Anstösse durch die Notwendigkeit der Spam-Bekämpfung bzw Müll-Entsorgung erhalten.

Die Bearbeitung von Informationen aus nicht bekannten Quellen, denen man erfahrungsgemäss oft unredliche oder unehrenhafte Absichten unterstellen muss, zwingt Suchmaschinen aus reinem Selbsterhaltungstrieb, wählerischer zu werden.

Die Ranking-Methoden einzelner Suchmaschinen werden selten veröffentlicht. Während bestimmte Algorithmen, wie etwa Google's PageRank in der Literatur dokumentiert sind und manche Suchmaschinen [oft zweifelhafte] Patente besitzen, werden alle über Konfigurations-Einstellungen gesteuert, bei der zahlreiche Parameter beim Ranking angepasst werden können.

Veränderte Ranking-Verhalten sind daher nicht immer Konsequenz neuer Software sondern nur einer angepassten Konfiguration, wenn Erfahrungswerte zeigen, dass gewisse Parameter anpassungsbedürftig sind.

Exakte Normwerte und gemeinsame Nenner lassen sich nur ermitteln, wenn man regelmässig eine ausreichend grosse Zahl von Seiten analysiert, die für eine bekannte Gruppe von Suchbegriffen auf den ersten zehn Plätzen ausgegeben werden.

Die hier angebotenen Ranking-Analysen basieren daher auf mindestens 1000 Suchanfragen je Suchmaschine. Bei der Hälfte dieser Anfragen werden sehr häufig gesuchte Suchbegriffe gesucht, der Rest nutzt Begriffe aus dem mittleren Bereich meiner nach Anfrage-Häufigkeit sortierten Datenbank der Suchbegriffe und Keywords. Abruf und Analyse der Seiten, die als Ergebnis auf diese 1000 Anfragen je Suchmaschine ausgegeben werden, erfolgt maschinell.

Gepaart mit den in langjähriger Praxis gesammelten Erfahrungen, die meinen Kunden zur Verfügung stehen, zeigen die nach Suchmaschinen unterteilten wöchentlich aktualisierten Aufstellungen optimale Worthäufigkeiten und welche HTML-Tags von welchen Suchmaschinen beim Ranking besonders hoch bewertet werden, wenn Seiten auf einem der ersten Plätze gefunden werden sollen.

Gemessen werden u.a. Faktoren wie Wortzahl, Wort-Dichte und Distribution, ob und welche semantischen HTML-Tags wie vorteilhaft sind und ob Domain-, Pfad- oder Dateinamen berücksichtigt werden.

Da in der Praxis bei allen hier beobachteten Suchmaschinen nur zwei oder drei Merkmale für die Bewertung ausschlaggebend sind, kann schon die Umbenennung einer Seite, ein genauerer Titel, die Einfügung wichtiger Suchbegriffe in z.B. <H1>-Tags oder die Veränderung der Wortdichte eine wesentliche Positions-Verbesserung auslösen.

Suchmaschinen-Tutorial: Inhalt
Weiter: Suchmaschinen Dubletten-Erkennung


© Copyright 1998 - 2008 Klaus Schallhorn.