Wie Suchmaschinen Text indizieren

Suchmaschinen sehen Ihre Seiten so, wie sie sind - nicht wie sie in einem grafischen Browser präsentiert werden. Wenn Sie den Unterschied nicht kennen, wird es höchste Zeit, dass Sie sich den HTML-Code Ihrer Seiten genauer ansehen.

Hierfür eignen sich zum flüchtigen Überfliegen z.B. more oder zum genaueren Studium ein Editor wie nedit, vi, emacs oder jeder andere, der Dateien zeigt, wie sie sind, ohne HTML zu interpretieren. Im Zweifelsfalle hat nahezu jeder Browser eine Menu-Option, die einen Blick auf die HTML-Seite im Roh-Zustand erlaubt [die meisten Browser haben den geladenen HTML-Code dann aber schon teilweise modifiziert, so dass er sich leichter verarbeiten lässt. Microsoft's Explorer fügt teilweise gar unnötigen Code ein].

HTML-Seiten oder Dateien enthalten sog. HTML-Tags, spezielle in <Klammern> gesetzte Markierungen, denen eine Funktion zugewiesen ist, sowie die eigentliche Information.

Da mehr als drei Viertel aller Seiten HTML-Fehler, d.h. nicht korrekt oder zweifelsfrei interpretierbare HTML-Tags, enthalten, kommt es einerseits häufig zu Browser-Abstürzen und andererseits zu Problemen bei der Text-Bewertung.

Suchmaschinen, bei denen diese Vorgänge automatisiert rund um die Uhr und ohne menschliche Hilfe erfolgen müssen, haben nur zwei Möglichkeiten:

  • Man entfernt einfach alle HTML-Tags umgebenden Klammern und dazwischen vorgefundene Tags, um dann den verbleibenden Text ohne Beachtung evtl. Hervorhebungen zu indizieren.
  • Oder man versucht, die in einer Seite enthaltenen HTML-Tags zu interpretieren und in Blöcke zu zerlegen, die je nach HTML-Tag unterschiedlich gewichtet werden.

Probleme entstehen, sobald Seiten inkorrekte HTML enthalten. Software kann nicht vermuten, was ein Autor meinte, sondern nur lesen, was in einer Datei enthalten ist. Man kann zwar naheliegende Schlüsse ziehen, nie aber mit absoluter Sicherheit die tatsächliche aber nicht ausgeführte Absicht eines Datei-Erstellers feststellen.

Enthält z.B. eine Seite eine Kommentar-Einleitung <!-- ohne den entsprechenden Abschluss --> des Kommentars, lässt sich nicht sagen, an welcher Stelle die Anbringung beabsichtigt war, aber unterlassen wurde.

Und niemand weiss, dass solche Seiten reduzierte Bewertung erfahren, weil eine korrekte Bearbeitung einfach nicht möglich ist.

Oben lasen Sie, Suchmaschinen sehen Seiten so, wie sie sind. Das ist eine Vereinfachung. Präziser ist, wie sie von Ihrem Web Server geliefert werden. Die Differenzierung ist wichtig, wenn Sie mit sog. Server Side Includes arbeiten, kleine Text-Passagen oder Scripts, die vor Beantwortung eines Seiten-Abrufs auf Ihrem Server zu einer zu liefernden Datei zusammengefügt werden - durch Kombination von Include-Dateien mit Schablonen oder durch Einfügung der Ergebnisse aufgerufener Scripts mit solchen.

Suchmaschinen-Tutorial: Inhalt
Weiter: Suchmaschinen ohne Daten


© Copyright 1998 - 2008 Klaus Schallhorn.