Dubletten-Erkennung ist für Suchmaschinen mit halbwegs fortschrittlicher Technologie kein Problem. Dubletten sind, aus Sicht der Suchmaschinen, nicht nur tatsächliche Kopien einer Datei abgelegt unter anderem Dateinamen, sondern inhaltlich übereinstimmende oder nur geringfügig voneinander abweichende Seiten.
Dubletten sind aber nicht nur auf einem Server mehrfach untergebrachte Seiten, sondern auf dem Web mehrfach gefundene Seiten - auch wenn sie nur einmal als Datei existieren.
Die eigentliche Erkennung einer doppelten Seite ist vergleichsweise einfach. In der Praxis wird für einen Datensatz eine Chiffriersumme nach einem Verfahren errechnet, das sicherstellt, dass jede Informationseinheit eine eigene Chiffriersumme erzeugt. Hierfür eignet sich [z.B.] das von RSA Data Security, Inc. gebotene MD5-Verfahren, das schnell eine Chiffriersumme berechnen kann.
Unterschiede gibt es nur bei der Basis der Berechnung der Chiffriersumme. Nimmt man die von einem Web Server abgerufene HTML-Seite im Rohzustand, führt die Anbringung eines einzigen Leerzeichens oder die Veränderung eines einzigen Buchstabens in der Datei zu einer anderen Chiffriersumme.
Suchmaschinen setzen deshalb auf eine andere Basis: man nimmt den inhaltlichen Schwerpunkt einer Datei als Berechnungsgrundlage, z.B. das mittlere Drittel der nach Häufigkeiten sortierten Wortliste, wie bei AltaVistas Term Vector-Ermittlung.
Dubletten im technischen Sinne sind auch Seiten, die über mehrere URLs erreicht werden können. Kann eine Datei z.B. über www.domain.com/datei.html und über domain.com/datei.html erreicht werden, haben Sie eine Dublette erzeugt, obwohl die Datei nur einmal existiert.
Suchmaschinen, die nicht erkennen, dass www.domain.com und domain.com auf den gleichen Server führen, können hier Spam vermuten. Es empfiehlt sich daher, nur eine der beiden möglichen Domainnamen zu propagieren, mehr noch, den Server so zu konfigurieren, dass Seiten nur über eine der beiden Domains abgerufen werden können, während die andere ein Redirect auf die wünschenswerte auslösen sollte.
Eine weitere Dublette entsteht unbeabsichtigt, wenn Sie von manchen Ihrer Seiten auf die Hauptseite ohne Dateiname und von anderen unter Angabe des Dateinamens verweisen: www.xyz.com/ und www.xyz.com/index.html sind zwei verschiedene URLs die auf den gleichen Inhalt verweisen.
Suchmaschinen-Tutorial: Inhalt
Weiter: Ungewollte
Dubletten und Suchmaschinen-Sperre
© Copyright 1998 - 2009 Klaus Schallhorn.