AllTheWeb, AltaVista, InfoSeek & DirectHit.

Auch nicht heimlich gucken!

Fuer den Mann vom FBI, den vom BKA und vor allem fuer den Dorf-Sherrif sieht es aus, als ob Sie pornografische Kontakte ueber das Internet pflegen. Dabei haben Sie lediglich Spam-Mail von einer Porno-Site erhalten und - leicht verlegen - sofort geloescht.

So ganz schuldlos, wie Sie behaupten, sind Sie natuerlich nicht: Sie lesen Ihre email mit dem Browser. Und der macht eine Text- Kopie von jeder email, die Sie mal empfangen, beantwortet oder selbst aufgegeben haben - in einem versteckten Verzeichnis auf der Festplatte.

Merke: email und Browser sind nicht kompatibel.

Das Internet und Windows eigentlich auch nicht. Deshalb zieht sich Microsoft aus dem Server-Geschaeft zurueck. Nachdem die Microsoft-Site in den letzten Wochen mehr als einmal, sagen wir mal, von Fremden und nicht unbedingt zum Vorteil "dekoriert" wurde, musste auch Billyboy erkennen, dass sein "Betriebssystem" nicht internet-geeignet ist, weil Sicherheit auf Applikations- Ebene und nicht von Grund auf implementiert wurde, und weil eben jede Applikation ueber eine Vielzahl von Schnittstellen die Ausfuehrung von Scripten und auch Anwendungen ohne Wissen des Benutzers erlaubt. Hierfuer reicht oft der Erhalt einer email oder der Besuch einer unfreundlichen Web Site.

Auch beim Rueckzug will Gesicht gewahrt werden. Offiziell wird daher verlangt, dass jeder Windows 2000 Server, der "berechtigte Benutzer" ueber das Web bedient, fuer jeden dieser eine sog CAL-Lizenz haben sprich zahlen muss. Das geht ins Geld, vor allem da, wo kommerzielle Transaktionen durchgefuehrt werden.

Suchmaschinen-Messungen

Letzte Woche wurden viele Web-Verantwortliche mit der Tatsache, dass AltaVista sich mit AllTheWeb messen will, konfrontiert. Beide behaupten, den groessten Datenbestand, ca. 250 Mio Seiten, zu haben. AllTheWeb erreicht dies durch zahlreiche Dubletten, die man auch bei Suchmaschinen findet, die durch Inktomi bedient werden. AltaVista erreichte das Wunder durch das Entfernen von Millionen von URLs: bei vielen Suchbegriffen nennt AltaVista heute eine um ein Drittel kleinere Zahl der Fundstellen als vorher. Ich hab's probiert: die Arithmetik meiner Bank basiert auf anderen Grundregeln.

Seit ein paar Tagen sind bei AltaVista erste Veraenderungen sichtbar. Fuer haeufige Suchbegriffe wurden bis zum 2.11. statische Ergebnisse geliefert, d.h. vom 25.10. bis 2.11. wurden immer die gleichen URLs ausgegeben. Seit Mittwoch dieser Woche wird wieder rotiert. Momentan nur taeglich, aber es wuerde nicht ueberraschen, wenn man bald schon wieder in den alten Trott verfaellt, bei jeder Anfrage andere Ergebnisse zu liefern.

Interessant ist, dass AltaVista derzeit _extrem_ selektiv bei der Aufnahme neuer Seiten vorgeht. Seit dem 23.10. wurde fuer viele haeufig gefragte Suchbegriffe - Marketing, Webdesign, mp3 und erotische Ausdruecke - keine einzige Seite in den Datenbestand uebergenommen, waehrend man bei der Suche nach Bindewoertern [die nicht in AltaVista's Stopliste sind] auch Seiten findet, die gestern erst angemeldet wurden:

http://www.altavista.com/cgi-bin/query?pg=aq&what=web&enc=iso88591&text=yes

Die auf die in den letzten 24 Stunden aufgenommenen Seiten beschraenkte Suche nach about zeigt z.B. 6 Seiten. Dabei spidert AltaVista nach wie vor. Ich vermute, dass man Seiten, die haeufig gefragte Begriffe enthalten, entweder durch einen zusaetzlichen Filter bearbeitet, oder dass diese Seiten separat einem Reifeprozess unterworfen werden. Sie wissen ja, dass Seiten, die fuer haeufig gefragte und aus einem Wort bestehende Suchbegriffe, einen "Anspruch" auf die besten Plaetze haben wollen, etwa drei Monate alt sein muessen?

Spider-Aktivitaeten sind bei allen Suchmaschinen derzeit ruecklaeufig. Ausnahmen bestaetigen die Regel: Inktomi spidert etwa 25% mehr als im Vormonat, und AllTheWeb hat das Spidern, nach laengerer Pause, wieder aufgenommen.

Branchen-Gefluester

In der Branche wird gemunkelt, dass Infoseek [USA] dabei ist, neue Technologie einzufuehren. Man basiert diese Vermutung auf der Erfahrung, dass Infoseek immer dann, wenn das Spidern monatelang ausgesetzt wird, neue Datenbanken und Algorithmen einfuehrt. Meine Site wurde zuletzt am 13.10. von Infoseek.com besucht. Eine Test-Site, ueber die ich die typische Zeitspanne zwischen Anmeldung und erster Sichtbarkeit in den Suchmaschinen verfolge, bisher nicht. Infoseek_DE ist andererseits derzeit die Schnellste. Angemeldete Seiten sind innerhalb von drei oder vier Tagen im Datenbestand. Nicht angemeldete aber ueber Links aus den angemeldeten erreichbare Seiten wurden bisher von einer einzigen Suchmaschine erfasst: Crawler_DE - obwohl keine der Seiten, angemeldete und selbst gefundene, bisher sichtbar ist.

Erstaunlich ist, dass Spider immer wieder URLs, die nicht mehr existieren, abrufen. Seiten, die vor ein oder zwei Jahren geloescht wurden, werden heute noch von Spidern besucht, obwohl jeder fehlerhafte Aufruf mit einer 404 - File not found - beantwortet wird. Der Kauf zusaetzlicher Bandbreite, Festplatte und CPUs ist offensichtlich einfacher, als ungueltige Daten zu loeschen.

Die Manipulation des DirectHit-Ranking ist einfacher, als ich urspruenglich annahm. Ein Bekannter wies mich darauf hin, dass schaetzungsweise 90% aller Internet-Zugriffe ueber Verbindungen mit dynamischen IP-Nummern erfolgen. Mit anderen Worten, die Mehrzahl aller Anwender kurbelt ein Modem an, erhaelt vom ISP eine nur fuer die Dauer der Verbindung gueltige IP-Nr. und kann damit "Direct Hitten".

Alles, was der Manipulateur braucht, ist ein automatisiertes Script, das bei Aufnahme der Verbindung zum ISP die Hotbot-Site aufruft [um einen neuen Cookie zu erhalten], dort nach den wichtigsten Suchbegriffen sucht, um jedesmal, wenn eine seiner URLs in den Ergebnissen erscheint, den entsprechenden Link zu verfolgen. Wenn Hotbot durchgearbeitet wurde, wird das Spiel mit allen anderen Suchmaschinen, die DirectHit-Daten bieten, wiederholt.

Da beim naechsten Kontakt mit dem ISP aller Wahrscheinlichkeit nach eine andere IP-Nummer zugeteilt wird, gilt ein erneuter Lauf dieses Scripts nicht als Dublette und fuehrt zu weiterem Punktesammeln.

Der "Meiner ist der Laengste"-Wettbewerb, der im englischen Sprachraum zwischen AltaVista und AllTheWeb ausgetragen wird und der durch die momentan nicht spidernde Acoon auf der deutschsprachigen Seite allein bestritten wird, erhaelt in Kuerze einen neuen Mitspieler!! - mit der Absicht, nicht nur bekannte und nicht so bekannte Sites zu spidern, sondern garantiert alle. Da man sicherstellen will, auch jeden Web Server und jede Seite zu erfassen, will man systematisch alle europaeischen IP-Nummern abklappern und alle Ports abtasten, damit jeder HTTP-Server erfasst wird. Nur was durch einen Firewall [oder Passwort] vor Zugriffen geschuetzt ist, bleibt draussen.

Diese "Leistung", wird sie tatsaechlich vollbracht, ist sicherlich fuer eine Serie von Pressemeldungen und mehr als drei Punkte an der Boerse gut und wird Sie wahrscheinlich bis zur Anoedung verfolgen. Und wird den Mitspielern beim Kampf um die Unbelehrbaren sicherlich einiges an Hits kosten, denn, so sagt sich der Laie, eine Suchmaschine, die wirklich _alles_ hat, hat garantiert, was ich suche. Nur nicht die Suchlogik, die aus einem staendig wachsenden Heuhaufen die immer besser verstecktere Nadel herausholt. Und schon gar nicht Anwender, die eine leistungsvolle Suchlogik beherrschen.

Was solls. Hit ist Hit und Branding wirkt wie ein Brandeisen.

Doppelt haelt besser

Mit Dubletten muessen wir leben. Dabei ist nicht immer Spam im Spiel, wenn Seiten unter www.xyz.de UND xyz.de in eine Suchmaschine kommen. Selbstverstaendlich sollten solche Seiten ob identischer Inhalte als Dublette erkannt werden. Aber so wie die Zahl der "Web-Experten" jeden Tag exponentiell steigt, scheint es sich einzubuergern, dass "Profis" jovial auf das www. am Anfang einer URL verzichten. Sie brauchen nur einen zweiten Profi, der einen Link auf eine solche URL setzt [und einen ISP, der DNS-Eintraege ohne www. auf den Web Server umleitet], und schon multiplizieren sich Links wie Kaninchen. Die dann beim normalen Spidern der Suchmaschinen in Datenbestaende rutschen.

Ich habe webRank daher so modifiziert, dass Ihre Suchmaschinen- Position jetzt auch erkannt wird, wenn das antiquierte "www." nicht in der URL erscheint.

Newsletter Archiv

© Copyright 1998 - 2008 Klaus Schallhorn.