Blutsauger

10. Januar 2006.

Dass Microsoft bzw MSN besonders aktiv ist, wenn es darum geht, ineffizient zu spidern, ist kein Geheimnis. Tom Foremski weist darauf hin, dass MSN 18% seiner Bandbreite verbraucht. Und dafür 0.0007% der Besucher liefert. Yahoo verhält sich ähnlich, aber nicht ganz so extrem. Auch meinen eigenen Logfiles lässt sich entnehmen, dass Yahoo aktiver als Google spidert, dafür aber bestenfalls einen Bruchteil der Google-Besucher liefert. Warum das so ist, ist Vielen klar, wenn man einen einzigen Blick auf die jeweilige Startseite wirft.

Pharma-Epidemie

30. November 2005.

Jeremy Zawodny meldet heute, dass sein Serverlog ebenfalls unter einem Anfall von Referer-Spam leidet, und zwar für eine Chose namens Symmetrel. Wer gelegentlich meinen Blog überfliegt, wird sich an letzten Monat erinnern, als ich ähnliche Vorkommnisse an meinen eigenen Logfiles beobachtete. Hüben wie drüben handelt es sich um Produkte der Pharmazeutik, eine Branche, die man wohl mit Musikverlegern und Zeitungsdrückern in einen Topf, oder Sack, stecken kann. Zum draufknüppeln.

Und nein. Was ich vorgestern bezogen auf die Branche meldete, wurde nicht gefunden, weil ich nach dem per Screenshot gezeigten Produkt suchte. Noch nicht einmal, weil ich irgendein Produkt der Pillendreher suchte. Sondern durch eine keineswegs damit zusammenhängende Suchformulierung. Für die Marken- bzw Produktsuche ist die Worthäufigkeit der maschinengenerierten Seiten "etwas" zu hoch. Trotzdem kann man gelegentlich über solchen Schrott stolpern, wenn eine seltene Formulierung Begriffe enthält, die in den Möchtegern-SEO Seiten enthalten sind. Schliesslich hat allein der eine so gefundene Server mehr als 80,000 "Produktbeschreibungen".

Web-Verfalldatum

14. Januar 2005.

Am Anfang waren Meta-Tags. Was als sinnvolle Unterstützung der ersten Suchmaschinen gedacht war, wurde schnell zum Meter- und dann zum Kilometer-Tag, in so ellenlangen wie irrelevanten Wortlisten resultierend. Diese werden zwar seit Jahren von Suchmaschinen ignoriert, was "Aufstrebende" aber nicht davon abhält, immer noch zu versuchen, über dieses - und viele andere - Abstellgleise gefunden zu werden.

Nach Foren- und Gästebuch-Einträgen, die oft automatisiert erstellt werden, in der Hoffnung, sie würden Linkpopularität künstlich aufblasen, ist Referer-Spam jetzt so offensichtlich, dass der Referer-Log der eigenen Site wertlos wurde.

Diese Art Spam soll gleich zwei Fliegen mit einem HTTP-Abruf erschlagen: Ein Teil aller Logaufzeichnungen ist, da nicht jeder Lesen kann oder will, immer noch ungeschützt, d.h. typische Logauswertungen geraten immer noch in die Suchmaschinen und werden ggfls - inkl Links auf die angeblichen Verweisstellen - auch gefunden. Und der ahnungslose Site-Betreiber, der seine Logauswertungen prüft und die angeblich verweisenden Seiten aufsucht, findet dort entweder Schmutz oder, falls er einen Windows-Rechner benutzt, eine Ladung "unerwünscht installierter Software". Ganz neu ist die Masche, eine Seite vorzufinden, die behauptet, die Site wäre wegen Missbrauch geschlossen, was wohl Beschwerden verhindern soll. Denn Wochen später leben diese Sites wieder auf.

Neue Suchmaschine

22. Oktober 2004.

Eine neue Suchmaschine macht sich auf, Marktführer zu werden. Die in Frankreich laufende Suchmaschine Exalead hat gemäss eigenen Angaben gut 400 Seiten meiner Site im Datenbestand, schickt gemäss FAQ einen Spider namens Exabot durch die Landschaft, der von der Domain exabot.com aus Seiten abruft.

Eine schnelle Logfile-Prüfung ergibt, dass ein Exabot 4 Seiten meiner Site, allerdings von above.net abgerufen hat. Seitenabrufe aus dem IP-Bereich von exabot.com wie auch exalead.com fehlen in meinen Log-Aufzeichnungen. Entweder erzählt Apache oder Exalead hier Märchen.

Die Suchergebnisse selbst sind nicht uninteressant. Dass es sich nicht um eine DIY-Lösung der Kleinstgattung handelt, erkennt man daran, dass nicht nur Wortkombinationen sondern auch Phrasen gefunden werden - vorausgesetzt, sie wurden nicht in den letzten vier bis sechs Wochen veröffentlicht.

Suchmaschinen Blog Archiv


© Copyright 1998 - 2008 Klaus Schallhorn.