Man lernt nie aus. Der VP von AllTheWeb belehrte mich kuerzlich anlaesslich eines aufschlussreichen Telefonats, dass ein Server, der "down" ist, einen Status-Code 404 an einen Spider schickt. Wie er das macht, ist mir ein Raetsel. Ging ich bisher doch davon aus, dass nicht laufende Server unter vergleichsweise reduzierter Funktionalitaet leiden.
Meine News ueber AllTheWeb haben mehr als eine Augenbraue bewegt. So wurde mir von einer Suchmaschine, die AllTheWeb ueber drei Ecken nahesteht, das Schiessen eines Bocks unterstellt, weil ich [unter anderem] AllTheWebs recht variable Ergebniszahlen nannte.
Aus der eigenen Entwicklungsarbeit und von einer fuehrenden Suchmaschine weiss ich, dass absolute Zahlen der Ergebnisse keineswegs auf Schaetzungen basieren muessen.
Auch mit der Zeitrechnung klappts nicht. AllTheWeb verkuendete vor noch gar nicht so langer Zeit, dass man jetzt alle 7 bis 11 Tage ein Datenbank-Update durchfuehren wuerde. Das letzte erfolgte am 4. Juli [dieses Jahres].
Und reduzierte Spider-Aktivitaeten werden mir von allen Seiten gemeldet. Eine Ueberpruefung meiner eigenen Logs zeigt, dass AllTheWeb im Juni ca 140 meiner Seiten ein- oder mehrmals gespidert hatte. Im Juli wurden nur 3 Seiten abgerufen. Diese aber fast taeglich.
Merke: Pressemeldungen sollten nur auf die Vergangenheit Bezug nehmen, nie auf Zukunftsplaene, bevor diese realisiert werden koennen.
Semantische Probleme nehmen ueberhand. Wenn Sie auf einer Site etwas ueber "browser dosen" lesen, geht es mitnichten um Dosen im Sinne von Konserven. Sondern um - naheliegend, werden Sie sich sagen - Frames und Javascript.
Auch zwischen Notizbuechern und Suchmaschinen gibt es Unterschiede. Wenn Sie etwas in Ihr Notizbuch eintragen, steht das Eingetragene nach Beendigung des Vorganges drin. Bleibend. Genau dort, wo Sie's hingeschrieben haben.
Wenn Web-Designer den Eintrag bei 890 oder einer willkuerlichen anderen drei- bis sechsstelligen Zahl von Suchmaschinen anbieten, meint man natuerlich nicht den "Eintrag" im Sinne von Notizbuch, sondern die Absendung Ihrer URL [meist ueber ein auf dem Web gefundenes und seit fuenf Jahren nicht gewartetes Script] an irgendwelche Rechner, die mal einen Formularschlitz hatten. Gehoert alles zum Service, wie man so sagt.
Und wenn Webdesigner behaupten, fuer die Suchmaschinenoptimierung alles nur menschenmoegliche getan zu haben, duerfen Sie keinen Blick auf den Quellcode der meist mit "Untitled Document" und viermetersiebzig langen unsichtbaren Texten ausgestatteten Seiten werfen.
Sie werden wahrscheinlich gelesen haben, dass Inktomi 40% des verbleibenden Personals vor die Tuer setzen muss, da die letzten Ergebnisse wieder nicht den Erwartungen entsprachen. Warum manche Leute Erwartungen haben, wurde nicht gemeldet.
Yahoo-News ueber Inktomi [engl].
Einer der vielen Kommentare bei fuckedcompany.com trifft den Nagel auf den Kopf:
"I can't believe this company is hurting with such a tightly-focused statement of what they are and what they do:
Inktomi provides network infrastructure software solutions essential to global enterprises and service providers. Our products publish, distribute, manage and retrieve any type of content across worldwide networks, giving organizations a competitive edge."
fuckedcompany ueber Inktomi [engl].
Ich muss ausholen, um das Folgende verstaendlich zu machen. Nicht jede Suchmaschine bietet anwenderfreundliche Syntax zur Ueberpruefung der Indizierung der eigenen Seiten:
Indizierung der eigenen Site pruefen
Wer's genau wissen will, erfindet Kunstwoerter, die in eigene Seiten an unscheinbarer Stelle, z.B. den META Keywords, eingebettet werden, und sucht nach der naechsten Indizierung bei syntaxarmen Suchmaschinchen danach.
So hatte ich Ende der 90er in mehrere Seiten Begriffe wie [z.B.] Kartoffelsalatfilter oder Hosentraegerkompressor eingefuegt - fuer Software-Algorithmen typisch deutsch, aber im Alltag nicht so oft genutzt.
Bei der Suche nach solchen Woertern konnte ich dann nicht nur die Indizierung [bzw Nicht-Indizierung] durch Kleinstsuchmaschinen messen. Bei Inktomi fand ich auch die Logfiles von AOL. Eh? Auch bei AOL hatte ich nach einem der "selbstgemachten" Begriffe gesucht, was von AOL ordnungsgemaess protokolliert und von Inktomi genauso gruendlich gespidert wurde, weil die AOL-Logfiles, fuer jedermann zugaenglich, ungeschuetzt auf dem Server abgelegt wurden.
Der AOL-Server war sogar so freundlich, beim Aufruf des Verzeichnisses ohne spezifische Dateinamen eine Liste der Logs des letzten Jahres zu liefern - praktisch, wenn jemand feststellen wollte, wonach wie oft bei AOL gesucht wird. Informativ, wenn man die Zahl der Suchanfragen oder auch nur die Dateigroessen ueber laengere Zeitraeume beobachtete [damit ist auch erklaert, warum AOL heute Google-Daten liefert]. Aber gaenzlich unvollstaendig, wenn man wissen wollte, wer wonach gesucht hatte - IP-Nummern enthielten die Logs damals nicht.
Nicht so schnell erklaert sind manche Suchbegriffe, die in den Seiten der Live-Suche mancher Suchmaschine wieder und wieder auftauchen, obwohl sich selbst sprachlich Versierte schwertun, ihnen eine praezise Bedeutung zuzuordnen.
Wer weiss, dass viele fuer Windows gebotene Spider und sog. Download-Agenten [so genannt, weil sie meist ein Verhalten an den Tag legen, dass besser nicht ans Tageslicht kommt] bestenfalls rudimentaeres Verstaendnis der entsprechenden Protokolle haben, erkennt Zusammenhaenge.
Denkbar ist, dass jemand aehnliche Kontroll-Absichten pflegte, als er Seiten mit der [meiner Meinung nach] nichtssagenden Wortgruppe "ichy iktestde" erstellte. Und dann die Indizierung per Spider ueberwachte. Dummerweise wurde der Spider sich selbst ueberlassen. Er ist dabei so uebereifrig, dass die Formulierung bei mancher Suchmaschine in die Gruppe meistgesuchten Formulierungen rutschte.
Soweit so gut [oder nicht so gut, wenn Ressourcenverschwendung nicht gern gesehen wird]. Wer sich, bewaffnet mit der obigen Formulierung, an einen Suchschlitz heranmacht, findet bei nahezu jeder Suchmaschine Seiten, die diese Zeichenkette enthalten. Und nicht nur diese. Sondern dutzende und hunderte von versteckt im Text untergebrachten Woertern und Phrasen, die mit den von manchen Suchmaschinen publizierten haeufigsten Suchbegriffen oft verblueffend genau uebereinstimmen.
So, hofft der angehende Internet-Profi, wird seine Seite fuer jede oft genug gesuchte Formulierung gefunden. Was ja in der Praxis belegt werden kann, wenn man zum Beispiel nach "ichy iktestde" sucht.
Amazon setzt sich fuer innerfamiliaere Bindungen ein:
Discount zum Muttertag [engl]
Wenn ich den Namen Espotting hoere, denke ich an RealNames. Ich hatte im April, weil ich's wissen wollte, Espotting und Overture getestet. Espotting zaehlt nicht zu den Firmen, die fuehrende Internet-Technologie entwickeln. Nachdem meine Einzahlung von EURO 250.00 verbraucht war - es dauerte erstaunlich lange, weil einer der von mir belegten Suchbegriffe drei Wochen lang gesperrt war, nachdem irgend ein Clown wieder und wieder auf Eintraege klickte, die bei dem Wort "Suchmaschinen" eingeblendet wurden und Espotting keine technische Moeglichkeit der Verhinderung hat - erhielt ich von Espotting eine Mail, dass man meine Kreditkarte mit EURO 25.00 belastet habe, damit es nicht zu einer Service- Unterbrechung kommt, die moeglichwerweise einen Weltuntergang ausloest oder mir vielleicht gar wichtige Besucher vorenthaelt.
Das war die zweite Ueberraschung. Die erste erhielt ich, als Espotting meine Suchbegriffe um unerwuenschte Formulierungen erweiterte. Diese wurden nach einer wohlformulierten Email-Salve storniert. Nicht storniert wurde die Belastung von EURO 25.00, die ohne meine Zustimmung erfolgte. Genausowenig erhielt ich eine Antwort auf meine Bitte, meine Kreditkarte doch zu verschonen.
Eine Reaktion erhielt ich erst, nachdem ich, um weiteren Debits einen Riegel vorzuschieben, meine Kreditkarten-Daten auf dem Espotting-Server durch "selbstgemachte" ersetzte, wobei ich eine nach Luhn verifizierende aber nicht existierende Nummer und ein Verfalldatum von 01/01 angab. Verstaendlicherweise konnte eine Belastung dieser Karte nicht erfolgen, was dazu fuehrte, dass ein Kundenberater von Espotting mich um Ersatzdaten bat. Auf meine Bitte um Erstattung der ohne meine Zustimmung abgebuchten 25.00 Euro hiess es, dass man sich nicht vorstellen koenne, dass diese nicht erfolgen wuerde. Ich muesste halt nur auf meine naechste Kreditkartenabrechnung warten. Nachdem ich die beiden letzten geprueft habe, muss ich Espotting mangelnde Vorstellungkraft vorwerfen.
Die Mainpost, eine Einrichtung, die sich berufen fuehlt, andere zu informieren, demonstriert absolute Ignoranz, wenn es um das Web geht.
Hintergrund: Newsclub.de ist eine nicht unbekannte deutsche Site, die regelmaessig die Praesenzen informierter und nicht informierter Online-Medien ueberwacht und die dem Schnell-Leser Links auf Ueberschriften dieser Medien bietet. Die Mainpost, der das aus nicht genauer spezifizierten Gruenden stinkt, forderte Newsclub auf, das Spidern oder Ueberwachen der Mainpost-Seiten doch zu unterlassen. Newsclub entsprach dem Wunsch.
Trotzdem fuehlte sich der Verlag berufen, gerichtlich gegen den Newsclub-Betreiber vorzugehen. Man will vor dem Kadi feststellen lassen, dass "tiefe Verlinkung" nicht erlaubt ist. Und 1/4 Mio Euro will man von ihm, weil in einer Rezession jeder Euro zaehlt. Die nicht besonders interessanten Einzelheiten koennen Sie beim Newsclub und anderen Medien, z.B. Wired [engl] lesen:
Dass es "tiefe" Verlinkung genausowenig wie hohe, schraege, breite oder duenne NICHT gibt, weiss man weder bei der Mainpost noch vor Gericht. Deshalb sei's hier gesagt: das W3C definiert das Format aller Hyperlinks so ausgiebig, dass auch laendliche Organe keinen Zweifel daran haben duerften, wenn rudimentaere Qualifikation unterstellt wird.
Die Mainpost beruft sich dabei, je nach Quelle, auf Urheberrecht oder EU-Direktiven, die Datenbanksammlungen schuetzen sollen. Die Mainpost ist ignorant genug, nicht die wirklich massgeblichen Protokolle und Massnahmen, die das Web steuern und kontrollieren, anzustrengen.
Der Versuch, ein robots.txt-File vom Mainpost-Server zu laden, resultiert in einer 302, wie der vom Mainpost-Server, dem ein wichtiger Sicherheits-Patch fehlt, gelieferte Header zeigt:
HTTP/1.1 302 Found Date: Fri, 26 Jul 2002 08:53:59 GMT Server: Apache/1.3.23 (Linux/SuSE) mod_ssl/2.8.7 OpenSSL/0.9.6b PHP/4.1.2 mod_gzip/1.3.19.1a X-Powered-By: PHP/4.1.2 Status: 302 Moved Temporarily Set-Cookie: SID=55b39992baeeeed4cef86dd0d6e02d21; path=/ Location: http://www.mainpost.de/robots.txt?SID=55b39992baeeeed4cef86dd0d6e02d21 Connection: close Content-Type: text/html
Ein nicht im Stammverzeichnis eines Server angelegtes robots.txt besagt dabei nichts anderes, als dass der Betreiber ausdruecklich KEIN Verbot ausspricht, d.h. Spider und Anwender duerfen den Server nach Lust und Laune spidern.
Und dass die vom Browser, der das Redirect befolgt, abgerufene Seite nicht frei von syntaktischen HTML-Fehlern ist, ueberrascht sicher nicht.
a) Kundenbereich:
Suchmaschinen-Optimierung und Linkpopularitaet, Feinabstimmung bei der Suchmaschinen-Optimierung, Wie Frames die Suchmaschinen-Position ruinieren.
Suchmaschinenspezifische Seiten zu AllTheWeb, AltaVista, Lycos und MSN.
© Copyright 1998 - 2008 Klaus Schallhorn.