RealNames Problem, Fortschrittliche HTML & Spam.

Heisser Tip

Das Bonmot des Monats: "There are a lot of problems with these merchants... and there are a lot of unethical types ..." Paul Lucraft, Europay Deputy General Manager, MasterCard- Abrechnungsstelle fuer Europa ueber Porno-Anbieter und warum diese nicht mehr gerne gesehen werden.

Real Problem

Zuerst die guten Nachricht: RealNames hat kuerzlich ca 20% der Belegschaft vor die Tuer gesetzt.

Shopping Tip

Noch eine gute Nachricht: Es gibt immer noch Einkaufswagen, die dem Kaeufer die Moeglichkeit geben, Produkt-Preise oder Rabattstufen beim Einkauf selbst zu bestimmen, so dass die zeitaufwendige Suche nach dem guenstigsten Anbieter entfaellt. Hierbei brauchen Sie lediglich die HIDDEN Variablen eines Bestellformulars nach Speichern der Seite auf Platte mit einem Editor aendern und das Ihren finanziellen Verhaeltnissen angepasste Formular an den Server schicken.

Waehrend halbwegs selbst denkende Entwickler wissen, dass man sensible Daten wie Preise oder Rabatte nicht dem Risiko der Veraenderung durch Aussenstehende aussetzt, ueberrascht es nicht, dass es immer noch Shopping Carts gibt, die dieses und andere Probleme auch heute noch aufweisen:

http://xforce.iss.netälertsädvise42.php

Historiker werden sich in der fernen Zukunft wundern, warum eine auf den ersten Blick recht entwickelte Zivilisation, deren Aktiva mehr und mehr aus immateriellen Werten bestand, auf jedes Risiko-Management verzichtend diese schutzlos Maschinen auslieferte, auf die von aussen ungehindert zugegriffen werden konnte. Und dies, obwohl die Unfertigkeit des "Betriebssystems" durch die Notwendigkeit der staendigen Neuinstallation bei gleichzeitigem Datenverlust turnusmaessig erlebt wurde und es an Alternativen nicht mangelte.

Technologie-Nachhilfe

Erklaeren kann man dieses in der Evolution gar nicht einmalige Phaenomen zum Beispiel dadurch, dass Lernen allgemein als unbequem empfunden wird - an konkurrierenden Zeitvertreiben mangelt es sicherlich nicht. Woran es mangelt, sehen Sie zum Beispiel, wenn Sie aufrufen, wonach bei AltaVista am haeufigsten gesucht wird. Und bevor Sie Pornografisches vermuten, lassen Sie sich belehren: der meistgefragte Begriff der letzten Woche bei AltaVista war Yahoo.

http://tools.altavista.com/s?spage=AV/s12.htm

Software-Anbieter wie auch Suchmaschinen-Betreiber foerdern die Entwicklung der intellektuelle Elite durch Funktionen, Dialoge und Hilfestellung, die den niedrigsten gemeinsamen Nenner als erstrebenswert betrachten, wobei jede neue Reduzierung einem Fortschritt gleichkommt.

Da Suchmaschinen-Syntax Verstehen und Anwenden von mehr als 6 Symbolen, +, -, *, " und (), voraussetzt, Faehigkeiten, die fast schon an Nuklearphysik erinnern und bei deren Gebrauch man beide Haende frei haben muss, bieten Suchmaschinen jetzt Such-Schlitze fuer Syntax-Dyslexiker:

http://www.google.comädvanced_search.html
http://www.altavista.com/cgi-bin/query?pg=ps
http://www.ussc.alltheweb.com/cgi-bin/advsearch/

Spam

Unter Porno-Spam leiden nicht nur Suchmaschinen, sondern alle Anwender, wobei mir einfaellt, dass "abacho", glaubt man den Uebersetzungsdiensten von AltaVista und Go.com, _nicht_ heisst, was man so munkelt. "Erwachsene" Suchmaschinen gehen das Spam- Problem durch Software-Loesungen an - schliesslich laesst sich ermitteln, was "Spam" und was wertvoller Inhalt ist.

Eine alternative Loesung ist simpler - und durchaus attraktiv. Yahoo machte den Anfang, indem man fuer die Express-Registrierung [amerikanischer] Sites $199 verlangte. LookSmart hat nach monatelangen Preistests jetzt befunden, dass $199 eine runde Summe ist und von Web-Verantwortlichen, die eine Entscheidung ueber die Aufnahme der Site in das Verzeichnis innerhalb weniger Tage verlangen, gerne aufgebracht wird. Mutiger ist LookSmart, weil man von allen anderen Sites jetzt endgueltig $49 verlangt, und zwar nicht fuer die Aufnahme in das Verzeichnis, sondern die Entscheidung darueber, _ob_ eine solche [irgendwann] erfolgt. Private Site-Betreiber und Organisationen, die nicht bereit oder in der Lage sind, diesen Betrag aufzubringen, muessen trotzdem nicht verzweifeln. LookSmart-Editoren sind bemueht, gute Seiten eigenstaendig zu finden und aufzunehmen.

Auch Inktomi wird Sites zukuenftig in zwei Klassen einteilen. Die, die fuer die Aufnahme in die Datenbank zahlen, und die, die's darauf ankommen lassen. Zahlende Site-Betreiber geniessen bei Inktomi den Vorteil, nicht nach einer Weile aus der Datenbank entfernt zu werden [die lakonische Feststellung in der Inktomi-Veroeffentlichung ist meines Wissens das erste Eingestaendnis einer Suchmaschine, dass eine Zahl von Seiten nach einer Uebergangszeit aus den Datenbestaenden verschwinden]. Ausserdem will man die betroffenen Server alls 48 Stunden "pruefen". Ob dabei alle Seiten erneut gespidert werden oder ob nur ein ping erfolgt, ist nicht bekannt.

Fortschrittliche HTML

In einem weiteren Punkt entdecken - zumindest die grossen - Suchmaschinen heute mehr und mehr, dass einfaches Design von den Anwendern bevorzugt wird. Yahoo kam nach jedem Test alternativer Seitengestaltung immer wieder auf "Schlichtes Grau" zurueck. Seitdem Google Furore macht - und das vergleichsweise einfache Layout der Seiten ist sicherlich nur ein Grund fuer wachsende Nutzung - versuchen sich auch etablierte Mitbewerber in Sachen Zurueckhaltung. AltaVista bietet seit einiger Zeit die sog. "Spielkiste" der Entwickler, Raging Search, Excite entfernte erst kuerzlich den groebsten Unfug aus den Ergebnisseiten und jetzt zieht Go, Eigentuemer von Infoseek, mit einer abgespeckten Version nach.

http://search.go.com/
http://www.google.com/
http://www.raging.com/

AltaVista's Relaunch - oder Tapetenwechsel - ist wie immer nicht "ohne". Dass Seiten, die lange Zeit eine gute Position innehatten, ploetzlich verschwinden und durch andere ersetzt werden, erstaunt heute nur noch den, der einen solchen Wechsel erstmals erlebt. Keine Bange: in ein paar Wochen werden sich die Positionen zugunsten aelterer Seiten wieder verschieben, wie bisher nach jedem "Relaunch".

Raging Search ist eine Art Explorationsmodell der AltaVista- Entwickler. Wer sich dort mit deutschen Suchbegriffen bemueht, wird selten Unterschiede zwischen den Ergebnissen von AltaVista und Raging feststellen. Diese findet man - oefters, aber nicht immer - wenn man in englischer Sprache sucht. wedding gifts zum Beispiel produziert unterschiedliche Ergebnisse, waehrend real estate bei beiden zum gleichen Ergebis fuehrt.

Manchmal sind die ausgegebenen Links nur um eine Position verschoben: online book shops bringt auf Platz eins eine Site, die auch im der Shopping-Suchmaschine von AV gut vertreten ist, die restlichen Ergebnisse sind identisch zu AV's Raging Search. Ist RS nicht so sehr auf Kommerz ausgelegt?

Ein paar Abweichungen bei den Seiteninhalten koennen beobachtet werden. Wenn AV und RS unterschiedliche Ergebnisse ausgeben, zeichnen sich die RS-Ergebnisse durch Seiten aus, die oft eine hohe Zahl von Links haben. Das scheint fast so, als ob sich die AV-Entwickler auf den ursaechlichen Zweck des Web's - der Verlinkung von Information - besonnen haben. Andererseits gibt es auch bei unterschiedlichen Ergebnissen zwischen RS und AV oft keine Unterschiede bei der wichtigtsen Merkmale der Seiten. AV-Technologie bevorzugt anscheinend immer noch Inhalte, die vergleichsweise duerftig sind.

Kein Wunder, dass Anwender Alternativen zumindest einer Pruefung unterziehen. Wenn diese dann, wie Google, auch noch Resultate liefert, die den Anspruechen der Anwender genuegen, kommt es schnell zum Wechsel der bevorzugten Suchmaschine.

Kann eine Suchmaschine...?

Woran erkennt eine Suchmaschine, dass Seiteninhalte dynamisch erzeugt werden? Ueber viele Details des Datentransfers zwischen Web Server und Suchmaschine scheint immer noch Unklarkeit zu herrschen. So wundern sich manche Seiten-Ersteller, ob die Spider der Suchmaschinen den JavaScript-Inhalt sehen, oder ob Server Side-Includes besonders behandelt werden. Fragen, die sich oft eruebrigen, wenn Sie sich den Quellcode einer Seite mal ansehen. Was Sie sehen, und was fuer Autoren, die Seiten nur mit einem HTML-Editor erstellen, wie zerhackte <BAND>-Nudeln aussieht, ist genau das, was der Spider einer Suchmaschine "sieht".

"Spidern" ist nicht das Freilassen von zahlreichen Krabbeltieren, sondern das systematische maschinelle Abrufen von Seiten von Web Servern durch Programme, die tage-, wochen- oder monatelang ohne manuelles Eingreifen eigenstaendig aquirieren, verarbeiten, klassifizieren und speichern. Der einzelne Seitenabruf erfolgt durch eine Anfrage an einen Web-Server, die den Anforderungen des HTTP-Protokolls entspricht, und die durch die Aushaendigung der gewuenschten Seite oder einer Fehlermeldung beantwortet wird.

Ob eine Seite dynamisch, d.h. durch ein Programm oder eine Datenbank, erzeugt wurde, ob Teile einer Seite z.B. per Server Side Include angepasst wurden oder ob der Inhalt echte Handarbeit ist, laesst sich mit absoluter Sicherheit nicht feststellen. Es gibt zwar eine Reihe von Hinweisen und Anhaltspunkten, aber keine Sicherheit. Erstens kommt die Seite aus suspekter Quelle ohne Verifizierung ueber den Draht. Soll heissen, wer [den Seiteninhalt] glaubt, wird selig. Hinweise auf die Erstellung per HTML-Editor, in vielen Seiten als Kommentar angebracht, koennen die Vermutung nahelegen, dass eine Seite mit dem Editor erstellt wurden, sind aber kein Beleg. Wer so alt ist, dass er sich noch an Editoren wie vi oder emacs [edit unter DOS oder, ich glaube, Bbedit auf dem Apple] erinnern kann, weiss, dass Editoren so geduldig sind, wie eine Schultafel, wenn der Lehrer nicht im Klassenzimmer ist.

Das gilt fuer Server Side Includes ebenso wie fuer dynamisch erzeugte Seiten. Server Side Includes lassen sich schonmal "vermuten", wenn sie nicht funktionieren und statt dessen eine Fehlermeldung in den Seiteninhalt eingeblendet wird. stichhaltiger Beleg sind diese trotzdem nicht, da niemand daran gehindert wird, eine solche Fehlermeldung von Hand einzufuegen.

Entscheidungen der Suchmaschinen basieren deshalb nicht auf unanzweifelbaren Fakten, sondern heuristischen Beobachtungen, die nahelegen, dass es sich um dynamische, d.h. wahrscheinlich bei jedem Aufruf veraenderte, "Seiten" handelt. Anzeichen, die oft dazu fuehren, dass Seiten gar nicht erst erfasst werden, weil dynamische Erzeugung und damit eine nahezu unbegrenzte Vielfalt aehnlicher Inhalte vermutet werden kann:

O  CGI-URL, z.B. /cgi-bin
O  URL enthaelt neben der eigentlichen Adresse HTTP-GET
   Parameter, ohne die der Aufruf nicht funktioniert
O  URL enthaelt SQL-Befehle
O  URL endet in ASP

Waehrend Sie beim Besuch meiner Site feststellen, dass an jede URL gewisse GET-Parameter angehaengt werden [durch die ich durch LOG-Auswertung genau beobachten kann, was Sie auf dem Server und vielleicht auch im Privatleben machen], funktioniert der Seitenaufruf auch ohne Parameter.

Wenn Ihr Server oder Ihre Programmierer das nicht kann oder koennen, bietet sich die Alternative der "Codierung" an, die ohne GET-Parameter auskommt und bei der Teil der URL als Ziffernfolge ausgegeben werden: z.B. xyz.html,1234,56,789 - das verraeterische Fragezeichen in der URL verhindernd und ohne ein von fast allen Suchmaschinen ignoriertes /cgi-Segment in der URL.

Kostenfaktor

Ich hoere immer oefters, dass Suchmaschinen Seiten nicht aufnehmen, obwohl der Site-Betreiber seine Site als besonders wertvoll einstuft. Das sollte nicht ueberraschen. Festplatten- wie auch CPU-Kapazitaet und Bandbreite sind nicht unbegrenzt verfuegbar. Es ist schliesslich nicht so, als ob Inhalte Mangelware sind. Die juengsten Schaetzungen gehen davon aus, dass auf dem Web inzwischen mehr als 1000 Millionen von Dateien sind. Dubletten, informationslose Seiten und Bauernfaenger-Spam stellen den Loewenanteil, wobei Angebot und Nachfrage eine hohe Relation aufweisen.

Wer wirklich wertvolle Information bietet und etwas Geduld besitzt, wird trotzdem gefunden.

Newsletter Archiv

© Copyright 1998 - 2008 Klaus Schallhorn.