HTML-Blueten & Suchmaschinen-Wettbewerb.

Neuer HTML-Standard

Ich habe in den letzten beiden Wochen an einer neuen Spider- Library gearbeitet, die in den letzten Tagen ausgiebig getestet wurde.

Nachdem der Code mehrere hunderttausend Seiten unbekannter Qualitaet ohne Absturz ueberlebt hat und bei der Verarbeitung von HTML-Seiten, die von der Syntax her korrekt sind, die gewuenschten Ergebnisse liefert, galt es zu pruefen, ob tatsaechlich nur zurueckgewiesen wird, was zurueckzuweisen ist. Scheint so [auszugsweise]:

<bockquote>, <boby>, <BOG>, </CENTRE>, </HAED>, <HMTL>, <ilawyer>, <smal>, </SNIP>, <srong>>, </stong>, <titel>, <ahref="wahrheit.htm">, <EssLoeffel(3);>, <FIGUR>, <H/2>, <HTTP-EQUIV="keywords">, <persona>, <Test-Includes>.

Waehrend die meisten zwar reine Tippfehler sind [oder sog. Freud'sche Ausrutscher], enthaelt die Liste zahlreiche "Tags", die Anweisungen an irgendwelche Script-Interpreter und keineswegs fuer den Browser gedacht sind. Und deren korrekte Verarbeitung auf dem Server wohl niemand ueberprueft. Wenn Suchmaschinen nur syntaktisch korrekte Seiten aufnehmen wuerden, haette alles auf einer Floppy Platz.

Fehlerhafte HTML hat kumulative Effekte. Falsche HTML Tags oder inkorrekte Verschachtelung von Tags muessen nicht zum sofortigen Browser-Absturz fuehren. Trotzdem sollten Sie Ihre Site von Zeit zu Zeit und vor allem nach jedem Facelift validieren.

Patent-Frage

Dass Unisys ein Patent auf das bei der Erstellung von GIF- Dateien benutzte Komprimierverfahren besitzt, ist bekannt. Ich hatte vor, die fuer accessLog geplanten Grafik-Routinen auf Thomas Boutell's libgd aufzubauen, die in vielen Web- Anwendungen eingesetzt wird. libgd ist weit verbreitet. Ob das Unisys-Patent gueltig ist, weiss niemand. Unisys hat bisher niemand verklagt. Bisher reichte stets die Androhung.

libgd wurde inzwischen auf das PNG-Format umgestellt. Das Grafik-Format ist auf 256 Farben beschraenkten GIFs zwar ueberlegen, setzt aber wesentlich groessere Kenntnis bei der Software-Installation voraus. Nicht jeder Web-Verantwortliche installiert routinemaessig Programme, die auf mehreren Code- Bibliotheken aufbauen und deren Makefiles erst umstaendlich der Systembeschaffenheit angepasst werden muessen.

Da ich einerseits an einer weiten Verbreitung von accessLog interessiert bin, andererseits aber die Verteilung [oder Nutzung - aus Sicherheitsgruenden] binaerer Programme prinzipiell ablehne, musste die Denk-Kappe her.

Ich habe daher ganz auf jede Grafik-Einbindung verzichtet.

Trotzdem zeigt die jetzt 6. accessLog Beta-Version attraktive Balken-Grafik ohne Grafik ;-). Die Darstellung wurde schlicht per HTML implementiert. Das Ergebnis ist recht ansprechend und, auf den ersten Blick, fast nicht von echter Grafik zu unterscheiden.

accessLog [mit immer noch recht spaerlicher Dokumentation]:

http://www.kso.co.uk/de/downloadäccesslog.tgz

Suchmaschinen-Wettbewerb

Seit einiger Zeit laeuft auf einer bei einem $6.95-Provider untergebrachten Site ein "Wettbewerb", bei dem Suchmaschinen einen "Preis" gewinnen koennen. Ein Teil der dortigen Seiten wird durch autoAnnounce angemeldet, der Rest muss "gefunden" werden. Hilfestellung wird den Suchmaschinen durch die Anbringung von Links in den angemeldeten auf die zu findenden Seiten gegeben.

Jede Woche werden zwei neue Seiten erstellt [zwei Monate alte Seiten werden automatisch geloescht]. Eine wird in der gleichen Nacht angemeldet, die andere ist ueber Links aus den angemeldeten Seiten zu erreichen.

Die Amis sind flugser als die Europaeer. Die angemeldeten Seiten sind innerhalb von ein paar Tagen in den grossen Suchmaschinen sichtbar, und diese Woche hat Northernlight, eine in den letzten Monaten eher traege spidernde Suchmaschine, auch Seiten geholt, die nicht angemeldet wurden. In ein paar Wochen gibt es erste Resultate.

In diesem Zusammenhang habe ich bei Mirago Interessantes gesehen [ich bin Tueftler ;-)]. Waehrend Mirago eigentlich nur englische und auf England bezogene Inhalte indiziert, rutschen gelegentlich auch deutschsprachige Texte auf die Platte. Das "Donaudampfschiffahrtskapitaensmuetzenproblem" bei der Bearbeitung deutschsprachiger Texte ist deshalb auch hier bekannt.

Suchen Sie bei Mirago mal nach:

bundeskanzlerschraubenziehergrundeinstellungskosten

oder einem aehnlich zusammengesetzten Begriff, der mit einem haeufigen Wort beginnt. Mirago liefert sofort Ergebnisse, bei denen der Wortstamm gefunden wird, zerlegt also laengere Bandwurmwortkombinationen in einzelne Bestandteile und sucht nach zumindest der ersten Komponente, wenn der Suchbegriff in unveraenderter Form nicht im Datenbestand ist.

http://www.mirago.co.uk/

Mirago ist mir, obwohl nicht perfekt und der vor allem in neueren Browsern kitschigen Darstellung, mehr als einmal angenehm aufgefallen.

Woher kommen die Besucher

Eine kuerzlich veroeffentlichte ActiveMedia-Studie zeigt, dass Suchmaschinen-Optimierung fuer einen Grossteil aller Web-Verantwortlichen das wichtigste Marketing-Instrument ist. An zweiter Stelle findet sich, erstaunlicherweise, email.

Traditionelle Offline-Methoden werden von bestenfalls 42% der Befragten mit "sehr gut" bewertet.

Die Befragten, so die Studie, unterscheiden dabei genau zwischen Suchmaschinen-Anmeldung und Seiten-Optimierung. Dass die reine Anmeldung allein nicht ausreicht, wissen daher mindestens zwei von drei Web-Verantwortlichen [66%]. Wichtiger ist die Optimierung in der Absicht, qualifizierte Besucher auf die Site zu holen. Reiner "Traffic" ist kein Masstab fuer den Erfolg einer Site, da "Traffic-Maximierung" ohne Qualifizierung den Zurueck-Button abnutzt. Besucher, die nach dem Aufruf einer Seite sofort wieder verschwinden, tragen nicht zum Unternehmensergebnis bei.

Erfolgreichste Methode der          Prozent der
Traffic-Generierung:                Befragten
-----------------------------------------------
Suchmaschinen-Optimierung           66%
email                               54%
Broschueren/Drucksachen             42%
Gedruckte Kataloge                  40%
Messen/Ausstellungen                37%

http://www.activmedia.com/restricted/pr_9899.html

Meuterei auf der Bounty

Wer bei der Suchmaschinen-Recherche auf den ersten Seiten immer wieder Pornografisches oder voellig Irrelevantes findet, sehnt sich nach den "guten alten Zeiten" des Internets, als Spammer und der Porno-Adel noch nicht wusste, dass man Information digital verarbeiten kann.

Noch ist nicht alles verloren. Die "Meuterei auf der Bounty" hatte ich schonmal als Jugendlicher gelesen. Gestern abend habe ich, nach 700 Seiten, nachdenklich die "Bounty Trilogy" [Nordhoff u. Hall] zugeklappt. Heute frueh habe ich nach einer Suche bei AltaVista die Nachfahren der Meuterer und ihre Geschichte bis zum heutigen Tag auf der abgelegendsten Insel der Welt entdeckt:

http://www.lareau.org/bounty.html

Newsletter Archiv

© Copyright 1998 - 2009 Klaus Schallhorn.