Entwicklungsfortschritte, Schlagseite & der naechste Netz-Boom

Suchmaschinen Entwicklungsfortschritte

Klammheimlich fuehrte Google vor ein paar Wochen die Erkennung zusammengesetzter Worte bei deutschsprachigen Suchanfragen ein, wenn diese bei Google.DE, AT oder CH gestellt wurden.

Bemerkt wurde diese Erkennung einmal, weil Wortteile der aus einem Wort bestehenden Suchanfrage in den Suchergebnissen fett hervorgehoben werden, und weil zwischen den bei Google.COM und den drei obigen ploetzlich Unterschiede der Positionierung fuer zusammengesetzte Suchanfragen notiert wurden.

Sucht man beispielsweise nach Autoersatzteilen, findet man u.a. Ergebnisse, in deren Beschreibung auch die Begriffe Auto und bzw oder Ersatzteile hervorgehoben werden, waehrend bei anderen Googles nur das zusammengesetzte Wort in der Beschreibung betont wird.

Seit einigen Monaten _soll_ Google auch selektiv Stemming, d.h. die Reduzierung auf den Wortstamm, bei der Suche einsetzen, obwohl ich bisher keinen Beleg dafuer gesehen habe.

Die meines Wissens nach einzige Suchmaschine, die derzeit vereinfacht "stemmt", ist Mirago. Wer bei Mirago in England animiertes sucht, findet fuer "animation" und auch den um ein 's' erweiterten Plural identische Ergebnisse. Das Ganze scheint aber nicht auf Porter zu basieren, und stolpert nicht nur ueber manche auch im Englischen bekannten Ausnahmen wie z.B. shelf und shelves. Porter war, seitdem ich mich zuletzt mit Stemming befasst, aeusserst fleissig.

Ich muss gestehen, dass mein eigener Stemming-Code bei der Bearbeitung deutscher Texte ebenfalls Ausnahmen wie Museum und Museen ignoriert. Anfangs hatte wurde schlicht vergessen, darauf einzugehen, und spaeter fehlte die Zeit.

Als unueberlegt betrachte ich aber die simple Uebernahme des fuer die englische Sprache entwickelten Algorithmus bei der Suche nach deutschsprachigen Informationen bei Mirago.de. Wer dort Animiertes sucht, haengt fuer die Mehrzahl "en" an. Wobei die Zahl der Endungen groesser und der Algorithmus wesentlich komplizierter ist, als jede Formel fuer die Bearbeitung der fuer die moderne Informationsverarbeitung wie geschaffenen englischen Sprache. Miragos "Stemming" bei deutschen Suchformulierungen scheint daher auf die Plurale begrenzt, die durch ein Anhaengen des Buchstaben 's' erzielt werden.

Wie schwierig es ist, die deutsche Sprache [und ein paar andere] maschinell zu "verstehen" oder verarbeiten, wird genauso deutlich, wenn man versucht, sogenannte "Sounds Like"-Algorithmen zu entwickeln, die gleich- oder aehnlich lautende Begriffe aufspueren sollen.

Hier waere neben umfangreichen Analysen der Sprache selbst sehr aufwandsreiche Fleissarbeit zu betreiben. Zumal Begriffe wie "kuenstliche Intelligenz" oder neurale Netzwerke wesentlich besser geeignet sind, Investoren zu gefuegig zu machen.

Kommerzielle Schlagseite

Vor ein paar Monaten hatte ich Anlass, ueber Googles kommerzielle Schlagseite zu lamentieren. Wer sich ueber Ursache, Verlauf und moegliche Heilmethoden fuer manche Krankheitsbilder informieren moechte, findet vor allem Angebote fuer allerlei Pillen und Tinkturen.

Nur AltaVista befoerderte damals Seiten von Bildungseinrichtungen und Behoerden unter die ersten 10. Heute habe ich interessehalber mehr vorbeugend als aus dringendem Bedarf heraus Informationen ueber ein Arthrose-Medikament gesucht. In Verbindung mit den Qualifizierungen "side effects" oder "experience" und dem Namen des Medikaments [Metacam] kann keine Suchmaschine mehr als ca 800 Seiten produzieren - wobei auch hier die meisten kommerzieller Natur sind. Auch wenn ich statt des Markennamens den generischen Begriff Meloxicam eingebe, erhalte ich zwar mehr, zuerst aber immer noch fast ausschliesslich kommerzielle Ergebnisse.

Das mag daran liegen, dass Pillendreher publizistisch aktiver als Kaeufer sind, denn bei Google Groups finde ich noch weniger Ergebnisse, als bei der Google Websuche.

Interessant der Vergleich mit dem Namen eines Medikaments, das die maskuline Standfestigkeit stuetzen soll: 18 Mio Seiten zaehlt Google hier, und keiner der Mitbewerber geizt mit den Millionen.

Ganz unterschwellig erkennt man, welchen Stellenwert welche Dinge in unserem Leben haben. Manchmal erfaehrt man das auch unverbluemt. Kosmetische Chirurgie erlebt einen Boom, und viele Modifikationen erfolgen auf heute gar auf Pump.

Der naechste Netz-Boom

Heute populaere "Stellenwerte" lernt man auch kennen, wenn man die Interessen derer wahrnimmt, die gefunden werden wollen. Es ist rein unglaublich, wie oft ich beruflich mit Praesenzen konfrontiert werde, die beim Aufruf nicht mehr als eine leere Seite hergeben, waehrend der Kunde doch im eigenen Browser ein Wunderwerk der Praesentation bestaunen kann. Warum Site-Schrauber immer noch JavaScript voraussetzen, um auf eine nicht im Stammverzeichnis untergebrachte Seite zu refreshen, und diese dann auch noch als Startseite bezeichnen, ist mir schleierhaft.

Statt sich einmal gruendlich ueber die Funktionsweise von Spidern zu informieren, lernt man lieber Dinge, die das Spidern einer Site verhindern, Browser-Abstuerze ausloesen, Installation dubioser Software-Komponenten auf dem Rechner ermoeglichen, um dann zyklisch das "Betriebssystem" auf dem Home-Computer neu zu installieren, wenn nichts mehr funktioniert.

Die naechste Katastrophe - und Abzocke - ist bereits programmiert. Seit ein paar Tagen kann man im deutschsprachigen Bereich jetzt Unlaut-Domains registrieren. Die Verkaeufer nennen diese Umlaut-Domains. Fuer Nameserver und andere das DNS benutzende Anwendungen sind dies - da sie den Standards widersprechen und somit nicht benutzbar sind - aber Unlaute.

In den FAQs der NICs wird zwar darauf hingewiesen, dass solche Domainnamen nur aufloesen und damit erreichbar werden, wenn der Anwender - nicht der Eigentuemer, sondern jeder, der da mal draufblicken moechte - ein Einsteckmodul [Plugin] im Browser installiert.

Fragen Sie mal den typischen Anwender, wie das geht, wo dieser doch mit der Entfernung von Dialer-Software und Viren vollauf ausgelastet ist.

Lange duerfte es nicht dauern, bis die heute schon mehr als eine halbe Mio Eigentuemer unlauter[er?] Domains merken, dass niemand kommt. Und bis Scharlatane die Anmeldung solcher Domains bei den Suchmaschinen verkaufen. Wobei natuerlich die Umlaute in einen sog. ACE-String verwandelt werden, damit sie benutzbar werden.

So wird aus dem einfachen "jürgen.müller.de" das interessantere und leicht merkbare "xn--jrgen-kva.xn--mller-kva.de".

Einen Vorteil der Umlautdomains will ich nicht verheimlichen. Wer solche als Absender-Domain beim Mailversand angibt, erhaelt keinen Spam. Er erhaelt zwar auch keine sonstige Mail, aber das ist wohl nur eine Nebenwirkung.

Und der Jurist fragt an dieser Stelle natuerlich sofort, zu wie vielen [unfreiwilligen] Markenverstoessen es hierdurch kommen wird. Und wie man diese verwertet. Aber das ist wohl nur eine weitere Nebenwirkung.

Kuriositaeten

Ich frage mich, wie lange es dauern wird, bis diese Leute zum "Official Bullshitter of the Internet" werden... Und waehrend die Clowns sich feiern, weil sie ihrer eigenen Meinung nach eine "Innovative Marketing-Strategie" entwickelt haben, haette ein Blick auf Google gezeigt, dass Dummheit grenzenlos ist - die Formulierung wird von Hunz & Kunz genutzt... In diesem Zusammenhang ein Karrieretips.

Interessantes auf der Mailing Liste der Internet Engineering Task Force zum Thema Spam.

Manche Fehler sind fehlerhafter als andere...

Neue Initiative zur Foerderung der Computer-Sicherheit...

Und wenn Sie - wie ich - unter staendiger Parkplatznot leiden.

Neu auf der Suchmaschinen-Site

Ich habe keine Erfahrung mit Browsern auf Home Computern [oder MacOS Systemen], aber seitdem ich meine Systeme ueber das letzte Vierteljahr von RedHat 5.2 und 6.0 auf 9er umgestellt habe, hatte ich regelmaessig Schwierigkeiten, meinen woechentlichen WebRank-Report zu lesen. Mal klappte der Ausdruck, mal brauchte ich ein Mikroskop zum Entziffern.

Die Loesung war fast schon peinlich. Immer, wenn Inktomi oder Hotbot Ergebnisse anderer Suchmaschinen im Datenbestand hatten, die ueber ein codiertes Redirect auf meine Site zeigen, wurde im Report natuerlich eine ellenlange URL angegeben. Alle von mir in den letzten Jahren benutzte Browser schnitten - soweit ich mich erinnere - beim Ausdruck alles ab, was ueber den rechten Seitenrand herausragte. Die neueren auf Gecko basierenden Browser sind "intelligenter". Sie skalieren jede Seite, so dass sie passt - aber dann manchmal wie ein Strickmuster aussieht. Man kann offenbar nicht alles haben.

Lange URLs werden deshalb jetzt im WebRank-Report in Scheibchen von je ca 80 Zeichen zerlegt - ich habe mir erst letzten Sommer neue Brillen beschafft.

Und wenn Sie Ihre taegliche Dosis nicht immer ernst gemeinter Kommentare zum und ueber den Suchmaschinen-Markt benoetigen, darf ich Sie auf meinen fast taeglich aktualisierten Suchmaschinen Weblog einladen.

Newsletter Archiv

© Copyright 1998 - 2008 Klaus Schallhorn.