SEO Shopping-Tip zum Jahreswechsel

15. Dezember 2005.

Das Verhältnis von Pagerank und Auffindbarkeit ist heute zwar längst nicht mehr so ausgeprägt, wie vor noch zwei Jahren, aber wie sich leicht durch systematisches Suchen in Erfahrung bringen lässt, muss nach wie vor davon ausgegangen werden, dass Pagerank unter einer Vielzahl von Voraussetzungen hilft, gefunden zu werden. Mehr ist im Zweifelsfalle besser.

Pagerank-Steuerung ist allerdings nur einer der Gründe, warum man nicht gedankenlos "produzieren" sollte. Viele Shopping-Carts oder Systeme setzen immer noch auf Einkaufswagen, deren virtuelle Rädchen eiern, quietschen und einen generellen Linksdrall haben. Mit anderen Worten, die nutzlose Seiten produzieren und ausliefern.

Dabei sollte offensichtlich sein, dass eine unnötig hohe Zahl von Seiten nur schadet. Anwendern, Robots, und vor allem der eigenen Wenigkeit. Unnötig sind z.B. solche, die für ein nicht mehr lieferbares Produkt nicht nur im Seitentext sagen, "Gibts nicht mehr", sondern die solche Seiten noch von anderen verlinken und dann auch noch mit einem HTTP Status-Code 200 [d.h. "alles wunderbar in Ordnung"] ausliefern. Alle Robots - und dazu zählen auch Suchmaschinen-Spider - gehen durch den Status-Code 200 [geliefert im HTTP Header] davon aus, dass die Seite gültig ist. Dummerweise hat fast jede Shopping Site, die wertlose Seiten produziert, mehr als eine solcher Seiten.

Wenn die Seiten solcher Shopping-Katastrophen dann auch noch "Cross-Selling" anstreben, d.h. zu der eigentlichen vom Besucher gesuchten Information noch neunundneunzighundert andere Produkte und Links enthalten ["wer sich hierhin verirrt hat, hat auch folgende Umwege gemacht], haben wir schnell Dubletten erzeugt.

site:www.misco.co.uk zeigt z.B., dass Google die Zahl der Seiten bei Misco zwar auf mehr als 1 Mio schätzt, dass aber nur 87 davon Unikate sind. Der Rest der Seiten ist den gezeigten sehr ähnlich. Cool.

Zu diesen Dubletten zählen u.a. Seiten mit nicht mehr lieferbaren Produkten [manche mit Pagerank 2, der möglicherweise woanders besser gebraucht werden könnte] und auch Server Error-Meldungen. Das nenne ich doppelt clever: im HTML-Header nennt die Software, die das produziert, den Server Status [500, umgekippt], aber der Seiten-Abrufer erfährt davon nichts, weil die Seitenlieferung mit dem Status 200 [hat wunderbar geklappt] erfolgt.

Mit dem Yahoo Site-Explorer lassen sich solche Krücken auch vom Home Computer aus herauskitzeln, wenn man die üblichen Tools und Scripte nicht nutzen kann, weil man nur in Office-Anwendungen denkt.

Ich begebe mich hiermit bis Anfang Januar in den Winterschlaf. Frohe Feiertage.

Suchmaschinen Spam-Stop

18. Januar 2005.

Nachdem sich Betreiber von Foren, Gästebüchern und Blogs, in denen Anwender Kommentare abgeben dürfen, jahrelang über Einträge von Spammern ärgern mussten, veröffentlicht Google [und Yahoo, so wird gemunkelt] heute eine Möglichkeit, dem vorzubeugen.

Anbringung eines neuen Attributs bei der Verlinkung verhindert, dass solche Links von Suchmaschinen verfolgt werden. Eine kleine Anpassung der Scripts oder Programme, die Kommentare verarbeiten, verändert dann jeden Link zu einem ignorierten:

<a href="http://spam.domain" rel="nofollow">

Böse Zungen behaupten natürlich, das Ganze sei ein PR-Stunt, um laut zeternden Bloggern, die sich besonders ausfällig über Kommentar-Spam äussern, den Wind aus den Segeln zu nehmen. Schliesslich gab es schon immer Möglichkeiten, die Indexierung oder auch Verfolgung der Links einer Seite zu verhindern. Gestandene Protokolle wie "robots.txt" oder auch die Meta-Kandidaten wie "no index" oder "no follow" gibt es seit Jahren.

Erledigt sich Google selbst?

18. Oktober 2004.

Im April beschrieb ich im Kundenbereich erstmals die Problematik der Masche, mit der sich Trittbrettfahrer den PR grösserer Sites aneignen. Im Juni erklärte ich hier, wie man das verhindern kann. Im Webmasterworld-Forum wird jetzt beklagt, dass die Masche mehr und mehr die Runde macht, und nicht nur zum Pagerank-Hijacking eingesetzt wird, sondern auch übernommene Inhalte, deren PR künstlich erhöht wird, die Original-Site in den Ergebnissen ersetzen kann.

Die Rede ist dort von möglicherweise besseren Filtern, von manuellen Abstrafungen und anderen Ideen. Und in der Praxis lässt sich beobachten, dass Google eine ganze Palette neuer Produkte auflegt oder aufzulegen gedenkt. Am Kerngeschäft dagegen scheint sich kaum etwas zu bessern. Wenn "von oben" keine Hilfe erwartet werden darf, hilft nur die Selbsthilfe.

Und bevor ichs vergesse: Google ist nicht die einzige Suchmaschine, die die Problematik so behandelt. Mehr als eine versuchen ja, Google in jeder Beziehung nachzumachen. "Warts an' all", wie man hier sagt.

Google Update/2

10. August 2004.

Was auf den ersten Blick aussieht, wie ein vollständiges Google-Update, ist keins. Google zeigt heute zwar veränderte Werte bei der Zahl der Links, es sieht aber ganz so aus, als ob diese Zahlen auf der gleichen Datenbasis ermittelt wurden, die schon beim letzten Update im Juli herhalten musste.

Die letzte Seite meines Blogs, die mit Pagerank geziert wurde, stammt immer noch vom 27.5. des Jahres. Alles, was danach auf den Server gestellt wurde, hat - wie vor einem Monat - noch keinen Pagerank. Das gleiche lässt sich beispielsweise leicht bei Heise ermitteln, eine Site, die URLs freundlicherweise numerisch ablegt. Die binäre Suche bringt hier schnell ans Tageslicht, dass die letzte gepagerankte Seite vom 8.6. stammt. Wenn mich nicht alles täuscht, liegt das schon eine Weile zurück.

Anderen gehts noch schlechter. Ich habe, ohne dass ich Namen nennen möchte, Medien-Sites gefunden, bei denen Seiten von Ende April noch unbewertet sind.

Was, bitteschön, ist die binäre Suche, fragen Sie? Ganz einfach. Soeben stellte Heise im Newsticker einen Artikel über - was kann's schon sein - wieder einen neuen Wurm auf den Server. Der Artikel wurde, wie in der Adresszeile des Browsers sichtbar, unter der URL /newsticker/meldung/49922 abgelegt. Man könnte jetzt die Zahl 49922 solange um Eins, oder auch Zehn, reduzieren, bis man eine Seite findet, die bereits PR hat.

http://www.heise.de/newsticker/meldung/49922

Oder man sucht binär, indem man z.B. die Zahl in der Adresszeile um 9922 reduziert und bei 40000 landet. Das war natürlich zu viel, da diese Seite am 3.9.2003 erstellt wurde und bereits PR besitzt. Also addieren wir - zur Vereinfachung der mentalen Arithmetik ungefähr - die halbe Differenz, d.h. wir springen auf 45000. Immer noch zu früh, also legen wir nochmal die halbe Differenz zwischen 45000 und 49922 drauf, so dass wir bei 47500 landen. Auch diese Seite hat schon PR, also nochmal die Hälfte der Differenz dabei, und wir landen bei 48750. Jetzt haben wir offenbar eine Seite erreicht, die noch keinen PR hat. Also müssen wir zurück.

Als untere Marke setzen wir jetzt 47500 an, und unsere obere ist 48750. Reduziert um die halbe Differenz landen wir bei 48125. Immer noch zu hoch, also springen wir auf 47813 und etablieren eine neue untere Marke. Den Rest werden Sie jetzt sicherlich nachvollziehen können.

Fazit: eine Handvoll Sprünge etabliert die Fundstelle wesentlich schneller, als wenn man systematisch sucht und alt wird.

Pagerank-Diebstahl verhindern

15. Juni 2004.

Unüberlegter Journalismus hat dazu geführt, dass ein nur Wenigen bekanntes Google-"Feature", das ungerechtfertigte Vererbung von Pagerank ermöglicht, an die Öffentlichkeit kam. Während die Veröffentlichungen zwar nicht in allen Details korrekt sind und auch nicht die komplette Kette der von Schmarotzern zu erfüllenden Voraussetzungen nennen, sehe ich mich gezwungen, einen im Kundenbereich am 22.4. veröffentlichen Hinweis [damals begleitet durch einen Eintrag in meinem Blog vom gleichen Tag] nachfolgend zu wiederholen:

Pagerank-Klau verhindern

Einzelne Indizien habe ich im Laufe der letzten beiden Jahre mehrfach beobachtet. Über manche haben sich Besucher von Foren wie z.B. Suchmaschinentricks mehrfach negativ geäussert, ohne die Folgen vollends zu erkennen. Nachdem ich auf eine Site stiess, die angeblich mehr als 300 mal von meiner verlinkt wurde, ergab längere Korrespondenz mit einem Google-Techniker, dass auf diese Art Pagerank transferiert wird.

Dagegen schützen können Sie sich momentan nur, wenn Sie sog. voll qualifizierte Links in Ihren Seiten verwenden, oder wenn Sie allen Seiten ausdrücklicher einer Basis zuweisen.

Zur Erklärung:

Link-TypBeispielErklärung
relativ:<a href="file.html">Datei im gleichen Verzeichnis
absolut:<a href="/pfad/file.html">Datei auf dem gleichen Host
voll qualifiziert:<a href="http://domain.de/pfad/file.html">vollständige URL

Da es zu übergrossen Dateien führt, eigentlich unnötig und vor allem lästig ist, in jedem Fall voll qualifizierte URLs zu verwenden, bietet sich als Alternative die Möglichkeit, alle internen Links ausdrücklich und um jeden Zweifel zu vermeiden, einer einheitlichen Basis zuzuweisen. Dies geschieht durch Anbringung des BASE Elements im HEAD einer Seite:

<base href="http://ihre.domain.de/">

Damit wird jeder Link Ihrer Seiten, der nicht ausdrücklich auf einen externen Host führt, zweifelsfrei Ihrer Site zugeordnet und der unberechtigte Transfer von Pagerank an Trittbrettfahrer verhindert.

Bitte beachten Sie, dass in diesem Fall nach dem Domainnamen ein Schrägstrich [Ihr Stammverzeichnis verkörpernd] angegeben werden muss, da manche Spider [vor allem Yahoo/Inktomi] durch einen Bug im URL-Parser ohne den Schrägstrich im Kreis laufen. Anbringung des obigen Beispiels setzt ebenfalls voraus, dass Sie für interne Links stets absolute URLs verwenden. Bei Verwendung relativer URLs muss das BASE Element für diese Seiten dann auf das entsprechende Verzeichnis verweisen. Beispiele für beide Formen finden Sie, wenn Sie den Quellcode z.B. dieser Seite mit einer Seite aus meinem Suchmaschinen-Tutorial vergleichen.

Hyperventilierer rippen Pagerank

11. Mai 2004.

Anwender typischer Blogger-Software, die sich fast immer dadurch auszeichnet, dass Leser Kommentare anbringen und Spammer Links auf den eigenen Mist setzen können, dürfen aufatmen. Mehrere Software-Pakete, u.a. Movable Type, kommen jetzt mit Redirect Scripts, die verhindern sollen, dass Pagerank weitergegeben wird. Blogger lässt das Redirect gar über Google laufen, wo man sicherstellt, dass PR nicht weitergegeben wird.

Wer's ohne Google-Zwischenschaltung machen will, darf natürlich nicht auf die Idee kommen, die endgültige Zielurl als Parameter an den Redirector zu geben, so wie's von Blogger selbst praktiziert wird. Google interpretiert solche URLs seit geraumer Zeit nämlich korrekt, wie man u.a. daran sehen kann, dass Einträge in Yahoo wieder als Backlink erkannt werden.

Sicher wäre nur das Redirect über ein Script oder Programm, das eine ID und nicht die Ziel-URL als Parameter erhält. Gleichzeitig muss Zugriff auf dieses Programm bzw Script per robots.txt untersagt werden.

Man kann diese "Technologie" als Redirect bezeichnen. Man kann sie aber auch als Pagerank Stripper oder ähnlich verglorifizieren, so dass auch technisch nicht Versierte zumindest ahnen können, dass irgendetwas - möglicherweise Positives - dabei rauskommt.

http://simon.incutio.comärchive/2004/05/11äpproved

Suchmaschinen Blog Archiv


© Copyright 1998 - 2008 Klaus Schallhorn.