Parameter des <IMG>-Tags für die Beschreibung des Inhalts einer Grafik. Sollte nicht zu Wiederholungen des oder der Suchbegriffe genutzt werden, da diese Beschreibung in Textbrowsern und Browsern für Sehbehinderte Anwendung findet. Der ALT-Text wird durch entsprechende Software über die Soundkarte vorgelesen.
Wird bei einer Grafik kein ALT-Parameter bestimmt, zeigen Text-Browser [und damit auch vorlesende Browser] das Wort "Image". Ggfls. sollte daher ein leerer ALT-Parameter bestimmt werden, d.h. ALT="".
Suchmaschinen bieten gelegentlich auch die Möglichkeit der Seiten-Abmeldung. Genau wie bei der Anmeldung muss hierbei die URL der nicht mehr benötigten Seite angegeben werden.
Diese muss aber vorher auf dem Server gelöscht werden. Ein meist innerhalb kurzer Zeit erfolgender Seitenaufruf durch die Suchmaschine führt zur Feststellung, dass die betroffene Seite nicht mehr vorhanden ist und zur anschliessenden Löschung im Datenbestand der Suchmaschine.
Soweit jedenfalls die Theorie. In der Praxis zeigt es sich, dass Suchmaschinen immer wieder versuchen, auch gelöschte Seiten abzurufen, sobald sie auf einer Seite einen Link auf die nicht mehr vorhandene Seite finden. Da nicht jeder Site-Betreiber seine Seiten aktiv pflegt, finden Sie in Ihren Protokoll-Dateien immer wieder versuchte Seitenaufrufe nicht mehr existierender Seiten durch Suchmaschinen.
Link von einer Ihrer Seiten auf eine Seite auf einem fremden Server. Wird von mehreren Suchmaschinen heute als Empfehlung gewertet [sh. Beschreibungen und Beeinflussungs-Möglichkeiten der Pagerank und Hilltop Algorithmen in Linkpopularität prüfen], die beim Ranking berücksichtigt wird.
Pagerank berücksichtigt dabei nur eingehende Links und den Wert jeder Seite, von der ein Link ausgeht.
Hilltop bewertet eingehende und ausgehende Links. Eine Seite mit vielen Links auf Seiten, die von anderen ebenfalls oft verlinkt werden, wird so zum "Hub" oder Knotenpunkt, der höher bewertet wird. Seiten, auf die eine grosse Zahl von Links von solchen Knotenpunkten eingehen, werden dadurch zur Autorität und erfahren ebenfalls bevorzugte Gewichtung.
Sh.a. Relativer Link und Link-Prüfung.
Microsoft-Windows spezifische Technologie, die nur auf Windows Rechnern funktioniert und ohne Ihre Zustimmung und Wissen auf Ihrem Rechner nahezu uneingeschränkt Zugriff hat.
Über ActiveX können Systemeinstellungen oder auch Konfigurationsdateien wichtiger Anwendungen verändert werden oder neue und eigenständig arbeitende Anwendungen installiert werden.
Über die ActiveX-Hintertüre werden oft Anwendungen installiert, die den Anwender ständig mit PopUp-Werbung belästigen. Da der Anwender nicht weiss, dass die Software auf seinem Rechner installiert wurde, richtet sich sein Ärger meist gegen die gerade besuchte Site. Dabei gibt es heute mehrere solcher Werbe-Schmarotzer, die genau beobachten, welche Suchbegriffe in einen Browser eingegeben werden, um dann ein PopUp-Fenster mit entsprechender Werbung zu öffnen.
Sicherheitsbewusste Anwender, die gezwungen sind, Microsoft Windows zu benutzen, haben ihren Browser so konfiguriert, dass ActiveX-Module nie geladen werden.
Distanz zweier Suchbegriffe bei einer Suchanfrage. Manche Suchmaschinen berücksichtigen die Distanz bei Suchanfragen, die aus mehr als eine Wort bestehen, da nahe beieinander stehende Wörter der gesuchten Thematik in der Regel näher kommen.
Suchmaschinen, die die Distanz berücksichtigen, müssen ebenfalls, wie bei der Phrasensuche, Wortpositionen für jedes gespeicherte Wort festhalten.
Da Wortpositionen sequentiell, d.h. in ansteigender Reihenfolge, festgehalten werden, lassen sie sich recht preiswert komprimieren, wenn nur die Unterschiede zwischen den Positionen und nicht absolute Zahlen festgehalten werden. Der benötigte Speicherplatz für eine Liste von Wortpositionen beträgt daher selten soviele Bytes wie Wortpositionen.
Sammelbegriff für Anwendungen und Applikationen, die Daten bei Suchmaschinen [oder anderen Datenlieferanten wie Verzeichnisse oder auch spezielle Datenbanken] abfragen. Die am weitesten verbreiteten Agents sind Browser, gefolgt von Download-Software.
Auch die hier eingesetzten Spider, die im Kundenauftrag Suchmaschinen befragen und die Daten analysieren, sind Agents, obwohl Abfragen und Auswertungen ohne manuelle Steuerung erfolgen.
Agent Name Delivery nennt man die vom User-agent des Abrufers abhängige Wahl des zu liefernden Seiteninhalts bei jedem Seitenabruf durch entsprechende Software auf dem Web Server.
Agent Name Delivery wird überwiegend für Cloaking verwendet, obwohl es auch "unschuldige" Anwendungen gibt, wenn z.B. Seiteninhalte für Textbrowser oder solche, bei denen moderne Plugins vorhanden sind, browserabhängig geliefert werden sollen.
Die Technologie [und, falls der Einsatz der Technik nur zum Zwecke der "Suchmaschinen-Überlistung" eingesetzt wird, die Risiken] wird im Kundenbereich detailliert beschrieben.
Formel, bei Suchmaschinen die Methodik, die nach Auswertung aller Web-Seiten die Relevanz zutreffender Seiten bezogen auf eine Suchanfrage bestimmt.
Kapitel 7 meines Suchmaschinenoptimierung Tutorials beschreibt heute übliche Ranking-Algorithmen. Detaillierte Beschreibungen, die dem Nichtfachmann genau zeigen, warum auch moderne Algorithmen wie Pagerank oder Hilltop oft anfällig sind, werden zum Schluss meines Tutorials gegeben.
Besonders PageRank und Hilltop haben sich in der Praxis aber besonders "spamfest" erwiesen, da diese Algorithmen überwiegend das "Establishment" bevorzugen. Da die zuerst bei solchen Suchmaschinen ausgegebenen Seiten die grösste Besucherzahl haben, steigt deren Beliebtheit, Bekanntheitsgrad, die Zahl der auf diese Seiten gesetzten Links und damit der Bewertungsvorsprung am schnellsten.
Neue Sites oder auch nur neue oder veränderte Seiten einer Site werden nur gefunden, wenn sie von den Suchmaschinen in den Datenbestand übernommen werden.
Während manche Suchmaschinen regelmässig spidern und dabei auch neue Seiten automatisch finden, müssen andere immer wieder einen Hinweis erhalten.
Die Anmeldung vergrössert die Chance der frühzeitigen Aufnahme, obwohl sie keine Garantie für die Übernahme Ihrer Seiten in den Datenbestand der Suchmaschinen bietet.
Wenn auch etwa sechs bis acht Wochen nach der Anmeldung Seiten nicht indiziert wurden, darf Neu-Anmeldung erfolgen. Diese Arbeit kann an Eintragssoftware wie z.B. meinen Anmelderobot autoAnnounce delegiert werden.
Der am meisten verbreitete Web Server, hat heute ca. zwei Drittel Marktanteil. Apache wird von professionellen Site-Betreibern bevorzugt, weil sich das Produkt als stabil und effizient erwiesen hat und neue Versionen selten Sicherheitsprobleme haben.
Darüberhinaus bietet Apache eine Vielfalt von Modulen, die spezielle Aufgaben übernehmen, wie z.B. die dynamische Erstellung von Seiten durch Perl oder PHP, Verwaltung von Zugriffsberechtigungen in Verbindung mit Datenbanken oder auch Verschlüsselung per SSL.
Virtueller Container für den eigentlichen Seiteninhalt einer HTML-Seite, der alle im Browserfenster sichtbaren Informationen enthält.
Für eine gute Suchmaschinenposition sollten wichtige Suchbegriffe mit der für die wichtigsten Suchmaschinen korrekten Worthäufigkeit nicht nur im <TITLE> der Seite, sondern auch im Seitentext vorkommen.
Gleichzeitig ist darauf zu achten, dass Seiten durch Suchmaschinen problemlos verarbeitet werden können und nur die HTML-Tags zur Hervorhebung der Suchbegriffe benutzt werden, denen von den wichtigen Suchmaschinen besondere Bedeutung gegeben wird.
Sh. vor allem Kapitel 6.1. des Suchmaschinen-Optimierung Tutorials.
Hervorhebung einer Textpassage einer HTML-Seite durch Fettschrift. Der Bold-Tag hat Präsentations-Charakter und wird von wenigen Suchmaschinen und dann nur minimal beachtet bzw. bewertet.
Identische Darstellung erzielt der <STRONG>-Tag. Dieser sollte bevorzugt werden, weil es sich um ein semantisches HTML-Element handelt, das von manchen Suchmaschinen höher bewertet wird. Semantische Elemente sollten immer dann bevorzugt werden, wenn eine beabsichtigte Darstellung mit mehreren HTML-Elementen erzielt werden kann, von denen eines aber semantische Bedeutung hat.
Sh. hauptsächlich Kapitel 7.2. meines Suchmaschinen-Tutorials.
Benannt nach dem englischen Mathematiker G. Boole, der Anfang des 19. Jahrhunderts seine sog. boolesche Algebra zur logischen Verarbeitung von Informationseinheiten definierte. Die Verknüpfung der Operatoren erlaubt als Ergebnis nur die Möglichkeiten "Ja" und "Nein" und damit Grundlage aller binaeren Entscheidungen heutiger Computersprachen.
Die urspruenglichen Operatoren waren AND, OR und NOT ["und", "oder" und "nicht"]. Erweiterte Operatoren, besonders beim Suchen eingesetzt, beruecksichtigen z.B. die sog. Adjacency durch den NEAR-Operator [in der Nähe von], sind aber Abhängig von der jeweiligen Implementation.
Brücken-Seiten, auch als Gateway oder Doorway-Seiten bekannt, sind speziell für Suchmaschinen angelegte Seiten, die einer Site zusätzliche "Eingänge" verschaffen.
Solche Seiten werden selten verlinkt, verweisen aber auf verlinkte Seiten der nach aussen hin sichtbaren Präsenz, d.h. solche Seiten werden nur von Besuchern gesehen, die diese in den Suchmaschinen finden.
Seitdem die meisten Suchmaschinen nicht mehr die Anmeldung einzelner Seiten sondern nur noch die der Domain erlauben [oder angemeldete Unterseiten stillschweigend ignorieren], können Brückenseiten nur noch in Ausnahmefällen bei Suchmaschinen plaziert werden - meist bei den Suchmaschinen, die bezahlte Anmeldungen eingeführt haben.
Trotzdem muss man bei älteren Suchmaschinen nicht auf Brückenseiten nicht verzichten. Im Kundenbereich lesen Sie, wie man nicht verlinkte Seiten in die Datenbestände der Suchmaschinen bringt, ohne solche Seiten dort anmelden zu müssen.
Hilfreich kann auch ein nicht ganz ernst gemeinter Brückenseiten-Generator sein.
Englisch für Brücken-Seiten, auch als Gateway oder Doorway-Seiten bekannt, sind nur für Suchmaschinen optimierte Seiten, die einer Präsenz zusätzliche "Eingänge" bieten, über die die Site in einer Suchmaschine gefunden wird.
Solche Seiten werden fast nie intern verlinkt, sondern haben nur die Aufgabe, in einer Suchmaschine gefunden zu werden, um den Besucher dann auf die für das menschliche Auge gestalteten Seiten weiterzulenken.
Moderne Suchmaschinen wie Google, AllTheWeb und auch Inktomi berücksichtigen heute nur Seiten, die über Links erreicht werden können. Eine Bridge Page, die der Besucher nicht über einen Link finden kann, existiert für solche Suchmaschinen nicht, auch wenn sie dort angemeldet wird.
Im Kundenbereich lesen Sie, wie man nicht verlinkte Seiten von vielen Suchmaschinen spidern lässt, ohne sie dort anzumelden.
Hilfreich ist gelegentlich ein spezieller Brückenseiten-Generator.
Computer-Applikation, die das Blättern oder Stöbern im World Wide Web durch Anklicken verlinkter Inhalte erlaubt.
Während die meisten Browser auf einem PC laufen und per Maus gesteuert werden, gibt es zahlreiche Alternativen für besondere Anwendungen, bei denen Steuerung über eine Tastatur oder z.B. Sound-Schnittstelle erfolgt. Auch die Informations-Ausgabe erfolgt längst nicht immer [ausschliesslich] auf einem Bildschirm. Es gibt Browser, die gelesene Text-Inhalte durch Einsatz von Klangbibliotheken und Soundkarte z.B. vorlesen, oder die den abgerufenen Informationen nur genau vorgegebene Informationshappen entnehmen und eigenständig bearbeiten.
Common Gateway Interface, Spezifikation der Schnittstelle zwischen Web Server und Programmen, die durch Aufruf einer URL aufgerufen werden und für die Lieferung der vom Benutzer erwarteten Daten verantwortlich sind.
Typische CGI-Programme verarbeiten den Inhalt von Formularen, der nach Plausibilitäts- und anderen Prüfungen verarbeitet wird und zu einer Datenausgabe führt, z.B. den Eintrag in einer Mailingliste oder auch die Bestellung einer Ware.
CGI-Programme müssen besonders vorsichtig erstellt werden, wenn Sie durch Fremde aufgerufen werden können und von diesen eingegebene Daten verarbeitet werden sollen.
Inkorrekte Programmierung kann zu Sicherheitsverletzungen führen.
Cascading Style Sheets sollen eine Abstraktion der Layout-Vorgabe ermöglichen, werden aber auch heute noch nicht von allen Browsern identisch gehandhabt.
Trotzdem können aufwertige Layout-Ansprüche über CSS einfacher realisiert werden, vor allem, wenn die entsprechenden Anweisungen an den Browser nicht in jeder Seite wiederholt sondern in eine externe Datei verlagert werden.
Bei mehreren Seitenaufrufen von einer Site wird die CSS-Datei vom Browser [bei korrekter Konfiguration des Servers] nur einmal angefordert und reduziert daher Wartezeiten für den Besucher.
Anklicken eines Links. Ursprünglich im Zusammenhang mit Bannerwerbung gebraucht. Bannerwerbung wurde zunächst nach Einblendungen abgerechnet, später oft nach der Zahl der angeklickten [click through] Werbeeinblendungen.
Seitdem Bannerwerbung kaum noch verkauft wird, werden nach "click through" hauptsächlich über PPC-Suchmaschinen geworbene Besucher gezählt und bezahlt.
Bei den meisten PPC-Anbietern sieht man den Preis, den der Werbetreibende für das Anklicken seiner Site bezahlt, heute nicht mehr.
Viele Gegner von Spam-Emails suchen deshalb nahezu täglich nach Anbietern von spezieller Software für den Versand von Massen-Emails bei den grösseren PPC-Diensten, um durch ein einfaches Anklicken der ersten Angebote, die den Werbetreibenden oft $US3.00 oder mehr kosten, ihren Beitrag zur Spam-Bekämpfung zu leisten.
Ausgehend von der Überlegung, dass eine Seite beliebt sein muss, wenn viele Anwender diese aufrufen, bewertet die Click-Popularität bei manchen Suchmaschinen, wie oft eine als Suchergebnis gelieferte Seite von Anwendern angeklickt wird.
Gleichzeitig wird festgehalten, wie lange der Anwender auf dieser Seite verweilt, sofern er im Anschluss wieder zu der Suchmaschine zurückkehrt, von der der Seitenaufruf erfolgt.
Da Click-Popularität als Bewertungsmasstab für die Relevanz einer Seite aber nie die Aussagefähigkeit haben kann, wie z.B. Link-Popularitäts-Algorithmen, hat DirectHit, die Suchmaschine, die Click-Popularität einführte, nie einen grossen Anwenderkreis überzeugen können.
AskJeeves, Eigentümer von DirectHit beschloss Anfang 2002, DirectHit im Laufe des Jahres einzustellen.
Die technischen Einzelheiten und potentielle Manipulationsmöglichkeiten werden in Abschnitt 7.4.3 meines Suchmaschinen-Tutorials behandelt.
Englisch für Kunde oder Abnehmer, in Bezug auf das Web und Suchmaschinen sind Clients Abfrage-Programme, die von Servern, z.B. Suchmaschinen, Web- oder Datenbank-Servern, Informationen abrufen.
Typische Web-Browser sind die heute am weitesten verbreiteten Client-Programme, obwohl es inzwischen zahlreiche eigenständig arbeitende Client-Anwendungen gibt, die ohne weiteres Zutun vorgegebene Aufgaben übernehmen.
Das Gegenteil von Clients, d.h. Information bereitstellende Maschinen oder Programme, werden Server genannt.
Cloaking nennt man den Vorgang der Besucher-abhängigen Seitenlieferung, bei der bei Seitenabrufen durch Spider der Suchmaschinen ein für diese Suchmaschine optimierter Inhalt ohne JavaScript, Tabellen und andere das Ranking behindernde Effekte geliefert wird, beim Seitenabruf durch normale Browser aber eine optisch attraktivere Seite geliefert wird.
Die technische Abwicklung setzt spezialisierte Software oder einen entsprechend modifizierten HTTP-Server voraus, der den User-agent [Schreibweise ist historisch bedingt] und oft auch die IP-Nummer des Abrufers berücksichtigt.
Im Kundenbereich finden Sie eine genauere Beschreibung sowie eine regelmässig aktualisierte Liste von Spider-Kennungen, IP-Nummern und Domainnamen.
Cloaking setzt voraus, dass Datenbanken der IP-Adressen und User-agents permanent gepflegt werden. Weil die führenden Suchmaschinen aber seit geraumer Zeit externe Faktoren wie Link-Popularität beim Ranking berücksichtigen, bietet Cloaking heute keine fundamentalen Vorteile mehr.
Alternative Bezeichnung für Spider oder Robot, d.h. spezialisierte Programme der Suchmaschinen, die ununterbrochen von den Suchmaschinen bereits indizierte Seiten verifizieren und neu angemeldet Sites "spidern" und damit die Seiten solcher Sites für die Indizierung durch die Suchmaschinen abrufen.
Die Qualität der Suchmaschinen lässt sich auch durch die Arbeitsweise ihrer Crawler beurteilen. Selbst Suchmaschinen setzen oft fehlerhafte Crawler ein, die HTTP-Protokolle nicht richtig beherrschen oder die URLs nicht korrekt bearbeiten können, wenn relative statt absolute Pfad- und Dateinamen in einer Präsenz eingesetzt werden.
Andere Crawler geraten schonmal in Endlos-Schleifen. So berichtete Fireball vor ein paar Jahren, dass der Lycos-Spider die Live-Suche von Fireball entdeckt hatte und daher alle 30 Sekunden die darin aufgeführten Seiten - deren Links als Fireball-Suchanfrage formuliert waren - bei Fireball suchte.
Die genaue Arbeitsweise der Crawler wird in Kapitel 4.2.1 meines Suchmaschinen-Tutorials behandelt, wie Sie diese steuern und kontrollieren, in Kapitel 8.
Dynamic HTML, verniedlichende Beschreibung für Seiten, die durch JavaScript-Einsatz überwiegend zu Effekt- statt zu Informationszwecken erstellt werden.
Solche Seiten führen stets zu reduzierter Bewertung durch Suchmaschinen, da einmal ein Grossteil des Seiteninhalts aus Ballast - statt Information - besteht, und zum anderen meist die Verfolgung von Links nicht möglich ist.
Über Effekt-Technologien und die nachteiligen Folgen beim Suchmaschinen-Ranking informiert Kapitel 6 meines Tutorials.
Amerikanische Formulierung: Sammeln von Informationen zur späteren Auswertung [mining: Bergbau]. Populär wurde der Ausdruck durch die frühere Miningco, eine Site, die Inhalte zu vielen Themen durch freiwillige Editoren sammelte und bereitstellte, die aber vor ein paar Jahren in About.com umbenannt wurde.
Heute unterteilt man oft in Data und Text Mining, d.h. die Sammlung von numerischen und sprachlichen Informationen.
Während der Dateiname einer URL nur von wenigen Suchmaschinen beim Ranking berücksichtigt wird, empfehle ich generell, alle Dateien so zu benennen, dass der Dateiname Suchbegriffe enthält.
Dateinamen, die Suchbegriffe enthalten, haben bei keiner Suchmaschine negative Folgen, bei einigen aber Vorteile.
Detaillierte Hinweise zur Schreibweise der in Dateinamen untergebrachten Suchbegriffe finden Sie in Kapitel 7.9. Das in Kapitel 5 Gesagte zu Gross- und Kleinschreibung von Suchbegriffen gilt auch hier.
Ein in einer HTML-Seite enthaltener Link, der nicht mehr aufgerufen werden kann. Dies kann passieren, wenn der Betreiber der Site seine Seiten verlagert oder einer Struktur-Veränderung unterworfen hat oder wenn der entsprechende Server nicht mehr existiert.
Vernachlässigte Seiten haben oft eine Vielzahl von "Dead Links" und lassen schnell erkennen, dass die Informationssuche an anderer Stelle eher zum Ziel führt.
Regelmässige Link-Prüfungen sind daher wichtig, um Besucherverlust zu vermeiden.
Weil Suchmaschinen einmal in den Datenbestand aufgenommene Links nur periodisch überprüfen und manchmal auch nach Monaten nicht entfernen, sollten nicht mehr benötigte Seiten nie sofort entfernt werden, sondern einfach nicht mehr verlinkt werden.
Löschung solcher Seiten ist erst angebracht, wenn die Zahl der Besucher, die durch einen überholten Link auf Ihre Site stossen, vergleichsweise gering ist.
"Deep Links" [tiefe Verlinkung] sind von der Definition her die nützlichsten aller Links, weil sie direkt auf die Seite [und ggfls eine in der Seite enthaltene Markierung] verlinken, auf die ein Seitenautor verweisen möchte.
Nur wenn ein Autor einer Seite eine externe Präsenz als Ganzes empfiehlt, z.B. für die weitere Recherche, sollte ein Link auf die Domain [gefolgt vom obligatorischen Schrägstrich, z.B. www.kso.co.uk/] zeigen, wenn Sie Ihren Besuchern nicht unnötige Detektivarbeit zumuten wollen.
Web-Präsenzen vieler Online-Medien sind heute dazu übergegangen, tiefe Verlinkung aus fadenscheinigen Gründen zu verbieten; die Ignoranz der Medien geht dabei manchmal so weit, dass man Betreiber verlinkender Sites gar verklagte.
Da die Verantwortlichen entsprechender Online-Medien offenbar die Netzkultur nicht verstehen und nur darauf aus sind, ihnen zugeführten Besuchern [da diese das Gewünschte umständlich suchen müssen] zusätzliche Bannerwerbung unterzujubeln, sind Site-Betreiber, denen der Nutzen der eigenen Besucher wichtiger ist als der Werbemittelabsatz nicht unbedingt führender Medien, dazu übergegangen, störrische Präsenzen überhaupt nicht mehr zu verlinken.
Der META-Tag "Description" enthält eine sachliche Beschreibung einer Seite.
Während META-Tags beim Ranking der Suchmaschinen nicht mehr beachtet werden und damit für die Suchmaschinen-Optimierung wertlos wurden [sh. Kapitel 7.3], erreicht die Anbringung einer attraktiven Beschreibung im HEAD der Seite, dass eine von Ihnen gewählte Passage für die Darstellung im Suchmaschinen-Ergebnis Gebrauch findet.
Besonders empfehlenswert ist der Einsatz einer META-Description, wenn für die Erstellung von Seiten ein HTML-Editor genutzt wird, der Seiten durch viele grafische Elemente in zahlreiche Tabellen-Zellen mit vorgegebenen absoluten Dimensionen aufteilt, statt einfachen Fliesstext zu produzieren.
Fortschrittliche Suchmaschinen verwandeln Wörter in Zahlen, da der Vergleich von Zahlen auf einem Computer wesentlich schneller erfolgt als der Vergleich von Wörtern. Beim Ranking der Suchmaschinen werden so aus Wortaneinanderreihungen Zahlenketten, bei denen die Wortnummer und die Position jedes Wortes in einer Seite festgehalten wird.
Dies beschleunigt einmal die Phrasensuche, und erlaubt gleichzeitig die Wiedererstellung der ursprünglichen Texte aus massiven Datenbanken, ohne dass jede Seite zu diesem Zweck als HTML-Datei gespeichert werden muss.
Gleichzeitig erlaubt die Benutzung von Document Vectoren mehrere Analysen und Inhaltsvergleiche - überwiegend zur Spam-Bekämpfung,, die normalerweise nur bei begrenzten Datenbeständen möglich sind.
Numerische Datenbestände werden besonders komprimiert, wenn vor der Erstellung des Document Vectors alle in einer Seite enthaltenen Worte durch Stemming auf den Wortstamm reduziert werden.
Bei neuen Präsenzen sollte der Domainname sorgfältig gewählt werden. Manche Suchmaschinen berücksichtigen den Domainnamen aller potentiellen Fundstellen immer noch bei der Ermittlung der Position der Suchergebnisse.
Während die Bedeutung des Domainnamens in den letzten 12 Monaten drastisch zurückging, lässt sich ein gewisser Einfluss auf die Position immer noch messen.
Welche Suchmaschinen Domainnamen beim Ranking berücksichtigen, und wie gross der Einfluss auf die Suchmaschinenposition ist, kann den für meine Kunden jede Woche erstellten Ranking-Analysen abgelesen werden.
Diese zeigen durch [maschinelle] Auswertung von mehr als 10,000 Seiten, die bei den führenden Suchmaschinen für eine grosse Zahl von Suchanfragen unter den ersten 10 Plätzen ausgegeben werden, alle gemeinsamen Nenner und damit deutlich, welche Dokument-Eigenschaften zu einer vorteilhaften Position führen.
Allen Suchmaschinen ist gemein, dass sie den <TITLE> einer Seite besonders hoch bewerten. Unterschiedliche Worthäufigkeiten und Wort-Dichten bei Bevorzugung bestimmter HTML-Elemente haben in Verbindung mit neuen Algorithmen dazu geführt, dass Domain- wie auch Dateinamen heute nur noch eine untergeordnete Rolle spielen.
Welche Risiken Sie bei der Nutzung mehrfacher Domains vermeiden müssen, detailliert das Tutorial in Kapitel 7.8.
Doorway Seiten, auch als Gateway oder Brücken-Seiten bekannt, sind speziell für Suchmaschinen konstruierte Seiten, die einer Präsenz eine Vielzahl von "Eingängen" verschaffen.
Doorway Seiten werden nicht verlinkt, verweisen aber auf verlinkte Seiten innerhalb einer Präsenz. Doorway Seiten sind heute nur noch bei Suchmaschinen mit überholter Technologie erfolgreich. Der Aufwand der Erstellung solcher Seiten - die einzeln angemeldet werden - lohnt sich heute nicht mehr, weil die solche Seiten berücksichtigenden Suchmaschinen mangels zahlreicher Schwächen unter starkem Besucherverlust leiden und kaum noch nennenswerte Marktanteile besitzen.
Im Kundenbereich lesen Sie, wie man nicht verlinkte Doorway-Seiten in die Datenbestände vieler Suchmaschinen bringt, ohne solche Seiten anmelden zu müssen.
Hilfreich kann auch ein Brückenseiten-Generator sein.
Seiten, die durch Programmausführung im Moment des Seitenabrufes erstellt werden - meist Datenbankabfragen oder andere selektiven Inhalte, die mit Layout-Schablonen auf dem Web Server zu einer Seite kombiniert werden.
Auch durch "Server Side Includes" modifizierte Seiten zählen hierzu, wobei Suchmaschinen - bei korrekter Konfiguration des Web Servers und der die Befehlsfolge ausführenden Scripte oder Programme - nie die Befehlsfolge, die zur Erstellung einer solchen Seite führt, sehen, sondern nur das fertige Produkt wie Endanwender auch.
Dynamische Seiten, die aus den Beständen von Datenbanken erstellt werden, erkennt man oft daran, dass die URLS meist sog. ?name=wert Anhängsel haben.
Suchmaschinen nehmen solche Inhalte nur in Ausnahmefällen auf. Mein Tutorial erklärt in Kapitel 6.7. alternative Vorgehensweisen.
Durch Programmausführung auf dem Web Server erstellte Seiten oder Inhalte erkennt man meist daran, dass die URLs solcher Seiten sogenannte ?name=wert Anhängsel haben, vor allem, wenn vom Anwender übergebene Parameter bei der Erstellung des Seiteninhalts berücksichtigt werden müssen.
Suchmaschinen nehmen solche Inhalte traditionell nicht auf, da HTTP GET-Befehle mit Variablen von der Konzeption her für die Bearbeitung von Formularen gedacht sind. Das Tutorial erklärt in Kapitel 6.7. mögliche bzw alternative Vorgehensweisen.
Neue Seiten werden nur gefunden, wenn sie von einer Suchmaschine in den Datenbestand übernommen werden.
Nicht jede Suchmaschine spidert regelmässig. Site-Betreiber sind daher oft gezwungen, für jede Seite einen Eintrag bei einer Suchmaschine vorzunehmen, damit diese Seiten auch erfasst werden. Andere spidern periodisch und übernehmen neue Seiten ohne weiteres Zutun auf.
Da der Eintrag bei jeder Suchmaschine eine zeitaufwendige Aufgabe ist, können Kunden diese Arbeit an meine Eintragssoftware autoAnnounce delegieren.
Link von einer Ihrer Seiten auf eine Seite auf einem fremden Server. Wird von mehreren Suchmaschinen heute als Empfehlung gewertet [sh. Beschreibungen und Beeinflussungs-Möglichkeiten der Pagerank und Hilltop Algorithmen in Linkpopularität prüfen], die beim Ranking berücksichtigt wird.
Pagerank berücksichtigt dabei nur eingehende Links und den Wert jeder Seite, von der ein Link ausgeht.
Hilltop bewertet eingehende und ausgehende Links. Eine Seite mit vielen Links auf Seiten, die von anderen ebenfalls oft verlinkt werden, wird so zum "Hub" oder Knotenpunkt, der höher bewertet wird. Seiten, auf die eine grosse Zahl von Links von solchen Knotenpunkten eingehen, werden dadurch zur Autorität und erfahren ebenfalls bevorzugte Gewichtung.
Sh.a. Interner Link und Link-Prüfung.
Die auf bestimmte Bereiche einer Seite eingegrenzte Suche. Mehrere Suchmaschinen wie AltaVista, Fireball und ein paar andere bieten die Möglichkeit, über eine "erweiterte Suche" vorzugeben, welche Teile der indizierten Seiten bei der Suche zu berücksichtigen sind.
Mögliche Vorgaben sind meist TITLE und META-Tag Bereiche, ggfls. auch Autor oder URL der Seiten.
Fundstellen können nach verschiedenen Kriterien sortiert werden, z.B. Datum, und werden meist anders gewichtet, als bei der traditionellen Suche.
Flash als Effekttechnologie verhindert oder reduziert die Suchmaschinenposition, da das proprietäre Dateiformat von Suchmaschinen nicht ausgewertet wird.
Allen Effekttechnologien ist gemein, dass solche Seiten nie von 100% der potentiellen Besucher genutzt werden können, da vor allem erfahrene Anwender aus Sicherheits- und anderen Gründen den Download solcher Dateien ablehnen.
Kapitel 6.4 meiner Schritt für Schritt-Anleitung Suchmaschinen-Optimierung zeigt weitere Nachteile aller Effekttechnologien.
Frames nennt man die Aufteilung einer Seite in ein Frameset und die dazugehörigen Frames. Mehrere Suchmaschinen werten solche Seiten nicht aus, andere nur reduziert.
Netscape hat Frames für die Browser-Version 2 Mitte der 90er Jahre erfunden und selbst auf der eigenen Site eingesetzt. Ein Jahr später wurden Frames auf den Servern der Firma Netscape nicht mehr benutzt.
Über die zahlreichen Suchmaschinen-abhängigen Probleme von Frames lesen Sie mehr in Kapitel 6.6. meines Tutorials.
Seiteninhalte ohne Frames [und ohne IFrames] sehen Sie, wenn Sie mein Programm checkFRAME benutzen.
Engl., in etwa schwammig oder ungenau. Suchmaschinen, die eine Fuzzy Suche bieten, vergleichen Suchbegriffe und in Dokumenten enthaltene Wörter nicht buchstabengenau, sondern erlauben gewisse Abweichungen.
Meist werden dabei Verdreher von 2 Zeichen und ausgelassene oder hinzugefügte Buchstaben stillschweigend als Übereinstimmung betrachtet.
Bei der Verarbeitung englischsprachiger Dokumente hat sich die Reduzierung der Wörter auf eine phonetische Schreibweise bewährt. Hierbei werden nur noch Laute, nicht aber direkte Buchstabenfolgen verglichen. Experimente mit anderen Sprachen waren weniger erfolgreich.
Im Deutschen kann man die Aussprache eines Wortes in vielen Fällen nicht der Zeichenfolge ablesen, wenn man nur einzelne Silben berücksichtigt, da die Position einer Zeichenfolge innerhalb eines Wortes genauso wie die ersten Zeichen der folgenden Silbe die Aussprache und damit die phonetische Codierung beeinflussen kann.
Eine Mischform, die sich in der Praxis bewährt, ist die Reduzierung eines Begriffes durch Stemming auf den Wortstamm vor der eigentlichen Fuzzy Suche.
Grafik Interchange Format, entwickelt ursprünglich von der Firma Compuserve, heute aber umstritten, da Unisys Ende der 90er wie der sprichwörtliche Elefant im Porzellanladen Lizenzrechte geltend machte [weil das GIF Format gegen viele Jahre zuvor patentierten aber nie geltend gemachten Rechte verstösst].
Anwender, die kommerzielle Software zur Erstellung von GIF-Dateien benutzen, haben mit dem Erwerb der Software automatisch das Recht zur Lizenzfreien GIF-Erstellung.
Alternativen sind das JPEG Format sowie PNG, das aber nicht von allen Browsern unterstützt wird und das, so neuerliche Diskussionen, möglicherweise ebenfalls gegen Rechte Dritter verstossen kann. Die Rechtslage ist hier noch offen.
Suchmaschinen werten keine Grafik-Dateien aus, sondern nur den in HTML-Seiten enthaltenen Text [wobei HTML-Elemente wie <FORM> usw. ignoriert werden]. Mehrere Suchmaschinen werteten in der Vergangenheit zwar die ALT=""-Parameter des <IMG>-Tag aus, aber auch hier haben die marktführenden schnell auf Missbrauch reagiert.
Wie der Text von HTML-Seiten aufgebaut sein muss und welche Worthäufigkeiten dabei optimal sind, zeigen die Ranking-Analysen im Kundenbereich. Welche Rolle korrekte HTML-Syntax spielt und welchen Stellenwert diese hat, lesen Sie in Kapitel 6.1.
Daher ist es wichtig, dass vor allem die Eingangs-Seite oder Home Page Text enthält, der von Suchmaschinen ausgewertet werden kann. Gleichzeitig ist wichtig, dass diese Seite tatsächliche Hyper-Links enthält und nicht etwa erwartet, dass Anwender JavaScript im Browser aktiviert haben, da Suchmaschinen solche Quasi-Links nicht zur Kenntnis nehmen.
Hyper Text Markup Language: eine einfach zu erlernende "Sprache", mit der HTML-Dokumente in virtuelle Container und Hyper-Links verwandelt werden, und die das Web überhaupt ermöglicht.
HTML ist eine radikale Vereinfachung der SGML, einer bei der Dokument-Verarbeitung traditionellen Sprache zur detaillierten Dokumentbeschreibung und Erstellung.
Grundkenntnis in HTML sollte jeder Web-Verantwortliche haben, da HTML-Editoren immer noch fehlerhafte oder minderwertige Seiten-Konstruktionen erstellen, die die Bewertung durch Suchmaschinen erschweren oder teilweise ganz verhindern.
Die vollständige HTML-Spezifikation kann auf der Site des World Wide Web Consortium eingesehen werden.
HTML-Editoren sind Programme, die Web Seiten erstellen helfen. HTML-Editoren zeichnen sich dadurch aus, dass sie meist das Präsentations-Element herausstellen.
Viele HTML-Editoren füllen Seiten mit unnötigem Ballast und schwierig oder nicht zu verarbeitenden HTML-Konstruktionen, die zu reduzierter Bewertung bei mancher Suchmaschine führen. Viele ignorieren ausserdem, dass Seiteninhalte sich fliessend der Grösse des Browserfensters anpassen sollten, und nicht für eine vorgegebene Fenster- oder Bildschirmgrösse entworfen werden sollten.
Kapitel 6 und 7 meines Tutorials gehen besonders auf diese Problematik ein.
Syntax-Elemente, die einen Fliesstext in HTML verwandeln und Web-fähig machen. HTML-Tags werden in spitze Klammern zwischen '<' und '>' gesetzt. Die meisten Tags [deutsch: Markierungen] haben einen Anfangs- und eine End-Tag, wie z.B. <BODY> und </BODY>, eine geringe Anzahl haben keinen End-Tag.
Bei allen Markierungen mit End-Tag muss darauf geachtet werden, dass nicht jede Gruppe von Markierung eine andere enthalten darf und dass Verschachtelungen sich nicht überschneiden.
Hyper Text Transport Protocol: Spezifikation der Kommunikation zwischen Web Servern und deren Anwender wie z.B. Browser oder eigenständig arbeitende Anwendungen wie Suchmaschinen-Spider.
Viele für End-User entwickelte Anwendungen wie Download-Agenten oder Crawler implementieren das HTTP-Protocol nur oberflächlich oder schlichtweg inkorrekt und sollten nie auf fremde Web Server losgelassen werden.
Die volle HTTP-Spezifikation kann auf der Site des World Wide Web Consortium eingesehen werden.
Headline-Tags haben Präsentations und semantischen Charakter. Die Headline Tags <H1> bis <H6> werden im Browser in unterschiedlichen Schriftgrössen dargestellt.
Nicht alle Suchmaschinen berücksichtigen beim Ranking die unterschiedliche Gewichtung der sechs verschiedenen Tags.
Die Home Page ist die Startseite Ihres Servers, z.B. www.xyz.com/. Home Page wird im Sprachgebrauch oft fälschlich mit einer Site - d.h. mit einer Sammlung von Seiten unter einer Domain - verwechselt.
Links ohne Angabe einer bestimmten Datei sollten stets auf die Home Page [auch Root URL genannt] bei gleichzeitiger Angabe des Stammverzeichnisses, also www.xyz.com/ inkl. Schrägstrich, verweisen.
IFrames sind eigenständige Dokumente und werden von Suchmaschinen nicht als Teil eines Dokuments behandelt, von [modernen] Browsern aber in Seiten eingeblendet.
Das hat dazu geführt, dass findige Köpfe auf die Idee gekommen sind, mit Spam gefüllte Seiten durch IFrames im Browser zu "verstecken". In der Praxis führt das dazu, dass Suchmaschinen den Seiteninhalt verarbeiten, während der [neuere] Browser den separat geladenen entsprechend dimensionierten IFrame anzeigt.
Mein Programm checkFRAME zeigt entsprechende Seiten so an, dass Sie sehen, was ggfls hinter einem IFrame versteckt wird.
IP Delivery nennt man die von der IP-Adresse abhängige Wahl des auszuliefernden Seiteninhalts bei einem Seitenabruf. Hierbei prüft entsprechende Software auf dem Web Server den User-agent des Abrufers und die IP-Adresse.
IP Delivery wird überwiegend beim Cloaking angewandt, kann aber auch aus juristischen Gründen zum Einsatz kommen, wenn bestimmten Zielgruppen gewisse Inhalte vorenthalten bleiben sollen. Der Einsatz von IP Delivery ist aber nie zuverlässig, da regionale Bestimmung von IP-Adressen nicht zuverlässig ist und Suchmaschinen oft die IP-Adressen der Crawler verändern, um Missbrauch vorzubeugen.
Die Technologie wird im Kundenbereich detailliert beschrieben.
Grafische Gestaltung von Links, bei denen der Anwender auf eine Grafik statt auf einen Hyperlink klickt, um eine Zielseite aufzurufen.
Image-Maps werden von manchen Suchmaschinen ignoriert und können von Text-Browsern oder Anwendern, die Grafik im Browser deaktiviert haben, nicht genutzt werden. Während die Zahl der Anwender mit Text-Browser relativ gering ist, wird die Zahl der Anwender, die Grafik nicht laden, meist unterschätzt.
Daher empfiehlt sich die [zusätzliche] Nutzung echter Hyperlinks unter Verwendung geeigneter Suchbegriffe zwischen dem <a href="..."> und dem den Link abschliessenden </a>.
Der Begriff Index hat - bezogen auf Suchmaschinen - viele Bedeutungen. Oft wird damit die eigentliche Datenbank der Seiteninhalte gemeint, gelegentlich auch der aus der Datenbank-Anwendung bekannte Index zum schnelleren Finden eines Datensatzes in einer Datenbank.
Index ist gleichzeitig die Bezeichnung für dynamisch von einem Web-Server erstellte Inhaltsübersichts-Seiten eines Verzeichnisses, das keine sog. index.html genannte Seite enthält.
Indizieren nennt man die Aufnahme von Web Seiten in den Datenbestand der Suchmaschinen.
Mit diesem Begriff meinen Betreiber der Suchmaschinen Seiten, die viel Information und geringen oder keinen Ballast haben.
Oft wird auch das Verhältnis von eigentlicher Information, d.h. des reinen Textes nach Entfernung aller HTML-Tags oder Elemente, zur tatsächlichen Datei-Grösse einer Seite berücksichtigt.
Bei Informationsseiten macht der reine Informationsgehalt einer Seite mehr als 50% der Dateigrösse aus. Typische Grössenordnungen auf dem Web sind eher 10 bis 20%. Der Rest ist Ballast, meist aus unnötigen Leerzeichen oder unnötig komplizierter Präsentation bestehend.
Aus reinen Leerzeichen bestehender Ballast lässt sich leicht durch geeignete Konfiguration [oder Wahl] des Editors vermeiden, mit dem Seiten erstellt werden. Durch Content Management-Systeme erstellte Seiten benutzen oft Schablonen für Präsentations- und Standard-Elemente, die ebenfalls angepasst werden sollten.
Link von einer Ihrer Seiten auf eine Seite auf einem fremden Server. Wird von mehreren Suchmaschinen heute als Empfehlung gewertet [sh. Beschreibungen und Beeinflussungs-Möglichkeiten der Pagerank und Hilltop Algorithmen in Linkpopularität prüfen], die beim Ranking berücksichtigt wird.
Pagerank berücksichtigt dabei nur eingehende Links und den Wert jeder Seite, von der ein Link ausgeht.
Hilltop bewertet eingehende und ausgehende Links. Eine Seite mit vielen Links auf Seiten, die von anderen ebenfalls oft verlinkt werden, wird so zum "Hub" oder Knotenpunkt, der höher bewertet wird. Seiten, auf die eine grosse Zahl von Links von solchen Knotenpunkten eingehen, werden dadurch zur Autorität und erfahren ebenfalls bevorzugte Gewichtung.
Sh.a. Externer Link sowie Link-Prüfung.
Das "Unsichtbare Web". Von Suchmaschinen nicht erfasste Seiten, überwiegend durch individuelle Programmausführung auf einem Server dynamisch erstellte Seiten mit Inhalten, die eine spezifische Suchabfrage befriedigen.
So sind alle Suchmaschinen-Ergebnisseiten Teil des Invisible Web, weil Suchmaschinen nur statische Seiten erfassen und keine Suchanfragen an andere Suchmaschinen stellen.
Auch die von META-Suchmaschinen ausgegebenen Seiten zählen hierzu, da in beiden Fällen die Datenabfrage [überwiegend] durch Anwender ausgelöst wird. Aber auch webgeeignete Dokumente, die aus div. Gründen dynamische Parameter an die URL hängen, z.B. seite.html?name=value, werden nur von den wenigsten Suchmaschinen erfasst und zählen daher zum unsichtbaren Web.
Oft ordnet man diesem Bereich auch Dokumente zu, die von der Natur her eigentlich keine web-geeigneten HTML-Seiten sondern in anwendungsspezifischen Dateien wie z.B. PDF enthalten sind.
Letztendlich zählen zum "unsichtbaren Web" auch alle Dokumente und dynamisch erstellten Inhalte, die per HTTP-Abruf erreichbar sind, die aber von Suchmaschinen ignoriert werden [und deren Abrufbarkeit dem Bereitsteller solcher Seiten oft nicht bewusst ist].
Grafisches Dateiformat der Joint Photographic Expert Group. Wie die Bezeichnung der Arbeitsgruppe zeigt, wurde das JPEG-Format für photografische Bilder entwickelt. JPEG erzeugt selbst bei geringer Komprimierung unschöne Effekte bei Grafiken, die nur eine geringe Zahl von Farbtönen aufweisen oder die grosse gleichfarbige Flächen enthalten. Grafiken, die weniger als 65535 Farben enthalten, sollten nicht mit JPEG komprimiert sondern als GIF-File erstellt werden.
Bei fotografischen Bildern erlaubt JPEG andererseits hervorragende Kompression, die den Datentransfer drastisch reduziert. Datenverlust durch Kompression ist bei geschickter Wahl des Kompressionsverhältnisses mit dem menschlichen Auge nicht wahrnehmbar.
Von Sun Microsystems geschaffene systemunabhängige Computersprache, die von mehreren Browsern [und auch auf Servern] genutzt werden kann.
Obwohl das formelle Design der Sprache alle Sicherheitsrisiken verhindern soll, sind Implementierungen von Browser zu Browser verschieden und, wie die Praxis gezeigt hat, nicht immer frei von Fehlern.
Wer die Integrität seines Systems schätzt, verhindert, dass auf seinem Rechner Befehle ausgeführt werden, die nicht der eigenen Kontrolle unterliegen.
Eine Script-Sprache, die ursprünglich zur Verifizierung von Formular-Inhalten vor der eigentlichen Übermittlung dieser an den Web Server gedacht war. Heute wird JavaScript aber meist nur zur Erzielung von Effekten genutzt.
Da die im Browser des Anwenders ablaufenden Scripte und damit die durch das Script ausgeführten Computerbefehle von Dritten und nicht vom PC- oder System-Eigentümer erstellt und kontrolliert werden, haben viele Anwender JavaScript und andere Script-Sprachen deaktiviert, seitdem weit publizierte Verletzungen des theoretischen Sicherheits-Modells zur Norm wurden.
Die Zuverlässigkeit und Integrität des eigenen Rechners ist für viele Anwender wichtiger als die Nutzung zweifelhafter Inhalte. Aus diesem Grunde müssen Seiten so gestaltet werden, dass sie auch ohne JavaScript uneingeschränkt genutzt werden können, wenn man keinen Besucherverlust eingehen will.
Manuell durch geschulte Mitarbeiter gepflegte Sammlung thematisch geordneter Links, die in zahlreiche Kategorien unterteilt sind.
Die Erstellung von Katalogen ist äusserst personalintensiv. Kataloge erreichen schon deshalb nie die Grösse selbst kleinerer Suchmaschinen.
So hat das ODP, das heute grösste Verzeichnis der Welt, nur etwas mehr als 3 Mio Präsenzen im Datenbestand. Selbst kleinere Suchmaschinen haben zwei- oder mehrstellige Millionenzahlen an Seiten, und Google kennt gar 3,000 Mio Seiten.
Kataloge werden dementsprechend seltener genutzt als Suchmaschinen. Trotzdem ist der Eintrag in den grössten Katalogen wichtig, da Suchmaschinen Kataloge regelmässig spidern und, wenn Suchmaschinen Linkpopularität berücksichtigen, in Katalogen eingetragene Präsenzen höher bewerten.
In Kategorien gegliederte Verzeichnisse basieren auf einem sog. Verzeichnisbaum, der durch bibliothekarisch geschulte Mitarbeiter manuell erstellt wird.
Ein Eintrag in Verzeichnissen ist nur dann sinnvoll [und wird nur dann akzeptiert], wenn die Anmeldung in einer das Thema Ihrer Präsenz behandelnden Kategorie erfolgt.
Es ist daher wichtig, dass vor der Anmeldung durch genaue Ermittlung die zutreffendste Kategorie gewählt wird.
Mein Tutorial für Suchmaschinen-Optimierung gibt weitere Hinweise in Kapitel 4.1. und Verzeichnis-spezifische im Kundenbereich.
Englische Bezeichnung für Suchbegriff, der bei Suchmaschinen gefunden werden soll. Suchbegriffe sollten zumindest im <TITLE> und oft genug im Text einer Seite erscheinen.
Da alle Suchmaschinen unterschiedliche Ranking-Algorithmen anwenden, ist die optimale Häufigkeit für eine gute Position bei allen Suchmaschinen unterschiedlich. Es ist daher gelegentlich notwendig, mehr als eine Seite zu erstellen, die einem bestimmten Begriff oder einer Formulierung dient.
Die exakte Häufigkeit und in welche HTML-Tags ein Suchbegriff eingebettet werden sollte, entnehmen Sie als Kunde den jede Woche fortgeschriebenen Ranking-Analysen wichtiger Suchmaschinen.
Damit bezeichnet man den Versuch, Suchmaschinen durch extrem häufige Anbringung von Suchbegriffen zu überlisten. Suchbegriffe werden in META-Tags, im <TITLE> und in der Seite selbst - oft in der gleichen Farbe wie der Seiten-Hintergrund, angebracht.
Vor allem die Anbringung von Wörtern, die nicht mit der eigentlichen Thematik einer Präsenz zusammenhängen, verärgern nicht so sehr die Suchmaschinen als Besucher solcher Seiten, die sich darauf verirren.
Während man in den Anfangsjahren mit solchen und manchen anderen Suchmaschinen-Tricks gelegentlich noch kurzfristige Erfolge erzielen konnte, haben sich die Zeiten - längst - geändert.
Fortschrittliche Algorithmen bewerten nicht nur den Seiteninhalt, sondern auch externe Faktoren, auf die der Seitenautor keinen Einfluss hat. Mehrere Suchmaschinen z.B. Google, AllTheWeb und Teoma bewerten deshalb die "Bewertung" der Seiten durch Besucher, d.h. deren Linkpopularität. Seiten, die durch Täuschungsmanöver eine bessere Suchmaschinen-Position anstreben, fallen hier "unten durch".
Die Häufigkeit des Suchbegriffes in einer Seite, ausgedrückt in Prozent bezogen auf die Gesamtzahl der Worte einer Seite. Bei Suchbegriffen, die aus mehr als einem Wort bestehen, ist in der Regel das Wort mit der geringsten Häufigkeit ausschlaggebend.
In einem Dokument, das aus fünf verschiedenen Wörtern besteht, hat jedes einzelne eine Wort- oder Keyword-Dichte von 20%. Ein Dokument mit drei verschiedenen und einem einmal wiederholten Worten, das insges. ebenfalls aus 5 Wörtern besteht, beträgt die Keyword-Dichte des häufigsten Wortes 40%.
Die typische Keyword-Dichte von Web-Seiten liegt je nach Suchmaschine zwischen 2 und 8 Prozent und wird in den für meine Kunden erstellten wöchentlichen Ranking-Analysen für jede hier beobachtete Suchmaschine separat ermittelt.
Werte von mehr als etwa 8% für die Keywort-Dichte werden von mehreren Suchmaschinen als "kritisch" eingestuft.
Kommentare in HTML-Seiten dienen hauptsächlich dem Autor, werden gelegentlich aber auch als Markierung von einfacheren Redaktionssystemen benötigt.
Kommentare werden durch die Markierung <!-- eingeleitet und durch --> abgeschlossen. Alles, was dazwischen steht, wird in einer HTML-Seite nicht dargestellt. Hier ist der Kommentar sichtbar, weil ich für die Markierung selbst sog. HTML-Entities benutzt habe. Ein Blick auf den Quellcode der Seite zeigt, wie.
Suchmaschinen-Entwickler haben anfänglich auch hier nicht aufgepasst und einfach indiziert, was in Kommentare hineingestopft wurde. Deshalb stösst man - auch heute noch - immer wieder auf Dateien, die kaum sichtbaren Text haben, die aber dutzende von Kb gross sind.
Kommentare werden, wie viele andere missbrauchte Seiten-Elemente, heute von den guten Suchmaschinen ignoriert. Die nicht so guten liefern deshalb nicht "so gute" Suchergebnisse, und dürfen sich über Besucherschwund nicht wundern.
Neuere Suchmaschinen-Algorithmen wie Pagerank und Hilltop, die von Google und anderen Suchmaschinen eingesetzt werden, berücksichtigen die sog. Link-Popularität, d.h. die Qualität und Zahl der Links, die auf eine Site oder Seite zeigen.
Dabei haben Links, die von Verzeichnissen wie das Open Directory Project oder Yahoo! ausgehen, wesentlich höhere Bedeutung als Links einer privaten Home Page schon allein, weil diese Verzeichnisse eine massive Zahl von eingehenden Links aufweisen können.
Praktische Hinweise zur drastischen Verbesserung der Link Popularität einer Site entnehmen Sie den Beschreibungen der Algorithmen im Tutorial.
Periodische Überprüfung aller in einer Seite enthaltenen Links zur Erhaltung der Informations-Qualität.
Da erfahrungsgemäss etwa 2% aller Web Seiten pro Woche verändert werden, müssen vor allem Links auf externe Sites ständig überprüft werden.
Fehlerhafte Links - weil die Zielseite nicht mehr existiert oder ihr Autor den Inhalt veränderte - schaden nicht nur Ihrem Image, wenn Besucher Ihrem Link folgen und enttäuscht werden, sondern auch der Suchmaschinenposition, weil manche Suchmaschinen auch die Qualität der Linkstruktur beim Ranking berücksichtigen.
Die Sites meiner Kunden werden 14täglich gespidert, wobei interne und externe Links überprüft werden.
Link-Text ist der anklickbare Text zwischen dem <a href="...">und dem den Link abschliessenden </a>-Element.
Anbringung wichtiger Suchbegriffe in Link-Texten kann bei manchen Suchmaschinen vorteilhaft sein. Zu häufige Benutzung in Linktexten wird aber oft als Spam gewertet.
Wichtig ist natürlich auch die inhaltliche Übereinstimmung des Link-Textes mit dem der Seite, auf die der Link verweist. Durch Berechnung sog. Term Vectoren und ähnlicher neuer Algorithmen, die behandelte Themen einzelner Seiten und auch ganzer Präsenzen ermitteln, werden nur sinnvolle Link-Texte berücksichtigt.
Die Beachtung der in den für meine Kunden einmal wöchentlich erstellten Ranking-Analysen genannten Häufigkeiten und Prozentualwerte ist daher wichtig, wenn Seiten eine attraktive Suchmaschinenposition erreichen sollen.
Links sind, aus Sicht der Suchmaschinen, nur Hyperlinks gemäss der HTML-Spezifikation, d.h. alle durch <a href="..."> markierten Verweise auf andere Seiten oder Sites.
Eine geringe Zahl Suchmaschinen wertet auch Image-Maps aus.
Alle Links, die durch JavaScript oder andere Methoden erstellt werden, werden daher von Suchmaschinen nicht gesehen. Da viele Web Sites bereits auf der Eingangsseite Links per JavaScript erstellen, können die Unterseiten dieser Sites nie gespidert werden und sind deshalb in den Suchmaschinen nicht auffindbar.
Interaktiv können Sie mit dem checkLINKS-Programm prüfen, welche Links Ihrer Seiten von Suchmaschinen gesehen werden.
Log-Files werden die Aufzeichnungen des Web-Servers genannt, die jeden Seitenaufruf und das an den Abrufer geschickte Resultat protokollieren.
Log-Files enthalten bei entsprechender Konfiguration nicht nur die URLs der abgerufenen Seiten, den Status-Code und die übermittelte Datenmenge [in Bytes], sondern bei Anfragen aus Suchmaschinen auch die genaue Formulierung, die der Anwender bei der Suchmaschine eintippte.
Millionen solcher Suchbegriffe und Formulierungen finden Sie in meiner keyDB Datenbank, die seit Jahren rund um die Uhr mit Suchbegriffen gefüttert wird, die bei mehreren Suchmaschinen eingetippt werden.
Software, die nach Anwender-Angaben angefertigte META Tags erzeugt, die der Anwender in der Annahme, sie hätten irgendeinen Vorteil, ein seine Seiten einfügt.
META Tags werden seit mehreren Jahren schon nicht mehr von Suchmaschinen bei der Sortierfolge, d.h. beim Ranking, berücksichtigt, weil ihre Inhalte nicht durch neutrale oder qualifizierte Dritte sondern vom Seitenautor erstellt werden. Von daher sind sie zur Dokumentbewertung so geeignet, wie ein Selbstzeugnis.
Viele Suchmaschinen verwenden aber auch heute noch die sog. META Description, d.h. eine Beschreibung der Seite, wenn der eigentliche Seitenaufbau so kompliziert oder durch Einsatz von Tabellen der Text so verschachtelt ist, dass sich eine Beschreibung nicht leicht dem Seiteninhalt selbst entnehmen lässt.
Auf die Bewertung der Seite durch Suchmaschinen hat aber auch diese Beschreibung keinen Einfluss mehr.
Ein spezieller META Tag verleitet den Browser, eine im META Tag vorgegebene Ersatzseite nach einer ebenfalls vom Seitenautor bestimmten Verweilzeit aufzurufen.
Offiziell werden Seiten mit META Refresh Tags, vor allem, wenn die Wartezeit nur ein paar Sekunden beträgt, nicht von Suchmaschinen indiziert. Offiziell ist aber auch jede Suchmaschine führend, so dass man immer wieder auf Suchergebnisse stösst, die ein META Refresh auslösen.
Aber auch hier kann beobachtet werden, dass Suchmaschinen, die solche Tricks noch nicht erkennen, Marktanteile verlieren. Langfristig erhalten nur Präsenzen, die ohne Tricks auskommen, eine ausreichende Bewertung durch die verbleibenden Suchmaschinen.
Wenn Sie die Sofort-Umleitung einer Seite verhindern wollen, um den Inhalt der Seite [wie er von den Suchmaschinen bearbeitet wurde] zu sehen, brauchen Sie ein Programm, mit dem man jede Suchmaschinen Weiterleitung ausschalten kann.
Diese haben heute kaum noch praktische Bedeutung, da schon kurz nach ihrer Einführung überwiegend zu Missbrauch benutzt.
Bei der Ermittlung der Suchmaschinenposition wird der Inhalt dieser Tags nicht mehr berücksichtigt. Die META-Description wird bei mehreren Suchmaschinen noch als Beschreibung des Inhalts in den Suchergebnissen ausgegeben. Die darin enthaltenen Begriffe werden aber nicht beim eigentlichen Ranking der Suchbegriffe berücksichtigt.
Das Suchmaschinen-Tutorial enthält eine ausführliche Behandlung der Frage, wie eine geeignete Beschreibung [= Description] vorteilhaft für die Darstellung des Suchmaschinen-Ergebnisses genutzt wird.
Multipurpose Internet Mail Extensions, heute eine Spezifikation zahlreicher Datei-Formate, die [u.a.] auch per HTTP transportiert werden können.
Suchmaschinen verarbeiten nur den Mime-TYP HTML, manche auch gelegentlich reine Text-Dateien.
Google ist die Ausnahme, die die Regel bestätigt. Google indiziert inzwischen zahlreiche nicht webtypische Dokumente wie PDF, RTF, Word und andere, die heute auf Web Servern gefunden werden.
Nicht immer ist die Indizierung solcher Dateien vom Site-Verantwortliche erwünscht [und gelegentlich weiss man nicht, dass Dokumente, die nicht indiziert werden sollten, geschützt werden müssen].
Meta Suchmaschinen können bei der Suchmaschinen-Optimierung vollends ignoriert werden, da sie keine eigenen Daten verwalten sondern die Ergebnisse anderer Suchmaschinen auswerten und präsentieren und damit von deren Datenbeständen und auch Ranking-Verfahren abhängig sind.
Meta-Suchmaschinen haben davon abgesehen im Vergleich zu den eigentlichen Suchmaschinen nur geringe Marktbedeutung. Fachleute rechnen damit, dass im Zuge der fortschreitenden Konsolidierung des Marktes Meta-Suchmaschinen keine langfristige Existenzbasis haben, seitdem die Finanzierung durch Verkauf von Werbeflächen zunehmends schwieriger wird.
Das Open Directory Project ist heute wahrscheinlich das grösste Verzeichnis der Welt. Obwohl ausschliesslich durch Volontäre betrieben, wird es auch von kommerziellen Suchmaschinen-Betreibern regelmässig ausgewertet.
Mehrere Suchmaschinen bewerten Sites, die im ODP eingetragen sind, höher als Präsenzen, die im ODP oder anderen Verzeichnissen nicht aufgeführt werden.
Dabei geht man davon aus, dass Verzeichnisse jeden Eintrag manuell überprüfen und nur Seiten, die gewisse Mindestanforderungen erfüllen, aufnehmen. Während die meisten Verzeichnisse geringere Marktbedeutung als Suchmaschinen haben, ist schon aus diesem Grund ein Eintrag in wichtigen Verzeichnissen zwingend vorgeschrieben.
Wichtige Hinweise zum ODP finden Sie in meinem Suchmaschinen-Tutorial.
Englisch: Waise. Webbezogen die Bezeichnung für Seiten, die nicht durch Verfolgung von Links erreicht werden können. Solche Seiten können durch Fehler bei der Wartung einer Präsenz entstehen.
Häufiger ist jedoch die bewusste Erstellung solcher Seiten zwecks Anmeldung dieser bei den Suchmaschinen. Besucher, die eine solche Seite in den Suchmaschinen finden, werden oft durch eine Weiterleitung [Redirect] auf die nicht für Suchmaschinen optimierten Seiten geführt.
Seitdem nur noch wenige Suchmaschinen die Anmeldung spezifischer Seiten berücksichtigen und nur noch solche Seiten indizieren, die beim eigenständigen Spidern durch Suchmaschinen gefunden werden, ist die Erstellung von "Orphans" nicht mehr attraktiv.
Mehrere Suchmaschinen weisen inzwischen darauf hin, dass nur noch die Domain, nicht mehr jedoch einzelne Seiten angemeldet werden sollten. Viele Suchmaschinen berücksichtigen Anmeldungen überhaupt nicht mehr oder nur nach manueller Sichtung. Andere belasten angemeldete Seiten "vorsichtshalber" mit Minus-Punkten, bis die Seite beim regelmässigen Spidern gefunden wird.
Pay Per Click, auch Paid Placement genannt. Der Preis, den der Werbetreibende für jeden Besuch oder Klick eines Interessierten zahlt, wird stets im Versteigerungsverfahren festgelegt.
Suchmaschinen, die diese Methode einsetzen, sind z.B. Overture [früher Goto] in den USA und Suchmaschine.de in Deutschland.
Inzwischen gibt es Absprachen unter Werbetreibenden, die sich verpflichten, eine einmal erreichte Rangfolge nicht durch gegenseitiges Überbieten zu verändern, um die Kosten nicht unnötig und unendlich in die Höhe zu treiben.
Genauso wurde beobachtet, dass bei einer grösseren Lücke zwischen den Kosten für den 3. und den folgenden Plätzen die ersten drei Anbieter das Gebot um den gleichen Betrag reduzieren, um so eine Reduzierung des Werbeaufwands zu erreichen.
Paid Inclusion nennt sich das Verfahren, bei dem der Site-Betreiber bei der Anmeldung für die beschleunigte Bearbeitung seiner Seiten bezahlt. Die Tatsache, dass bei der Anmeldung gezahlt wird, gewährt keine Garantie dafür, dass die Seiten durch die Suchmaschine indiziert werden. Sie bewirkt nur, dass die Bearbeitung schneller erfolgt und bei den meisten Anbietern, dass einmal aufgenommene Seiten regelmässig in kurzen Zeitabständen erneut gespidert werden.
Inktomi spidert solche Seiten z.B. alle 48 Stunden, AltaVista verspricht das wöchentliche Spidern solcher Seiten.
Bei Verzeichnissen garantiert man meist die Begutachtung durch einen Mitarbeiter des Verzeichnisses innerhalb weniger Arbeitstage. Suchmaschinen, die bezahlte Anmeldungen bieten, versprechen ebenfalls, diese innerhalb von 48 Stunden zu prüfen. In der Praxis sind Zurückweisungen solcher Seiten seltener Ausnahmefall.
Auf das Ranking bzw die Suchmaschinenposition hat die Zahlung keinen Einfluss [sh. aber auch Kapitel 10.2, Inktomi].
Suchmaschinen, die Position verkaufen, nennen den Vorgang schlicht "Paid Placement". Hierbei wird der Preis meistens im offenen Versteigerungsverfahren festgelegt [seltener, und nur bei wichtigen Werbekunden der Suchmaschinen, am Verhandlungstisch]. Suchmaschinen, die die Methode der offenen Versteigerung einsetzen, sind z.B. Overture [früher als Goto bekannt] in den USA und Suchmaschine.de in Deutschland.
Je nach Branche und Zielgruppe kann der Kauf von Suchbegriffen durchaus sinnvoll sein - Sie müssen bei der Kalkulation aber bedenken, dass jeder Besucher den von Ihnen gebotenen Preis kostet. Bei hohem Wettbewerb sind Preise pro Klick von $5.00 oder auch mehreren EURO nicht selten.
Bei "unbeliebten Produkten", z.B. Software für den Versand von Massen-Emails [Spam], muss damit gerechnet werden, dass Aktivisten einmal täglich eine Art Pflichtbesuch bei solchen Diensten machen, um jedes entsprechende Angebot anzuklicken. Dollar- und auch EURO-Etats der werbetreibenden Unternehmen werden so schnell umgeschlagen.
Engl. für "Flicken", d.h. die regelmässig von Microsoft empfohlenen und von der Mehrzahl der Microsoft-Anwender ignorierten Zusatzflicken, durch die Windows und die meisten Microsoft-Applikationen mit der Zeit zu einem Flickwerk werden, das wegen fehlerhafter Flicken regelmässig neue braucht.
An Wochentagen, an denen kein Flickwerk installiert werden muss, kann der Rechner für vollständige Neu-Installationen genutzt werden.
Mehrere sich nur noch teilweise als Suchmaschinen verstehende Unternehmen bieten heute das Pay per Click Verfahren, bei dem der Werbetreibende eine von ihm festgelegte Summe für den Besuch eines Besuchers zahlt.
Werbetreibende geben hierbei für jede spezifische Suchformulierung ein Gebot, das die Sortierfolge bestimmt. Eingeblendet werden diese Anzeigen bei vielen Suchmaschinen in einer Form, die geeignet ist, mit eigentlichen Suchergebnissen der Suchmaschine verwechselt zu werden.
Während es in den USA dutzende von Pay per Click-Anbietern gibt, haben in Deutschland nur Suchmaschine.de, Espotting und Overture eine Bedeutung. Ergebnisse der beiden letzteren Firmen werden z.B. bei Fireball, Lycos.de, T-Online und Yahoo.de eingeblendet.
Da Anwender langfristig aber Wert auf relevante Suchergebnisse legen, müssen diese Suchmaschinen weiterhin mit Besucherverlusten rechnen.
Besonderer Suchmodus der besseren Suchmaschinen, bei dem alle eingegebenen Wörter in einer Seite genau in der vom Suchenden eingetippten Wortfolge enthalten sein müssen.
Die Phrasen-Suche ist potentiell sehr aufwendig, da bei der Suche nicht nur das reine Vorhandensein eines Wortes geprüft werden muss, sondern auch die relative Position bezogen auf die vom Suchenden eingegebene Phrase stimmen muss. Sie setzt voraus, dass Suchmaschinen nicht nur Worthäufigkeiten sondern auch für jedes einzelne Wort - inkl. sog. Stop-Wörter - die exakte Position innerhalb jeder Seite speichern.
Die Phrasen-Suche wird deshalb nur von grösseren Suchmaschinen implementiert.
Beschreibt zwei Arten von Popularität, die von mehr als einer Suchmaschine bei der Rangfolgenermittlung berücksichtigt wird.
Google berücksichtigt die sog. Link-Popularität, andere Suchmaschinen die wesentlich ungenauere und manipulierbare Klick-Popularität, beschrieben im Kundenbereich].
Während Klick-Popularität bei Vorstellung durch das Unternehmen DirectHit Ende der 90er Jahre durchaus Plausibilität besass, stellte sich in der Praxis schnell heraus, dass die gesammelten Informationen einmal von der Erst-Sortierung der Suchergebnisse abhängig sind und auch nicht gegen Manipulation gefeit sind.
DirectHit wurde später von AskJeeves übernommen. Im Februar 2002 kündigte AskJeeves jedoch an, die Suchmaschine DirectHit einzustellen.
Umschreibung für Präsenzen, die ihre Zielrichtung verloren haben und die versuchen, von allem etwas zu bieten, indem man Seiten mit Informationen aus zahlreichen nicht immer verwandten Bereichen anfüllt.
Übersichtlichkeit leidet hier genauso wie Qualität. Die grössten Portale sind die, die neue Anwender nicht mehr kennenlernen, weil Portale - mangels Konzentration auf ein Kernthema - aufgeben mussten oder heute nur noch "Laufkundschaft" bedienen können.
Suchmaschinen wie Excite, Infoseek, AltaVista und andere, die sich nicht auf die ursprüngliche Funktion konzentrieren, sind entweder bereits Internet-Geschichte oder zählen bald dazu. AltaVista, vor mehreren Jahren noch weltweit die führende Suchmaschine, hat [teilweise durch mehrfachen Wechsel der Eigentümer] so viele Richtungsänderungen erlebt, dass gem. SearchEngine Watch heute nur noch 7% der Anwender AltaVista als Suchmaschine nutzen.
Anpassung von Seiten, so dass diese möglichst genau den Ranking-Kriterien der Suchmaschinen entsprechen und somit eine Position auf der ersten Seite der Suchmaschinen-Ergebnisse erzielt wird.
Berücksichtigt werden hierbei vor allem die Textlänge in Worten, die Häufigkeit des Begriffs oder der Begriffe, unter denen die Seite gefunden werden soll, die Einbettung dieser Begriffe in den von den Suchmaschinen besonders hoch bewerteten HTML-Elementen wie der Seiten-<TITLE> und auch der Verzicht auf alle Dinge, die die Seiten-Bearbeitung erschwert.
Welche Kriterien von welchen Suchmaschinen besonders hoch bewertet werden, können Kunden den jede Woche erstellten Ranking-Analysen für alle grossen Suchmaschinen entnehmen.
Engl. Präzision. Qualität gelieferter Suchmaschinenergebnisse wird traditionell in Precision und Recall [Zahl der relevanten Treffer, die gefunden werden] gemessen.
Eine hohe Präzision besagt, dass gelieferte Ergebnisse der Suchanfrage entsprechen. Ein hoher Recall-Wert bedeutet, dass ein Grossteil der Dokumente, die eine Suchanfrage befriedigen, gefunden wurden. Precision und Recall bedingen Feinabstimmung, da Informatiker bestrebt sind, Dokumente zu liefern, die möglichst hohe Relevanz aufweisen, dabei aber keine Dokumente auslassen wollen, die zwar thematisch relevant sind, die aber durch Wortwahl des Autors nur geringe Präzisions-Werte erlauben.
Aufzeichnungen über alle Seitenabrufe eines Web Servers. Diese Dateien enthalten IP-Adresse, bei entsprechender Konfiguration der Server-Software auch die voll resolvierten Domainnamen, Zeitpunkt der Abfrage, abgerufene URL, die Antwort des Web Servers [Status Code] sowie transferierte Datenmenge in Bytes.
Zusätzliche Informationen zeigen Referer-Adresse und ggfls den User-agent des Abrufers. Hat der Besucher Ihre Site in einer Suchmaschine gefunden, enthält der Eintrag in der Protokoll-Datei auch die genaue Formulierung, die bei der Suchmaschine eingegeben wurde.
Meine keyDB-Datenbank hat in den letzten Jahren rund 10 Mio verschiedene Suchbegriffe und Formulierungen und deren Anfragehäufigkeit gesammelt.
Engl. für Anfrage, hier die an eine Suchmaschine gerichtete Suchanfrage, d.h. die in ein Formularfeld eingegebene Wortfolge, die ggfls. suchmaschinenspezifische Syntax enthält.
Eine Analyse der Suchformulierung verwandelt die vom Anwender eingegebene Zeichenfolge unter Berücksichtigung evtl. Syntax-Befehle in eine maschinell zu verarbeitende Befehlsfolge, bevor die eigentliche Suche erfolgt.
Zur typischen Syntax zählen UND, ODER, NICHT, NAHE und andere teilweise von Suchmaschine zu Suchmaschine verschiedene Befehle. Bei vielen Suchmaschinen werden statt grossgeschriebenen Befehlsworten Symbole wie '+' oder '-' eingesetzt.
Query ist das englische Wort. für Anfrage, hier also die an eine Suchmaschine gerichtete Suchanfrage. Query by Example, deutsch "Suche anhand von Beispielen" bezeichnet ursprünglich die Suche in Datenbanken mit in einzelne Felder aufgeteilte Datensätze fester Struktur. Hierbei werden die Felder eine Suchmaske mit mehreren Beispiel-Informationen gefüllt, die die Suche in der Datenbank auf Datensätze eingrenzt, die alle vorgegebenen Informationen enthalten.
Bei der Suche in Suchmaschinen meint man mit "Query by Example" die Suche nach Dokumenten, die [eine von Suchmaschine zu Suchmaschine verschiedene] Mindestübereinstimmung zu einem vom Anwender selektierten Beispiel-Dokument aufweist.
Query by Example wird von Suchmaschinen geboten, die mit jedem Ergebnis zusätzliche Links mit Formulierungen wie z.B. "more like this" oder "similar pages" anbieten. Anklicken eines solchen Links grenzt eine erneute Suche auf solche Schriftstücke ein, die eine gewisse Ähnlichkeit zur Referenzfundstelle besitzen.
Ranking nennt man den Vorgang der Sortierung aller potentiellen Suchergebnisse nach Relevanz oder Bedeutung.
Hierbei verwendet jede Suchmaschine eigene Algorithmen, so dass man bei allen Suchmaschinen unterschiedliche Ergebnisse für identische Suchanfragen erhält, selbst wenn der Datenbestand aller Suchmaschinen identisch wäre.
Welche Faktoren beim Ranking einzelner Suchmaschinen berücksichtigt werden, können Kunden jede Woche den aktuellen Ranking-Analysen ablesen, die durch maschinelle Auswertung zehntausender von Suchergebnissen Rückschlüsse auf zahlreiche Ranking-Faktoren erlauben.
Besonders wichtig sind bei allen Suchmaschinen der <TITLE> und die möglichst genaue Einhaltung der Keyword-Dichte wie auch die Verwendung der HTML-Elemente, die hervorzuhebenden Wörtern besondere Bedeutung beimessen.
Untersuchung über die Rangfolgenermittlung der Suchmaschinen. Ermittelt Worthäufigkeiten und Gewichtung der HTML-Tags, denen besondere Bedeutung zugemessen wird.
Hierbei werden tausende von Suchanfragen an jede Suchmaschine gestellt und die erhaltenen Ergebnisse anschliessend durch maschinelle Seitenanalyse auf gemeinsame Nenner hin überprüft.
So lassen sich Durchschnittswerte für Worthäufigkeiten, von einzelnen Suchmaschinen bevorzugte HTML-Elemente und andere Faktoren ermitteln, die offenbar als erkennbarer gemeinsamer Nenner aller untersuchten Seiten Einfluss auf die Suchmaschinenposition haben.
Die Aufteilung der Daten nach den Suchmaschinen-Positionen eins bis zehn zeigt obendrein oft lineares Abfallen oder grösser werdende Differenzen zu den Werten der Seiten, die auf Platz 1 ausgegeben wurden.
Engl. [in diesem Zusammenhang sinngemäss] Wiederauffindbarkeit. Die Leistung von Informationssystemen wie Suchmaschinen wird von Fachleuten nach den manuell gemessenen Werten von Precision und Recall beurteilt. Präzision und Recall-Ansprüche an Informationssysteme sind oft anwendungsspezifisch.
Eine hohe Präzision besagt, dass die gelieferten Fundstellen dem Wortlaut der Suchanfrage möglichst genau entsprechen.
Ein hoher Recall-Wert zeigt, dass eine optimale Zahl aller in Frage kommenden Schriftstücke gefunden wird. Eine optimale Abstimmung beider Parameter ist oft vom Datenbestand und der Anwendergruppe abhängig.
Fehler passieren jedem, vor allem, wenn vor dem Bildschirm schnell etwas getippt wird. Wenn Sie in meiner Datenbank der Suchbegriffe, die Anwender bei den Suchmaschinen eintippen, stöbern, finden Sie zahlreiche Wörter, deren Orthografie verbesserungswürdig ist.
Häufige Fehler: das Auslassen eines Buchstaben bei Doppellauten, Verdreher der Zeichenfolge "ie" und viele Zeichenfolgen, die entweder Eile oder gelegentlich auch tiefe Rechtschreibschwächen vermuten lassen.
Wenn Sie auf dem Web nach "Tief NOT Flieger" suchen, finden sich sicherlich noch einen von mir vor Jahren verfassten Artikel, in dem ich eine humoristische Sammlung solcher Stilblüten kommentiert habe.
Während man häufige Vertipper, solange Suchmaschinen noch META Tags berücksichtigten, in diesen unterbringen konnte, setzt die Nutzung heute geschicktes Vorgehen voraus: Sie wollen einerseits auch von Anwendern gefunden werden, die beim Ausfüllen des Suchschlitzes Tippfehler nicht bemerkt haben, Sie wollen andererseits selbst nicht als jemand glänzen, der beim Deutschunterricht zu oft gefehlt hat.
Redirects werden vom Web Server erteilt, wenn eine abgerufene URL an eine andere Adresse umgezogen ist. Redirects werden allerdings auch oft von unseriösen Site-Betreibern gezielt eingesetzt.
Sie erkennen ein Redirect, wenn Sie eine URL in Ihren Browser eintippen oder einen Link anklicken, die gelieferte Seite aber eine andere Adresse hat [wie Sie der Adresszeile des Browsers entnehmen können].
Redirects sind bei Suchmaschinen verpönt, weil Missbrauch damit getrieben wurde. Viele Suchmaschinen ignorieren Redirects heute vollständig. Andere fügen URLs, die durch ein Redirect bekanntwerden, ans Ende der abzuarbeitenden Liste aller URLs.
Wenn Sie die Sofort-Umleitung einer Seite verhindern wollen, um den Inhalt der Seite [wie er von den Suchmaschinen bearbeitet wurde] zu sehen, brauchen Sie ein Programm, mit dem man jede Suchmaschinen Weiterleitung ausschalten kann.
Englisch: der Verweisende oder Empfehlende. Durch einen Fehler der Schnittstellenbeschreibung eines der ersten Web Server wurde das Wort "Referrer" in der obigen Schreibweise zur Norm bei allen Browsern und Web-Anwendungen.
Referer ist die URL der von einem Besucher zuletzt abgerufenen Web-Seite. Fehler in manchen Browsern führen dazu, dass nicht die zuletzt aufgerufene sondern die vorletzte besuchte Seite als Referer an den Web Server mitgeteilt wird. Neuere Browser erlauben Anwendern, die Übermittlung der Information zu unterdrücken.
Referer Logaufzeichnungen [Protokolldateien] eignen sich zur Ermittlung der "Herkunft" der Besucher einer Site, da nur ein geringer Teil aller Anwender die Browsereinstellung entsprechend anpassen. Durch die o.g. Browser-Fehler sind aber nicht alle in der Protokoll-Datei gefundenen Einträge korrekt.
Anmeldung einer Site oder Seite bei einer Suchmaschine, damit der Spider der Suchmaschine die Seite oder Seiten abruft.
Zwischen Registrierung und Abruf können oft Wochen vergehen, wobei kleine Suchmaschinen hier wesentlich längere Zeit benötigen als die marktführenden Suchmaschinen.
Nach der Registrierung und erfolgreichen Aufnahme in die Datenbank der Suchmaschine werden Seiten in nicht immer regelmässigen Abständen erneut abgerufen.
Mein Anmelderobot autoAnnounce führt die Registrierung aller Kunden-Seiten automatisch durch, wobei die täglich überwachten Anmelde-Kriterien der Suchmaschinen berücksichtigt werden.
Als relativen Link bezeichnet man unvollständige Adressen einer Seite, wobei die Zieladresse relativ zum derzeitig besuchten Dokument ist. Relative Links sind damit immer auf den gleichen Hostnamen bezogen und können nicht direkt in die Browser-Adresszeile eingegeben werden. Beispiel: ../ bezieht sich auf das nächst höher gelegene Verzeichnis auf diesem Server.
Ein relativer Link ist das Gegenteil von einem absoluten Link.
Sh.a. Externer Link und Interner Link.
Inhaltliche Übereinstimmung einer gelieferten Fundstelle zur Suchformulierung des Anwenders. Wird von jeder Suchmaschine anders definiert, hohe Relevanz wird erreicht, wenn das Suchergebnis voll und ganz der Suchanfrage gerecht wird.
Hohe Relevanz setzt voraus, dass Suchende eine möglich präzise Suchanfrage stellen, was in der Praxis erst beim zweiten oder dritten Anlauf passiert: die Mehrzahl aller Anfragen im deutschsprachigen Raum besteht - im Gegensatz zum englischsprachigen Raum, wo lange Wortfolgen die Norm sind - aus nur einem Wort.
Client Programme, die automatisiert Web Seiten durchforsten. Client-Programme der Suchmaschinen werden auch Spider oder Crawler genannt. Client-Programme können aber auch andere Zwecke, wie z.B. das Sammeln von branchenspezifischen Informationen oder von Email-Adressen, verfolgen. Private Anwender laden oft komplette Web Sites durch spezielle Download-Clients, die wie Spider arbeiten sollen, auf den eigenen Rechner.
Viele dieser Download-Programme und auch andere spezielle Crawler nehmen keine Rücksicht auf die mögliche Überlastung des besuchten Servers. Fehlerhafte Client-Programme, die hunderte und tausende male versuchen nicht vorhandene oder verweigerte Dateien abzurufen, sind der Alptraum jedes Server-Betreibers.
Die sog. Root URL ist die Startseite Ihres Servers, z.B. www.xyz.com/. Wird der Server ohne Angabe einer spezifischen Seite aufgerufen [oder verlinkt], z.B. www.xyx.com, erteilt der Web Server ein Redirect auf die Root URL der Site, das Verkehrsaufkommen unnötig erhöhend.
Aber selbst Verzeichnisse und auch Suchmaschinen enthalten gelegentlich nur Domainnamen ohne anschliessenden "Schrägen", so dass nach Aufruf der Domain per Redirect die Root URL erst "in Erfahrung" gebracht werden muss. Während der typische Anwender hiervon meistens kaum etwas merkt, kann es zu störenden Wartezeiten kommen, wenn Routing-Probleme oder besonders hohes Verkehrsaufkommen den Datentransport allgemein verzögern.
Links ohne Angabe einer bestimmten Datei sollten daher stets auf die Root URL bei gleichzeitiger Angabe des Stammverzeichnisses, also www.xyz.com/ inkl. Schrägstrich, verweisen.
Englischsprachige Abkürzung für Search Engine, d.h. Suchmaschine.
Englischsprachige Abkürzung für Search Engine Optimisation, d.h. Suchmaschinen-Optimierung.
Abkürzung für Server Side Include, eine Web Server-Erweiterung, die entweder den Inhalt einer externen Datei oder den Datenausstoss eines vor Auslieferung des Inhalts aufgerufenen Programms in eine Schablone oder grösstenteils vorgefertigte Seite ermöglicht.
Nachteilig bei Suchmaschinen, die "gealterte Seiten" bevorzugen. Wie Suchmaschinen SSI und andere dynamisch erzeugte Inhalte als solche erkennen, sehen Sie in Kapitel 8.4 meines Suchmaschinen-Tutorials.
Secure Sockets Layer, eine ursprünglich von Netscape entwickelte Spezifikation zur verschlüsselten und daher sicheren Übertragung von Information zwischen Browser und Web Server.
Wird vor allem für die Übermittlung von Kreditkarten-Nummern oder anderen sensiblen Daten genutzt. Amerikanische Gesetzgebung verhinderte bis vor kurzem den Export von Software mit "Schlüsseln" von mehr als 40 Bit.
Bemühungen europäischer Open Source-Entwickler führten, da die Algorithmen selbst formell spezifiziert wurden, dazu, dass Open Source Produkte eine Alternative zu den US-Produkten boten, so dass 128 Bit und stärkere Verschlüsselungs-Methoden jetzt auch von nicht-amerikanischen Internet-Anwendern und Servern eingesetzt werden kann.
Die EG Kommission empfiehlt seit langer Zeit, bei sensiblen Informationen stets auf Open Source-Produkte zurückzugreifen, da die Sicherheit solcher Produkte im Vergleich zu kommerziellen Alternativen grösser ist. Gleichzeitig bietet der Zugriff auf den Quellcode die Sicherheit, dass die Anwendung nur macht, was von ihr erwartet wird und nicht etwa versteckt Daten an den Hersteller weiterleitet.
Eine einzelne Seite, Datei oder URL, Bestandteil einer sog. Site [englisch: Stelle, z.B. Baustelle], die eine Vielzahl von Seiten enthält.
Seite und Site werden im deutschsprachigen Sprachraum oft verwechselt, da die Aussprache für ungeübte Ohren oft gleich lautet.
Ein uralter, seit langer Zeit nicht mehr funktionierender Trick, der in den ersten Jahren der Suchmaschinen noch Vorteile bieten konnte: Autoren meldeten eine besonders optimierte Seite bei Suchmaschinen an und warteten auf den Besuch des Suchmaschinen-Spiders.
Sobald diese Seite indiziert war, wurde die Seite gegen eine nicht optimierte aber grafisch ansprechende ausgetauscht.
Seitdem Spider regelmässig alle bekannten Seiten überprüfen, hilft diese Massnahme nicht mehr bei der Verbesserung der Position. Heute setzen Site-Betreiber daher oft auf Cloaking, wie im Kundenbereich beschrieben.
Maschine oder Programm, das Informationen bereitstellt, z.B. Web Server, FTP Server oder auch Datenbank-Server.
Programme, die Information von Servern abrufen, werden durch den Abruf zum Client [Abnehmer] des Servers, auch wenn die Klienten eine eigenständige Server-Funktion besitzen. Suchmaschinen-Spider sind Clients, die Information von Web Server abrufen, um sie einem eigenen Server zur Bearbeitung zu geben.
Web Server-Erweiterung, die den Inhalt einer externen Datei oder die Datenausgabe eines vor Seitenlieferung aufgerufenen Programms in eine Schablone oder vorgefertigte Seite einfügt.
Nachteilig bei Suchmaschinen, die über längere Zeit nicht veränderte Seiten bevorzugen. Wie Suchmaschinen Server Side Includes und andere dynamisch erzeugte Inhalte als solche erkennen, sehen Sie in Kapitel 8.4 meines Suchmaschinen-Tutorials.
Eine Web Präsenz, die eine Sammlung von Seiten oder Dateien bereithält.
Site und Seite werden oft fälschlicherweise synonym gebraucht, weil im Deutschen die fast gleiche Aussprache beider Worte selten auseinandergehalten wird.
Eine besondere HTML-Seite, die Links zu allen [wichtigen] Seiten Ihrer Site enthält. Eine Sitemap, auf die ein Link von Ihrer Root URL verweist, wird von Suchmaschinen beim Spidern frühzeitig gefunden. Die darin enthaltenen Links werden daher frühzeitig in den Datenbestand der Suchmaschine übernommen.
Sitemaps eignen sich auf für die Verlinkung sog. Gateway oder Brückenseiten. Viele Suchmaschinen haben aber auch hier aufgrund erfahrener Missbräuche einen Riegel vorgeschoben und übernehmen nur noch eine beschränkte Zahl der in der Sitemap gefundenen Links.
Alternative Möglichkeiten der Verlinkung von Gateway Seiten finden Sie im Kundenbereich.
Unter Spam versteht man allgemein Seiten voller wertloser Wortsammlungen und Suchbegriffe zur Verbesserung der Position bei einer Suchmaschine.
Jede Suchmaschine hat eigene Richtlinien, nach denen geurteilt wird. Die Richtlinien werden nicht immer durch entsprechend ausgeklügelte Software erzwungen sondern werden zur Abschreckung publiziert und oft erst bei Beschwerden der Suchenden angewendet.
Spam-Erkennung ist am einfachsten, wenn gründliche Inhaltsanalysen beim Ranking erfolgen. Kommerzielle Site-Betreiber müssen Spam um jeden Preis vermeiden, da kommerzielle Domains langlebige Objekte sind - manche Suchmaschinen sperren ggfls. dauerhaft.
Spamdexing ist die Erstellung einer massiven Zahl wertloser Seiten für eine Suchmaschine, in denen ein Suchbegriff systematisch und in kleinen Schritten häufiger und häufiger in der Seite vorkommt: eine der vielen Häufigkeiten wird sicher genau der von einer Suchmaschine bevorzugten entsprechen.
Spam-Erkennung ist am einfachsten, wenn gründliche Inhaltsanalysen beim Ranking erfolgen, die nicht nur absolute Worthäufigkeiten sondern auch die Wort-Dichte und den Document Vector berücksichtigen. So wird schnell erkannt, ob hunderte oder tausende von Seiten einer Präsenz tatsächlich unterschiedliche Inhalte bereitstellen oder ob ein Datenset nur zu Manipulations-Zwecken erstellt wurde.
Kleinere Suchmaschinen, die nicht das ganze Web sondern nur thematisch genau umrissene Bereiche oder allgemeine Themen einer begrenzten Region erfassen.
Spezialsuchmaschinen werden mehr und mehr durch Spezial-Verzeichnisse abgelöst, da der Entwicklungsaufwand für geeignete Software kaum von der geplanten Kapazität einer Suchmaschine abhängig ist, der Aufwand für die Erkennung und Zuordnung vorgegebener Themen aber umso grösser ist, je genauer man beim Spidern gefundene Inhalte analysieren möchte.
Verzeichnisse benötigen nur geringen technischen Aufwand, setzen aber geschulte Mitarbeiter voraus.
Spider sind eigenständig arbeitende Programme der Suchmaschinen, die ununterbrochen Seiten von Web Servern zur Indizierung abrufen. Die Adressen der Seiten wurden entweder bei den Suchmaschinen angemeldet oder den Hyperlinks bereits bekannter Seiten entnommen.
Die genaue Arbeitsweise der Spider, und wie diese beeinflusst werden kann, wird in Kapitel 8 meines Tutorial behandelt.
Root URL einer Site, die kaum oder keinen Text enthält, sondern nur Grafik oder animierte Effekte.
Wenn solche Seiten keine eigentlichen Hyperlinks sondern nur JavaScript enthalten, sind Suchmaschinen nicht in der Lage, die Site zu spidern.
Meist von Grossfirmen oder Werbeagenturen aus Präsentations-Gründen und in reiner Unkenntnis der technischen Zusammenhänge erstellt.
Das Problem konnte früher durch Anmeldung der Unterseiten umgangen werden. Seitdem die meisten Suchmaschinen aber nur noch die Anmeldung der Root URL akzeptieren [in der Annahme, dass diese weiterführende Links enthält], werden solche Präsenzen für Suchmaschinen zunehmends unsichtbar.
Reduzierung eines Wortes auf den eigentlichen Wortstamm. Wird von fortschrittlichen Suchmaschinen eingesetzt, um die Zahl relevanter Fundstellen zu maximieren, hat gleichzeitig den Effekt, dass der benötigte Speicherplatz reduziert und die Suche beschleunigt wird.
Stemming bewirkt, dass z.B. Haus, Häuser, Hauses, Häusern usw. auf die Zeichenkette "Haus" reduziert wird. Stemming wird bei deutschsprachigen Suchmaschinen kaum eingesetzt, da die Entwicklung entsprechender Algorithmen sprachabhängig und damit sehr kompliziert ist.
Wie Stemming Wörter gruppieren kann, sehen Sie z.B., wenn Sie checkKEYS benutzen. Der Stemming-Algorithmus für die deutsche Sprache wurde von mir Ende 1999 entwickelt.
Wörter ohne eigentlichen Informationsgehalt wie z.B. der, die, das, und, oder, aber usw.
Bei den meisten Suchmaschinen sind Stop-Wörter vordefiniert, d.h. es gibt eine [nicht veröffentlichte] Liste von Worten, die bei der Suche stillschweigend ignoriert werden [gilt nicht für die Phrasen-Suche].
Andere Suchmaschinen, wie z.B. AltaVista, fügen Wörter der Stop-Wort-Liste hinzu, wenn die Häufigkeit im Gesamt-Datenbestand der Suchmaschine einen vordefinierten Prozentwert überschreitet. Daher konnte bis vor ein paar Jahren bei AltaVista noch nach Begriffen wie WWW, Web oder Internet gesucht werden, während diese Wörter inzwischen zu Stop-Worten geworden sind.
Engl. für Suchmaschinen-Anmeldung. Früher unbedingt notwendig, wenn man gefunden werden wollte. Heute ist die Anmeldung nicht unbedingt nötig, wenn eine Site wertvolle Informationen bietet.
Neue Sites oder neue Seiten einer Site werden nur gefunden, wenn sie von den Suchmaschinen in den Datenbestand übernommen werden. Die Anmeldung garantiert heute aber längst nicht mehr die umgehende [oder auch spätere] Aufnahme in den Datenbestand einer Suchmaschine.
Aktive Suchmaschinen spidern ohnehin regelmässig, alle gefundenen Links verfolgend. Inaktive, oder solche die nur einen vordefinierten Datenbestand haben, können auch durch Submission nicht zur Aufnahme neuer Seiten bewegt werden.
Bei manchen Suchmaschinen erfolgt heute gar die manuelle Sichtung angemeldeter Sites, andere ignorieren Anmeldungen vollständig. Der kürzeste Weg in die Datenbestände der Suchmaschinen ist heute oft die Anmeldung bei wichtigen Verzeichnissen und die Erstellung von Seiten, die möglichst genau den Kriterien für Mindest-Textlänge und maximale Worthäufigkeiten der Suchmaschinen entsprechen.
Wenn Ihre Seiten etwa zwei bis drei Monate nach Anmeldung nicht in den marktführenden Suchmaschinen indiziert sind, können Sie davon ausgehen, dass diese zurückgewiesen wurden. Die Prüfung bei den kleineren Suchmaschinen erübrigt sich. Deren Marktanteile sind so unbedeutend, dass sich der Zeitaufwand nicht rentiert.
Wörter oder Formulierungen, die von Anwendern in den Suchmaschinen eingegeben werden. Die Mehrzahl aller bei deutschsprachigen Suchmaschinen eingegebenen Suchbegriffe besteht aus nur einem Wort.
Protokoll-Auswertungen der Suchmaschinen zeigen, dass Suchende Einwort-Anfragen durch Hinzufügung zusätzlicher Begriffe präzisieren, sobald Suchanfragen nicht die gewünschten Ergebnisse bringen.
Meine seit Jahren rund um die Uhr mit Suchanfragen gefütterte keyDB-Datenbank enthält Millionen von Suchbegriffen, die den Live-Suche Seiten und Protokoll-Dateien mehrerer Suchmaschinen entnommen werden.
Die Datenbank erlaubt die interaktive Recherche zur Ermittlung relevanter Suchbegriffe.
Bezeichnet die Prominenz bzw erste Position des wichtigsten Suchbegriffs einmal im <TITLE> und dann im <BODY> der Seite.
Während allgemein davon ausgegangen wird, dass Prominenz bei jeder Suchmaschine berücksichtigt wird, zeigen die meinen Kunden jede Woche bereitgestellten Ranking-Analysen alle grossen Suchmaschinen mit nationaler oder internationaler Marktbedeutung, dass dies nur auf wenige zutrifft und andere Faktoren wesentlich mehr Gewicht haben.
Wichtiger als die Suchbegriffs-Prominenz ist vor allem der <TITLE> und die korrekte Keyword-Dichte für den oder die massgeblichen Begriffe einer Seite, wobei Einbettung in von den Suchmaschinen höher bewertete HTML-Elemente ausschlaggebender als die reine Worthäufigkeit ist.
Suchmaschinen arbeiten ohne menschliches Zutun automatisiert. Eigenständige Prozesse rufen ununterbrochen Seiten von Web Servern ab, die ausgewertet und indiziert werden.
Andere Prozesse bearbeiten gleichzeitig Millionen von Suchanfragen und liefern aus den vorher indizierten Datenbeständen Ergebnisse.
Eine detaillierte Beschreibung der Arbeitsweise und der - aus technischer Sicht - verschiedenen Typen von Suchmaschinen finden Sie in Kapitel 4. Im Kundenbereich finden Sie regelmässig aktualisierte Suchmaschinen-spezifische Informationen.
Der Vorgang der inhaltlichen Gestaltung einer Webseite, die genau auf die bekannten Eigenschaften einer Suchmaschine eingeht.
Hierbei werden Worthäufigkeiten, max. Wiederholungen und andere Parameter exakt den gemessenen Eigenschaften einer Suchmaschine angepasst, damit diese die so gestaltete Seite, die genau den eigenen Anforderungen entspricht, als besonders wertvoll beurteilt.
Welche Messwerte für jede Suchmaschine ermittelt wurden, können meine Kunden wöchentlich erstellten Ranking-Analysen entnehmen. Diese zeigen die ermittelten gemeinsamen Nenner von mehr als 10,000 auf den ersten 10 Plätzen ausgewerteten Seiten, so dass die Faktoren, die den grössten Einfluss auf die Suchmaschinen-Position haben, leicht erkannt werden können.
Engl., urspruenglich in Verbindung mit Programmiersprachen gebraucht. Hier eine aus Suchbegriffen und Befehlen gemischte Zeichenfolge, die die genaue Behandlung der Suchbegriffe vorgibt.
Typische Syntax-Befehle sind z.B. AND [bei deutschen Suchmaschinen UND], OR [ODER] sowie NOT [NICHT]. Bei moderneren Suchmaschinen können wortwörtliche Befehle durch Sonderzeichen ersetzt werden, d.h. aus einem AND wird ein '+' und aus einem NOT wird meist ein '-' oder gelegentlich auch ein '!'. OR wird meist durch ein '|' ersetzt.
NEAR oder NAHE bedeutet, dass die beiden durch den Befehl verbundenen Wörter bei Vorhandensein in einem Dokument nur als Treffer zu bewerten sind, wenn diese einen von der Suchmaschine definierten Maximal-Wortabstand nicht überschreiten [meist 10 Wörter max. Distanz].
Manche Suchmaschinen erlauben die Eingabe spezifischer Syntax nur mittels Sonderzeichen, andere bieten beide Eingabeformen. Oft finden Sie, dass durch Syntax eingegrenzte Suchbefehle nur ueber eine "erweiterte" oder "Profi"-Suche möglich sind.
Spezielle Syntax erlaubt, wenn Klammern unterstützt werden, fast schon algebraische Abfragen. In der Praxis wird Syntax wie auch die Phrasensuche nur von einer geringen Minderheit fortschrittlicher Anwender eingesetzt.
Fast jede Suchmaschine bewertet den im <HEAD> einer Seite untergebrachten <TITLE> höher als andere Text-Stellen.
Der <TITLE> ist nicht im Dokument-Fenster sichtbar sondern wird von fast allen Browsern im oberen Fensterrand gezeigt.
Gleichzeitig benutzt fast jede Suchmaschine den <TITLE> einer Seite zusammen mit einer Textpassage am Anfang der Seite für Darstellungs-Zwecke in den Suchergebnissen. Nur wenn Seiten keine geeigneten Text-Blöcke haben, wird von manchen Suchmaschinen heute noch die sog. META-Description für Darstellungszwecke genutzt. Auf das Ranking hat diese, im Gegensatz zum <TITLE>, allerdings keinen Einfluss.
Wie wichtig der Titel bei jeder Suchmaschine ist, können Kunden den wöchentlich erstellten Ranking-Analysen für alle marktführenden Suchmaschinen entnommen.
Eine binäre Liste der signifikanten Begriffe einer Seite oder Sammlung von Seiten zur Ermittlung der thematischen Breite einer Seite [oder Site].
Term Vectoren werden bei manchen Suchmaschinen auch zur [relativ einfachen] Ermittlung inhaltlicher Dubletten oder zur Erkennung von Spam eingesetzt. Hier geht man meist so vor, dass der Vector alle nach Entfernung der Stop-Wörter übriggebliebenen Begriffe nach Häufigkeit sortiert enthält.
Diese Struktur erlaubt schnelle Schlüsse auf die inhaltliche Breite [oder Konzentration] einer Seite [oder Präsenz] und gleichzeitig die Möglichkeit der schnellen Dubletten-Erkennung. Die Möglichkeit wird von rein deutschsprachigen Suchmaschinen kaum genutzt.
Synonym-Verzeichnis, bei kommerziellen Informationssystemen zur Verbesserung der Relevanz genutzt. Allgemeine Suchmaschinen arbeiten fast immer ohne Thesaurus, da maschinelle Erkennung der Bedeutung einer Wortfolge noch nicht mit der notwendigen Zuverlässigkeit erfolgt und oft nur durch Analyse des Umfeldes einer Fundstelle möglich ist.
Synonymverzeichnisse werden daher nur von Systemen mit sehr begrenzten Themenbereich eingesetzt, die meist wissenschaftlicher und in seltenen Fällen kommerzieller Natur sind.
Engl. Verkehr oder bezogen auf das Web die Zahl der Besucher und Seitenaufrufe einer Site über einen bestimmten Zeitraum hinweg.
Präzise Messungen der Besucher oder Seitenaufrufe sind nicht möglich, da zu viele Variablen eine genaue Messung verhindern.
So kann schon allein die Browser-Einstellung dazu führen, dass vom Anwender abgerufene Seiten ein- oder mehrfach geladen werden. Browser können so konfiguriert werden, dass jede Seite bei jedem Aufruf, bei jedem Erst-Aufruf pro Tag, Woche oder nie mehr neu geladen werden.
Cache- oder Proxy-Einrichtungen des Providers des Anwenders können die Anforderungen des Anwender-Browsers je nach Konfiguration der Proxy honorieren oder die Browserbefehle schlichtweg ignorieren und eine auf einem Rechner des Providers zwischengespeicherte Kopie dieser Seite liefern. Diese Seite wird je nach Proxy-Einstellung gelegentlich oder lange Zeiten nicht neu geladen.
Protokoll-Auswertungen sollten daher nie zur Messung absoluter Zahlen, sondern nur zur Trendfortschreibung und Erkennung eingesetzt werden.
Trash [amerikanisch Abfall] nennt man "Verkehr" oder Besucher, die kein ursächliches Interesse an den auf einer Präsenz gebotenen Informationen haben und die nur durch Manipulationsversuche auf diese gelockt wurden.
Hierzu zählen vor allem Seitenaufrufe, die durch irreführende Banner-Werbung, PopUp-Windows oder auch durch unseriöse Seitenerstellung über Suchmaschinen auf eine Site finden.
Banner werden oft so gestaltet, dass sie von unerfahrenen Anwendern mit typischen Dialog-Flächen des PCs verwechselt werden, wobei oft irgendwelche Warn- oder Fehlermeldungen simuliert werden.
PopUps werden durch Missbrauch von JavaScript ausgelöst und irritieren vor allem Anwender, die nicht wissen, wie man JavaScript und andere Script-Sprachen oder ActiveX deaktiviert. Solche Anwender kennen selten die Gefahren, die durch Ausführung von Programmcode, der nicht der Kontrolle des Anwenders unterliegt, ausgehen.
Manipulationen von Seiteninhalten zwecks Besucherfang sind meist die Unterbringung von Begriffen aus dem "Rotlicht"-Bezirk oder ähnlich oft gesuchter Themen.
Rentabel ist Trash Traffic nur für Site-Betreiber, die am eigentlichen Seitenaufruf verdienen, d.h. die Werbung an unerfahrene Unternehmen verkaufen und die es nicht stört, dass Besucher verärgert werden.
Willkürliche Abkürzung eines Wortes durch [meist] ein '*' am Ende des Wortes, die zur Ausdehnung der Suche führt. So wird bei der Suche nach bus* z.B. Busenfreund, Busfahrer, Buschmesser und auch Bussard gefunden.
Trunkierung führt schon allein dadurch, dass Suchmaschinen Millionen von Seiten im Datenbestand halten, selten zu gewünschten Ergebnissen. Sie kann allerdings, wenn man z.B. die Schreibweise längerer Begriffe nicht genau kennt, nützlich sein.
Uniform Resource Locator, Teil der HTTP-Spezifikation, die das Format der Adresse einer Web-Seite bestimmt. Beide sind nachzulesen auf der Site des World Wide Web Consortium.
Kennung der Client Software, d.h. der Anwendung, die von einem Web Server eine Seite abruft. Diese Kennung wird mit jedem Seitenabruf als Teil des Befehls übermittelt [bzw. bei entsprechend konfigurierbaren Browsern gelegentlich unterdrückt]. Die Kennung besteht meist aus einem Namen und einer Versionsnummer, oder bei Browsern, die Netscape-kompatibel sind, aus einer Zeichenkette wie z.B. Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
Jede Anwendung sollte eine eigene Kennung haben, obwohl viele Browser heute die Möglichkeit bieten, den User-agent [die Schreibweise mit kleinem 'a' ist historisch bedingt] frei einzustellen.
Mehrere Suchmaschinen-Spider geben heute ebenfalls vor, nur ein allgemeiner Browser zu sein, um Missbrauch durch Site-Betreiber zu verhindern.
Eine Liste wichtiger Spider-Kennungen und deren IP-Nummern und Domainnamen finden Sie im Kundenbereich.
HTML-Prüfprogramm, das die HTML-Syntax von Web-Seiten überprüft. Wichtig für die korrekte Bearbeitung durch Suchmaschinen, da Seiten bei vielen Suchmaschinen in sog. virtuelle Container zerlegt werden, wobei unterschiedliche Container [eingegrenzt durch HTML-Elemente] verschiedene Gewichtung erhalten.
Ob die HTML-Syntax Ihrer Seiten korrekt ist, können Sie mit checkHTML interaktiv prüfen.
Darunter versteht man die Anbringung von Text in der Hintergrundfarbe einer Seite, meist einfache Wiederholung eines oder mehrerer Suchbegriffe.
Half früher oft bei der Positionierung bei Suchmaschinen, bei denen absolute Worthäufigkeiten ausschlaggebend waren. Wird heute von fortschrittlicheren Suchmaschinen allein durch Messung der Wortdichte oder der Zahl der direkten bzw indirekten Wiederholungen erkannt und entsprechend negativ bewertet oder zurückgewiesen.
Nur recht einfache Suchmaschinen fallen gelegentlich noch auf versteckten Text herein.
Verzeichnisse werden im Gegensatz zu Suchmaschinen, bei denen automatisierte Software Daten abruft, auswertet und sortiert, manuell durch meist bibliothekarisch geschulte Mitarbeiter erstellt. Das Open Directory Project [ODP] ist heute das grösste Verzeichnis mit mehr als drei Millionen Einträgen und wird fast ausschliesslich durch Volontäre [und ein paar Angestellte] betreut.
Optimierung zur Positionsverbesserung ist hier nicht direkt möglich, da Verzeichnisse die Seiten einer Kategorie nach Eingangsdatum, Alphabet oder anderen nicht durch Optimierung kontrollierbare Kriterien sortieren.
Verzeichnisse legen fast immer Wert auf informative Seiten, die mit allen Browsern abgerufen werden können. Gleichzeitig wird vorausgesetzt, dass alle Links funktionieren und auch Design und Präsentation gewisse Mindestanforderungen erfüllen.
Die Volltext-Suche wird nur von leistungsfähigeren Suchmaschinen angeboten, weil hierbei der "volle Text" eines Schriftstückes indiziert werden muss und nicht nur die algorithmisch bestimmten "wichtigsten Wörter".
Selbst Stop-Wörter werden bei der Volltext-Suche indiziert, auch wenn diese im gewöhnlichen Suchmodus [stillschweigend] ignoriert werden.
Greift der Suchende zur sog. Phrasensuche, fast immer durch Anführungszeichen markiert, werden auch in der Phrase enthaltene Stopwörter gesucht.
Hierbei müssen nicht nur alle Wörter sondern auch deren Wortpositionen innerhalb eines Dokuments überprüft werden, da die Suche - aus Performancegründen - nicht in den eigentlichen HTML-Seiten sondern in eigens für das schnelle Auffinden präparierten Datenbanken erfolgt.
Diese Datenbanken enthalten in der Regel einen Eintrag für jedes Wort sowie die absoluten Wortpositionen dieses Wortes in einem Schriftstück. Für jede in einer Suchmaschine indizierte Seite wird für jedes in dieser Seite enthaltene Wort ein Datensatz mit den absoluten Wortpositionen angelegt.
Diese Datensätze enthalten mindestens das Wort, einen Zeiger auf die URL einer Seite sowie die Wortpositionen, gefolgt vom nächsten Zeiger und einer weiteren Wortpositionsliste. Viele Suchmaschinen weisen für die schnellere Bearbeitung jedem einmal indizierten Wort eine Nummer zu, weil ganze Zahlen auf jedem Computer schneller bearbeitet werden als Zeichenketten variabler Länge.
Hat leider zwei ähnliche Bedeutungen, die aber verwandt sind. Auf die Frage, was ich als Web Server benutze, kann ich [wahrheitsgemäss] entweder antworten, dass ein Intel PC unter Linux [Hardware und Betriebssystem] betrieben wird. Oder dass hier Apache [Web Server Anwendung] läuft.
Professionell betriebene Web Server laufen heute meist auf Unix oder ähnlichen System, z.B. Linux oder BSD, da Web Server für ein weltweites Publikum rund um die Uhr dienstbereit sein müssen und Ausfälle nicht nur Geld kosten können, sondern vor allem imageschädlich wirken.
Andere Systeme leiden nicht nur unter diversen Anfälligkeiten [blue Screen] und werden leicht durch Viren infestiert, sondern haben vor allem den Nachteil, dass nur eine begrenzte Anzahl von Verbindungen möglich ist. Seitenabrufe werden dann lapidar mit unschönen Fehlermeldungen quittiert.
Als Anwendungssoftware läuft bei mehr als 60% aller Präsenzen heute der Apache Server, weil er sich als äusserst stabil, robust und vor allem HTTP-konform erwiesen hat.
Web-Kataloge bzw Verzeichnisse unterscheiden sich von Suchmaschinen in drei wesentlichen Punkten:
Trotzdem erfreuen sich Web-Kataloge grosser Beliebtheit bei vor allem unerfahrenen Anwendern oder bei der Suche nach Themen, deren Fachausdrücke der Anwender nicht kennt. Gleichzeitig ist ein Eintrag in vielen Verzeichnisse wertvoll, da Suchmaschinen regelmässig die besseren Verzeichnisse spidern. Suchmaschinen, die Linkpopularität berücksichtigen, neigen dazu, solche Seiten höher zu bewerten.
Prozentuale Häufigkeit eines Begriffs in einer Seite. Wenn eine Datei fünf verschiedene Wörter enthält, hat jedes eine Wortdichte von 20%, z.b. eins, zwei, drei, vier, fünf.
Hat diese Datei insgesamt fünf Wörter, von denen aber eins wiederholt wird, z.B. eins, zwei, zwei, vier, fünf, so beträgt die Wortdichte für das wiederholte Wort 40% und für die drei anderen je 20%.
Typische Werte für die Wortdichte von Web Seiten liegen je nach Suchmaschine zwischen 2% und 8%. Genau Werte können meine Kunden für jede Suchmaschine den wöchentlich bereitgestellten Ranking-Analysen entnehmen.
Neuere Suchmaschinen-Algorithmen wie Pagerank und Hilltop, die von Google und anderen Suchmaschinen eingesetzt werden, berücksichtigen die sog. Link-Popularität, d.h. die Qualität und Zahl der Links, die auf eine Site oder Seite zeigen.
Dabei haben Links, die von Verzeichnissen wie das Open Directory Project oder Yahoo! ausgehen, wesentlich höhere Bedeutung als Links einer privaten Home Page schon allein, weil diese Verzeichnisse eine massive Zahl von eingehenden Links aufweisen können.
Praktische Hinweise zur drastischen Verbesserung der Link Popularität einer Site entnehmen Sie den Beschreibungen der Algorithmen im Tutorial.
Extensible Markup Language, eine besonders für den systemunabhängigen Datenaustausch geeignete Sprache, die HTML- und SGML-Konzepte übernimmt.
XML setzt allerdings aufeinander abgestimmte Parser voraus, die bei Datenerstellung und Verarbeitung nach Abruf einzelnen Datentypen identische Bedeutungen zuordnen.
Extensible Style Language, eine Style Sheet-ähnliche Erweiterung für den Einsatz in Verbindung mit XML. Wird von nur von moderneren Browsern unterstützt.
© Copyright 1998 - 2012 Klaus Schallhorn.