Probleme bei Suchmaschinen

März 10th, 2008

Suchmaschinen müssen im Betrieb mit verschiedenartigen Problemen umgehen:

Mehrdeutigkeit
Suchanfragen sind oft unpräzise. So kann die Suchmaschine nicht selbstständig entscheiden, ob beim Begriff Laster nach einem LKW oder einer schlechten Angewohnheit gesucht werden soll (semantische Korrektheit). Umgekehrt sollte die Suchmaschine nicht zu stur auf dem eingegebenen Begriff bestehen. Sie sollte auch Synonyme einbeziehen, damit der Suchbegriff Rechner Linux auch Seiten findet, die statt Rechner das Wort Computer enthalten.
Grammatik
Viele mögliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen lässt (z. B. berücksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Möglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (schöne Blumen findet so auch schöner Blume), außerdem wird die Anzahl der Begriffe im Index reduziert. Eine weitere Möglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein könnte.
Satzzeichen
Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört (z. B. Apples Webservice .Mac oder C/net) können bei den gängigen Suchmaschinen nicht effektiv gesucht und gefunden werden. Lediglich für ein paar sehr häufige Begriffe (z. B. .Net, C#, oder C++) wurden Ausnahmen geschaffen .
Datenmenge
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil  das so genannte Deep Web – noch gar nicht eingerechnet.
Aktualität
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers.
Spam
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
Technik
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.
Recht
Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.

Art der Daten

März 10th, 2008

Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an.

Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel.

Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschließt. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat. Eine Suchmaschine für das semantische Web ist Swoogle.

Arten von Suchmaschinen

März 10th, 2008

Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die drei nachfolgenden Merkmale sind orthogonal zueinander. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden, unabhängig von den anderen Merkmalen. Die gängigste und meistgenutzte Kombination ist eine indexbasierte (Realisierung) Websuchmaschine (Datenquelle) auf HTML-Textdokumenten (Art der Daten), wie sie unter anderem von den drei großen Suchmaschinenanbietern bereitgestellt wird. Deren Marktanteile sind international: Google (53,7%), Yahoo!Search (22,7%) und MSN Search (8,9%), in Deutschland: Google (90%), Yahoo!Search (3%) und MSN Search (1%). Diese Suchmaschinen zeigen in der Regel alles an, was man zu einem Suchbegriff finden kann, die sog. horizontale Suche. Mittlerweile gibt es jedoch auch vertikale Suchmaschinen, die nur für ein bestimmtes Thema relevante Treffer anzeigen. Seit dem 7. Januar 2008 läuft die Alphaversion der Suchmaschine Wikia Search von Wikipedia gründer Jimmy Wales.

Suchmaschinen

März 10th, 2008

Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet-Suchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Sie erstellen einen Schlüsselwort-Index für die Dokumentbasis, um Suchanfragen über Schlüsselwörter mit einer nach Relevanz geordneten Trefferliste zu beantworten. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden.

Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind:

  • Erstellung und Pflege eines Indexes (Datenstruktur mit Informationen über Dokumente),
  • Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie
  • Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.

In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem.

Ethik der Suchmaschinenoptimierung

März 9th, 2008

Methoden, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen, werden als Suchmaschinen-Spamming bezeichnet; sie verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen. Ethisch einwandfreie Suchmaschinenoptimierung vermeidet Spamming. Fälle, die von den Suchmaschinenbetreibern aufgedeckt werden, haben oftmals den Bann der betreffenden Seite zur Folge.

So musste BMW Anfang 2006 kurzfristig hinnehmen, dass das Internetangebot des Automobilkonzernes komplett aus Google entfernt wurde, weil eine Reihe von automatisch weiterleitenden Brückenseiten erstellt wurden. Nachdem BMW die beanstandeten Seiten entfernt hatte, wurde bmw.de wieder in den Google-Index aufgenommen.

Ethische Suchmaschinenoptimierung (engl. white hat search engine optimization) verzichtet auf verbotene Praktiken wie den Einsatz von Brückenseiten oder einer Linkfarm und befolgt die Direktiven der einzelnen Suchmaschinen. Ziel dabei ist es, Bestrafungen durch die Suchmaschinen, wie einen Ausschluss aus dem Index oder die Herabstufung in den Suchergebnisseiten, zu vermeiden.

Methoden, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen, werden als Suchmaschinen-Spamming bezeichnet; sie verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen. Ethisch einwandfreie Suchmaschinenoptimierung vermeidet Spamming. Fälle, die von den Suchmaschinenbetreibern aufgedeckt werden, haben oftmals den Bann der betreffenden Seite zur Folge.

So musste BMW Anfang 2006 kurzfristig hinnehmen, dass das Internetangebot des Automobilkonzernes komplett aus Google entfernt wurde, weil eine Reihe von automatisch weiterleitenden Brückenseiten erstellt wurden. Nachdem BMW die beanstandeten Seiten entfernt hatte, wurde bmw.de wieder in den Google-Index aufgenommen.

Ethische Suchmaschinenoptimierung (engl. white hat search engine optimization) verzichtet auf verbotene Praktiken wie den Einsatz von Brückenseiten oder einer Linkfarm und befolgt die Direktiven der einzelnen Suchmaschinen. Ziel dabei ist es, Bestrafungen durch die Suchmaschinen, wie einen Ausschluss aus dem Index oder die Herabstufung in den Suchergebnisseiten, zu vermeiden.

Google Richtlinien