Voll-
bild
Wieder-
herstellen
Mehr
Details
Weniger
Details
Lese-
zeichen
Direkt
verlinken
Zurück-
blättern
Eine Suchmaschine ist ein Programm zur Recherche von Dokumenten, die in einem Computer oder einem Computernetzwerk wie z. B. dem World Wide Web gespeichert sind. Internet-Suchmaschinen haben ihren Ursprung in Information-Retrieval-Systemen. Sie erstellen einen Schlüsselwort-Index für die Dokumentbasis, um Suchanfragen über Schlüsselwörter mit einer nach Relevanz geordneten Trefferliste zu beantworten. Nach Eingabe eines Suchbegriffs liefert eine Suchmaschine eine Liste von Verweisen auf möglicherweise relevante Dokumente, meistens dargestellt mit Titel und einem kurzen Auszug des jeweiligen Dokuments. Dabei können verschiedene Suchverfahren Anwendung finden. Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind: Erstellung und Pflege eines Index (Datenstruktur mit Informationen über Dokumente), Verarbeiten von Suchanfragen (Finden und Ordnen von Ergebnissen) sowie Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. In der Regel erfolgt die Datenbeschaffung automatisch, im WWW durch Webcrawler, auf einem einzelnen Computer durch regelmäßiges Einlesen aller Dateien in vom Benutzer spezifizierten Verzeichnissen im lokalen Dateisystem. Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der Merkmalsgruppen entscheiden, ohne dass dies die Wahl der anderen Merkmale beeinflusst.

Google ist eine Suchmaschine des US-amerikanischen Unternehmens Google Inc. Übereinstimmende Statistiken zeigen bei weltweiten Suchanfragen Google als Marktführer unter den Internet-Suchmaschinen. Der Vorläufer BackRub startete 1996, seit 27. September 1998 ist die Suchmaschine unter dem Namen Google online. Seitdem hat sich ihre Oberfläche nur geringfügig verändert. Durch den Erfolg der Suchmaschine in Kombination mit kontextsensitiver Werbung aus dem AdSense-Programm konnte das Unternehmen Google Inc. eine Reihe weiterer Software-Lösungen finanzieren, die über die Google-Seite zu erreichen sind. Die Suche ist allerdings nach wie vor das Kern-Geschäftsfeld von Google. Zeitweise verwendete der Konkurrent Yahoo gegen Bezahlung die Datenbanken von Google für die eigene Suche. Die Bezeichnung Google basiert auf einem Wortspiel, manche Quellen sprechen auch von einem Rechtschreibfehler, mit der US-amerikanischen Aussprache des Wortes googol. Milton Sirotta, der Neffe des US-Mathematikers Edward Kasner, hatte den Ausdruck im Jahr 1938 geprägt, um der Zahl mit einer Eins und hundert Nullen (10100) einen Namen zu geben. Die Google-Gründer wiederum suchten eine treffende Bezeichnung für die Fülle an Informationen, die ihre Suchmaschine im Web finden sollte. Der Rechtschreib-Duden nahm das Verb googeln (sprich: [ˈɡuːgl̩n] „guhg(e)ln“) 2004 in die 23. Auflage auf.

Ein Webcrawler (auch Spider oder Searchbot) ist ein Computerprogramm, das automatisch das World Wide Web durchsucht und Webseiten analysiert. Webcrawler werden vor allem von Suchmaschinen eingesetzt. Weitere Anwendungen sind das Sammeln von RSS-Newsfeeds, E-Mail-Adressen oder von anderen Informationen. Webcrawler sind eine spezielle Art von Bots, d. h. Computerprogrammen, die weitgehend autonom sich wiederholenden Aufgaben nachgehen. Der erste Webcrawler war 1993 der World Wide Web Wanderer, der das Wachstum des Internets messen sollte. 1994 startete mit WebCrawler die erste öffentlich erreichbare WWW-Suchmaschine mit Volltextindex. Von dieser stammt auch der Name Webcrawler für solche Programme. Da die Anzahl der Suchmaschinen rasant wuchs, gibt es heute eine Vielzahl von unterschiedlichen Webcrawlern. Diese erzeugen bis zu 40 % des gesamten Internettraffics. Wie beim Internetsurfen gelangt ein Webcrawler über Hyperlinks von einer Webseite zu weiteren URLs. Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht. Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefügt. Auf diese Weise können theoretisch alle verlinkten und nicht für Webcrawler gesperrten Seiten des WWW gefunden werden. In der Praxis wird jedoch oft eine Auswahl getroffen, der Prozess irgendwann beendet und von vorne begonnen. Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert, um ein späteres Suchen in den so gesammelten Daten zu ermöglichen.

URL-Hijacking ist die Entführung einer Domain aus dem Index verschiedener Suchmaschinen. Dieses Problem basiert auf einem Missverständnis zwischen einer Website und einer Suchmaschine hinsichtlich (insbesondere dynamisch generierter) Weiterleitungen. Die Folgen für die gehijackte Seite sind fatal: Sie taucht in den Suchergebnissen nicht mehr auf und bekommt keine Besucher mehr über entsprechende Suchmaschinen. Im Internet gibt es verschiedene Möglichkeiten, Anfragen an eine bestimmte Adresse an eine andere Adresse weiterzuleiten. Ein Beispiel: Ruft man http://de.wikipedia.org/ auf, so wird man auf http://de.wikipedia.org/wiki/Wikipedia:Hauptseite weitergeleitet. Solche Weiterleitungen verfolgen unterschiedlichste Ziele, beispielsweise seien genannt: Dauerhafte Weiterleitung auf die korrekte Adresse der Hauptseite (wie im genannten Beispiel). Dauerhafte Weiterleitung auf die korrekte Domain bei Tippfehlern (Beispiel: googel.de → google.de) oder nach einem Domainwechsel/Umzug (siehe auch Domainweiterleitung). Dauerhafte Weiterleitung, wenn Inhalte einen neuen Dateinamen bekommen haben (Beispiel: /startseite.html heißt ab jetzt /index.html). Vorübergehende Weiterleitung, wenn Inhalte zunächst unter einer anderen Adresse, in Zukunft aber wieder unter der aufgerufenen oder möglicherweise einer ganz anderen Adresse zu finden sind.

Google Inc. ist ein Unternehmen mit Hauptsitz in Mountain View (Kalifornien, USA), das durch Internetdienstleistungen – insbesondere durch die gleichnamige Suchmaschine „Google“ – bekannt wurde. Gegründet wurde das Unternehmen am 4. September 1998 von Larry Page und Sergey Brin. Noch am selben Tag brachten sie eine erste Testversion des Programms auf den Markt und im selben Jahr ging die Suchmaschine offiziell ans Netz. Das Unternehmen beschreibt das eigene Bestreben wie folgt: Ende 2012 beschäftigte es nach der Übernahme von Motorola Home und Motorola Mobile 53.861 Mitarbeiter. Google hat einen marktbeherrschenden Anteil (80 %) an allen Suchanfragen im Internet (Stand 2010). Google gehört seit Jahren zu den wertvollsten Marken der Welt. Google bietet eine Vielzahl von größtenteils werbefinanzierten kostenlosen Dienstleistungen im World Wide Web an. Dabei handelt es sich vor allem um die Suche auf verschiedenen Datenquellen. Häufig werden neue Einzeldienste ins Angebot aufgenommen, manchmal als Resultat von Unternehmenseinkäufen. Dabei wird eine neue Dienstleistung oft mit dem Zusatz Beta versehen, um anzuzeigen, dass sie noch nicht ausgereift sei. Google wurde dafür kritisiert, dass manche Dienstleistungen den Beta-Status sehr lange behalten. Weniger erfolgreiche Dienste werden im Allgemeinen aber weiter betrieben, die Einstellung von Google Answers 2006 war die erste Ausnahme.

Wolfram Alpha (eigene Schreibweise: Wolfram|Alpha) ist ein auf der Software Mathematica basierender Internetdienst zum Auffinden und Darstellen von Informationen, der von Wolfram Research entwickelt wird. Anders als bei einer gewöhnlichen Suchmaschine ist das Hauptziel nicht das Auffinden von im Internet verfügbaren Fakten allein durch Suchstrategien, sondern die Verarbeitung von Fakten durch spezifische Algorithmen zu Ergebnissen. Wolfram Alpha ist demnach eine semantische Suchmaschine. Die Ergebnisse sind synthetische Antworten, von einer simplen Summenbildung bis zu Eigenwerten, von Differenzialgleichungen oder Umlaufbahnen von Planeten. Wolfram Alpha will eine Funktionslücke von Suchmaschinen bei der Beantwortung von Fragen füllen. Das Projekt wird von Stephen Wolfram und einem Team aus hundert Mitarbeitern seit dem Jahr 2005 entwickelt. Seit Mai 2009 arbeiten weltweit zusätzlich so genannte Data Curators, welche Daten aus der jeweiligen Region liefern. Ein Data Curator liefert Daten zu einem jeweiligen Thema. Ebenso gibt es weltweit so genannte Preview Site Testers. Wie schon bei Veröffentlichung erwähnt, bietet das Projekt (seit Januar 2012) neben der kostenlosen Version eine Pro-Version an. Studenten und Schülern wird dabei ein von 4,99 Dollar auf 2,99 Dollar pro Monat reduziertes Angebot gemacht. Als neue Funktion können über 60 verschiedene Dateiformate hochgeladen und analysiert werden. Zudem wird durch ein Plugin die Interaktivität mit der Website erhöht.

Eine Metasuchmaschine ist eine Suchmaschine, deren wesentliches Merkmal darin besteht, dass sie eine Suchanfrage an mehrere andere Suchmaschinen gleichzeitig weiterleitet, die Ergebnisse sammelt und aufbereitet. Die Ergebnisse können einfach nacheinander angeordnet werden. Verbreiteter sind teilweise komplexe Nachbearbeitungen, wie Aggregation von Dubletten (gleicher Fund in mehreren Suchmaschinen wird nur einmal angezeigt, Beeinflussung des Bewertungsmechanismus) Bewertung bzw. Ranking der Ergebnisse Clustering der Ergebnisse durchgeführt werden. Die Ergebnisse werden dann meist einheitlich, einer Suchmaschine entsprechend, dargestellt. Traditionell muss der Server der Metasuchmaschine auf die Antworten aller Suchdienste warten, an die er die Suche weitergegeben hat, um erst dann mit der Ergebnisdarstellung zu beginnen. Daraus ergeben sich Verzögerungen gegenüber einer normalen Suchmaschine. Um dem zu begegnen, kann eine jeweils beim Eintreffen verschiedener Suchergebnisse aktualisierte Anzeige erfolgen. Die aktuelle Generation der Metasuchmaschinen erlauben auch Syntaxübersetzungen, so dass auch komplexere Suchanfragen an die jeweils angesprochenen Suchmaschinen abgesetzt werden können. Die erste Metasuchmaschine für das World Wide Web programmierten 1995 Erik Selberg und Oren Etzioni im Rahmen eines Forschungsprojektes an der University of Washington in den USA: MetaCrawler – Parallel Web Search Service.

Presseportale sind Websites, die auf das Veröffentlichen von Pressemitteilungen spezialisiert sind. Sie informieren somit die Allgemeinheit und speziell Journalisten über Aussagen, Dementis, Ereignisse, Produkte und Veranstaltungen. Presseportale werden von Institutionen oder Unternehmen, häufig auch durch PR-Agenturen mit Pressemitteilungen bestückt. Presseportale erhöhen die Präsenz von Pressemitteilungen im Internet. Durch deren starke Textlastigkeit und Aktualität stellen Presseportale eine besondere Qualität für Suchmaschinen dar. Letztlich wird somit die Auffindbarkeit von Pressemitteilungen und deren Inhalte im Internet erhöht. Die Bedeutung und Reichweite der einzelnen Presseportale ist unterschiedlich. Sie hängt davon ab, welche Relevanz das Portal für die jeweiligen Zielgruppen und für die Suchmaschinen hat. Neben allgemeinen Presseportalen existieren auch sehr spezielle Branchenportale, zum Beispiel für die Touristik, für die Gesundheitsindustrie oder für die IT-Branche. Zudem ist wichtig, wie lange der Anbieter bereits am Markt und wie etabliert das Portal ist. Für diejenigen, die Informationen per Pressemitteilung verbreiten, sind Presseportale somit eine Möglichkeit, in Suchmaschinen präsent zu sein und eine gute Reichweite zu erlangen. Im Vergleich zu klassischen Pressediensten beschränkt sich die Reichweite nicht auf Journalisten sondern umfasst alle Internet-Nutzer. Presseportale gelten somit als wichtiger Bestandteil der Online-PR.

Cloaking (engl. verhüllen) ist eine Technik zur Suchmaschinenoptimierung, bei der dem Webcrawler der Suchmaschinen unter der gleichen URL eine andere Seite präsentiert wird als dem Besucher. Sie dient zur Verbesserung der Rangordnung in Suchmaschinen und der Indexierung. Ziel des Cloakings ist es, gleichzeitig eine für Suchmaschinen und Besucher optimierte Seite zu präsentieren. Da Suchmaschinen primär Textinhalte verarbeiten und indexieren, wird ihnen eine textbasierte, strukturell optimierte HTML-Seite ausgeliefert. Menschliche Besucher, die einen Browser benutzen, erhalten dagegen für die gleiche URL eine für sie optimierte Seite. Diese kann beispielsweise multimediale Inhalte wie Flash-Filme oder Videos enthalten, deren Inhalte für Suchmaschinen unsichtbar sind. Der Verfasser kann mit dieser Methode etwa auch seine Optimierungsmethoden vor den Augen der Konkurrenz schützen. User-Agent-Cloaking liegt vor, falls abhängig vom User-Agent verschiedene Inhalte präsentiert werden. Von IP-Cloaking (auch IP-Delivery genannt) wird dagegen gesprochen, falls die Inhalte nach der IP-Adresse unterschieden werden. Cloaking ist nach den Richtlinien der meisten Suchmaschinen verboten. Verstöße, die entdeckt werden, haben meist einen dauerhaften Ausschluss aus dem Index zur Folge. Cloaking kann enttarnt werden, indem Suchmaschinenbetreiber mit einer normalen Browserkennung und über eine neutrale IP-Adresse die Website aufrufen und den Inhalt mit jenem der Suchmaschine vergleichen.

DuckDuckGo ist eine Suchmaschine mit Sitz in Valley Forge, Pennsylvania, USA, die Informationen von viel besuchten Websites mit dem Ziel sammelt, Suchergebnisse zu verbessern und die Sachdienlichkeit zu erhöhen. Die besondere Zielsetzung der Suchmaschine ist der Datenschutz der Nutzer. DuckDuckGo wurde von Gabriel Weinberg gegründet, einem Unternehmer, dessen letztes Projekt 2006 (The Names Database) von der United Online (NASDAQ:UNTD) für 10 Millionen US-Dollar angekauft wurde. Weinberg hat einen Bachelor (B.Sc.) in Physik und einen Master (M.Sc.) in Technology and Policy des MIT. Das Projekt wurde ursprünglich von Weinberg selbst finanziert und soll weiterhin durch Werbeeinnahmen unterstützt werden. Bislang wurde die Suchmaschine jedoch hauptsächlich von überzeugten Investoren finanziert. Die Suchmaschine ist in Perl geschrieben und läuft auf nginx und FreeBSD. DuckDuckGo ist primär auf Such-APIs der großen Anbieter gestützt (wie z. B. Yahoo! Search BOSS) und wird deshalb von TechCrunch als „Hybrid“-Suchmaschine bezeichnet. Gleichzeitig erstellt DuckDuckGo auch eigene Seiten mit Inhalt und stellt sich damit gleich mit Websites wie Mahalo.com, Kosmix und SearchMe. Einige Journalisten mochten den Humor nicht und bezeichneten den Namen für eine Suchmaschine als unangebracht. Als Weinberg wegen des Namens gefragt wurde, erklärte er: DuckDuckGo veröffentlicht detaillierte Statistiken über den Traffic und verzeichnete am 1. März 2012 erstmals mehr als 1,5 Millionen direkte Suchanfragen pro Tag.

Das Suchmaschinenranking bezeichnet die Reihenfolge, in der die bei der Benutzung der Suchmaschine ermittelten Ergebnisse aufgeführt werden. Diese Rangordnung wird durch den Suchmaschinenbetreiber festgelegt und hat das Ziel, dem Suchenden Seiten mit größtmöglicher Relevanz zu präsentieren. Die Seiten, auf denen die Suchergebnisse dargestellt werden, werden auch Search Engine Result Pages (kurz SERPs) genannt. Da SERPs nach dem Prinzip der Top-N-Anfrage arbeiten ist von entscheidender Bedeutung für eine Webseite, unter den ersten N, beispielsweise 10 Ergebnissen, genannt zu werden. Ein wichtiges Kriterium für die Einstufung sind die Anzahl und die Qualität der Verweise. Je mehr adäquate Links im Internet auf die betreffende Webseite verweisen, desto besser wird sie eingestuft. Den Indikator dafür nennt man Linkpopularität. Google misst die Linkpopularität durch den PageRank. Eine höhere Übereinstimmung zwischen Suchbegriff und dem Inhalt der Website hat ebenfalls positiven Einfluss auf das Ranking. Wie stark die unterschiedlichen Kriterien für das Ranking von den Suchmaschinen herangezogen werden, ist meist ein Firmengeheimnis der Betreiber. Google selbst gibt insgesamt mehr als 200 Faktoren an, die das Ranking beeinflussen. Allerdings werden weder die Faktoren, noch deren Gewichtung von Google veröffentlicht. Die Suchmaschinenoptimierung befasst sich mit Maßnahmen zur Verbesserung des Suchmaschinenrankings. Suchmaschinenbetreiber wie z.B. Google beschreiben in Ihren Qualitätsrichtlinien, welche Maßnahmen konform sind und welche nicht.


InfoRapid Wissensportal