Crawler und PageRank – So findet Google die nützlichsten Seiten

Jeden Tag werden Milliarden von Suchanfragen in Suchmaschinen eingegeben. Die größte und bekannteste Suchmaschine ist Google, die mit Hilfe von Webbots und speziellen Algorithmen diejenigen Webseiten findet, die für die jeweilige Suchanfrage am relevantesten erscheinen. Um das Ranking ihrer Seite zu verbessern, setzen Webseiten-Betreiber häufig Maßnahmen zur Suchmaschinenoptimierung ein.

Webcrawling und Indexierung

Die Indexierung bildet die Grundlage der Suche. Hiermit erfasst die Suchmaschine die im Web verfügbaren Seiten, um den Nutzern so später nützliche Seiten liefern zu können. Für die Indexierung verwendet Google eine besondere Software – die sogenannten Webcrawler. Der Googlebot ist der bekannteste Crawler. Webcrawler rufen einzelne Internetseiten auf und folgen den dort vorhandenen Links zu anderen Seiten. Dort sammeln sie Informationen zu diesen Seiten, welche anschließend auf den Google-Servern gespeichert werden. Welche Internetseiten gecrawlt werden und in welchen Abständen dies geschieht, legen Computerprogramme fest. In gewissen Maße können die Inhaber von Webseiten beeinflussen, wie die Suchmaschine Google ihre Webseite crawlt und indexiert. Möglich ist dies über die Datei “robots.txt”, in die die Webmaster Anweisungen eingeben können, wie die eigenen Webseite zu verarbeiten ist.

Algorithmen finden die passendsten Webseiten

Um zu garantieren, dass die Suche tatsächlich Webseiten mit hilfreichen Informationen liefert, setzt Google ausgefeilte Algorithmen ein. Bei diesen Algorithmen handelt es sich um Formeln und Prozesse, die die Suchanfrage in Internetseiten verwandeln. Was die besten Ergebnisse für eine bestimmte Suchanfrage sind, findet Google über verschiedene Signale heraus. Hierzu zählen beispielsweise Begriffe, die auf der Webseite zu finden sind, sowie die Aktualität des Inhaltes oder der PageRank. Dieser sortiert die gefundenen Webseiten nach Relevanz. Wie genau das funktioniert, hält Google ebenso wie den PageRank der einzelnen Webseiten geheim.