Mit Hilfe der robots.txt das Crawling steuern

Die robots.txt ist ein einfaches Textfile, das im Root-Verzeichnis einer Domain liegen muss, um einen Einfluss auf die Crawler (Robots) der Suchmaschinen zu haben. Durch die Datei ist es jedem Webmaster möglich, das Crawling-Verhalten der entsprechenden Roboter zu steuern und somit gezielt wichtige von unwichtigen Inhalten zu trennen. Darüber hinaus können geschützte Login-Bereiche vor dem Erfassen geschützt werden. Die gängisten Suchmaschinen (Google, Bing, Yahoo) halten sich prinzipiell an die vom Webmaster gemachten Vorgaben. Da die Angaben jedoch nicht zwangsläufig bindend sind, können im Prinzip alle Crawler die Datei lesen, aber müssen sie nicht beachten.

Beispielhafter Aufbau einer robots.txt

Angenommen, dass für alle Suchmaschinen das Crawling des Ordners „keine-robots“ unterbunden werden soll, muss in der robots.txt folgende Regel definiert werden:

User-agent: *
Disallow: /keine-robots/

Mittels User-agent: * werden alle Crawler angewiesen, die folgenden Angaben zu befolgen. In diesem Fall ist der entsprechende Ordner vom Crawling ausgenommen.

Crawling-Verbot schützt nicht unbedingt vor der Indexierung

Ein gängiger Trugschluss ist der Glaube, dass vom Crawling ausgeschlossene Dateien oder Verzeichnisse nicht von den Suchmaschinen in deren Index aufgenommen werden können. Sobald jedoch eine URL Ihrer Domain auf einer externen Website verlinkt wurde und diese auch vom Suchmaschinen-Robot gecrawled werden kann, wandert sie mit ziemlicher Sicherheit auch in den Suchmaschinen-Index. Da sie dem Robot jedoch das Crawling untersagen, wird anstelle des gängigen Snippets (Auszug, meist die Meta-Description) in den Serps die Textzeile „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“ angezeigt und auf Google-eigene Hilfe verwiesen (siehe auch untenstehende Abbildung).

Beispiel für eine durch die robots.txt geblockte URL, die indexiert wurde

Der Text wurde kürzlich von Google in „Die Datei „robots.txt“ auf dieser Website lässt nicht zu, dass eine Beschreibung für das Suchergebnis angezeigt wird„. In diesem Zug hat Google den Verweis auf die robots.txt (leider) entfernt.

Die Datei "robots.txt" auf dieser Website lässt nicht zu, dass eine Beschreibung für das Suchergebnis angezeigt wird.

Sollten Sie also bisher Inhalte, die Sie eigentlich nicht im Google-Index vorfinden wollen, ausschließlich per robots.txt „blockiert“ haben, so empfiehlt sich dafür die Verwendung des „noindex“-Meta-Tags (wahlweise auch X-Robots-Tag). Dadurch stellen sie sicher, dass Inhalte nicht ungewollt in den Google-Index wandern. Sobald das „noindex“ auf der entsprechenden Seite gesetzt ist, empfiehlt es sich, das Crawling für diese URL zuzulassen, damit der Bot den Inhalt und somit auch den entsprechenden Meta-Tag crawlen und verstehen kann.

Warum sollte man die Suchmaschinen-Roboter steuern?

Gerade bei sehr großen Webportalen und Online-Shops ist eine gezielte Steuerung der Suchmaschinen-Robots unabdingbar. Die Crawler der reichweitenstärksten Suchmaschine in Deutschland, Google, haben pro Website/Domain nur ein bestimmtes Kontingent an freien Ressourcen für das Erfassen der Inhalte („Crawlingbudget“). Der Umfang der Ressourcen steigt zwar u.a. mit der Größe des Portals, jedoch sind sie nicht unendlich. Damit alle für Sie wichtigen Inhalte immer im Bestfall schnellstmöglich und aktuell gecrawled werden können, ist die Einrichtung von gewissen Crawling-Regeln nötig.

Übrigens: Über die robots.txt sollte auch eine eventuell verfügbare sitemap.xml-Datei referenziert werden. Dieser Verweis sieht dabei wie folgt aus „Sitemap: https://www.trustagents.de/sitemap.xml“

So testen Sie Ihre robots.txt

Die in der robots.txt definierbaren Regeln sind mitunter sehr komplex und können zu einem unerwarteten Crawling-Verhalten führen. Innerhalb der Google Webmaster Tools (Tipp: Unser Webmaster Tools E-Book herunterladen) haben Sie die Möglichkeit, die robots.txt-Datei zu überprüfen. Diese Option finden Sie unter „Status“, „Blockierte URLs“ – es empfiehlt sich, Änderungen an der robots.txt vorab über dieses Tool zu testen und erst anschließend die Änderungen auf den Webserver zu übertragen.