Mit Hilfe der robots.txt das Crawling steuern

Über die robots.txt Datei kann das Crawling-Verhalten von Suchmaschinen gesteuert werden. Dazu muss die Datei im sogenannten Root-Verzeichnis abgelegt und dadurch unter z.B. https://www.trustagents.de/robots.txt abrufbar sein. Die Crawler großer Suchmaschinen halten sich an die dort definierten Angaben. Über den sogenannten User-Agent können einzelne Crawler gezielt angesprochen werden. Dadurch ist es möglich, z.B. allen Crawlern mit Ausnahme des Googlebot das Crawling zu verbieten.

Beispielhafter Aufbau einer robots.txt

Angenommen, dass für alle Suchmaschinen das Crawling des Ordners „keine-robots“ unterbunden werden soll, muss in der robots.txt folgende Regel definiert werden:

User-agent: *
Disallow: /keine-robots/

Mittels User-agent: * werden alle Crawler angewiesen, die folgenden Angaben zu befolgen. In diesem Fall ist der entsprechende Ordner vom Crawling ausgeschlossen.

Wichtig: Crawling-Verbot schützt nicht vor der Indexierung

Ein gängiger Trugschluss ist der Glaube, dass vom Crawling ausgeschlossene Dateien oder Verzeichnisse nicht von Suchmaschinen indexiert werden. Crawling hat mit Indexierung allerdings erstmal wenig zu tun. Der Prozess sieht wie folgt aus:

  1. Über einen Verweis findet eine Suchmaschine eine URL (Webadresse). Die Adresse (aber erstmal nicht deren Inhalt!) ist bekannt
  2. Per Abgleich mit der robots.txt wird ermittelt, um die Seite gecrawlt (also gelesen) werden darf.
  3. Wenn die Adresse nicht vom Crawling ausgeschlossen wird, wird deren Seiteninhalt erfasst. In diesem Zuge können die Indexierungsangaben (z.B. über Meta Robots) gefunden werden.

Liegt ein Crawling-Ausschluss für die Adresse vor (also steht ein Muster der URL in der robots.txt auf Disallow), dann kennt die Suchmaschine nicht den Seiteninhalt. Entsprechend weiß die Suchmaschine nicht, welche Inhalt auf der Seite zu finden sind. Das beeinhaltet auch die Robots Angaben. Indexiert werden kann die Adresse allerdings aufgrund des Verweises.

In der Google-Suche tauchen per robots.txt blockierte Adresse mit dem Hinweis „Die Datei „robots.txt“ auf dieser Website lässt nicht zu, dass eine Beschreibung für das Suchergebnis angezeigt wird

Die Datei "robots.txt" auf dieser Website lässt nicht zu, dass eine Beschreibung für das Suchergebnis angezeigt wird.

Der Seitentitel selbst entspricht dabei seltenst dem Titel, der auf der Seite definiert ist. Denn diesen kann die Suchmaschine durch die Crawling-Blockierung nicht einlesen. Der Seitentitel wird deshalb aus Ankertexten der Links zu dieser Seite gebildet.

Der anstelle der Meta-Description abgeteigte Text wird von Google von Zeit zu Zeit angepasst. So stand dort früher „Aufgrund der robots.txt dieser Website ist keine Beschreibung für dieses Ergebnis verfügbar.“. Durch einen Klick auf robots.txt wurde die entsprechende robots.txt Datei geöffnet.

Beispiel für eine durch die robots.txt geblockte URL, die indexiert wurde

Wenn Sie nicht möchten, dass eine Seite überhaupt über die Google-Suche gefunden werden kann, dann müssen Sie:

  • Das Crawling dieser Adresse erlauben
  • Und die Indexierung über Noindex verhindern

Warum sollte man die Suchmaschinen-Roboter steuern?

Gerade bei sehr großen Webportalen und Online-Shops ist eine gezielte Steuerung der Suchmaschinen-Robots unabdingbar. Die Crawler der reichweitenstärksten Suchmaschine in Deutschland, Google, haben pro Website/Domain nur ein bestimmtes Kontingent an freien Ressourcen für das Erfassen der Inhalte („Crawlingbudget“). Der Umfang der Ressourcen steigt zwar u.a. mit der Größe des Portals, jedoch sind sie nicht unendlich. Damit alle für Sie wichtigen Inhalte immer im Bestfall schnellstmöglich und aktuell gecrawled werden können, ist die Einrichtung von gewissen Crawling-Regeln nötig.

Übrigens: Über die robots.txt sollte auch eine eventuell verfügbare sitemap.xml-Datei referenziert werden. Dieser Verweis sieht dabei wie folgt aus „Sitemap: https://www.trustagents.de/sitemap.xml“

So testen Sie Ihre robots.txt

Die in der robots.txt definierbaren Regeln sind mitunter sehr komplex und können zu einem unerwarteten Crawling-Verhalten führen. Innerhalb der Google Search Console (Tipp: Alles über Google Search Console im O’Reilly Fachbuch) haben Sie die Möglichkeit, die robots.txt-Datei zu überprüfen.

robots-txt-tester

Diese Option finden Sie unter „Status“, „Blockierte URLs“ – es empfiehlt sich, Änderungen an der robots.txt vorab über dieses Tool zu testen und erst anschließend die Änderungen auf den Webserver zu übertragen. Über „Senden“ können Sie Google über eine Veränderung an der robots.txt informieren.