Indexierungskontrolle ist nicht genug!

Immer wieder liest man in den SEO-Blogs Artikel über das Thema „Indexierungskontrolle„. Der Konsens ist dabei, dass nur für Nutzer und Suchmaschinen relevante Seiten zur Indexierung durch Suchmaschinen freigegeben werden sollten. Demnach gehören Seiten, die rein für den Nutzer gedacht sind, beispielsweise Warenkörbe, paginierte Seiten (wobei es hier auch rel prev next Tag gibt) oder Loginbereiche, nicht in den Index und sollten demnach von der Indexierung ausgeschlossen werden.

So weit, so gut. Selbstverständlich ist die Indexierungskontrolle und die Steuerung der Suchmaschinenrobots sehr wichtig, doch mir geht das nicht weit genug. Denn: Durch Noindex- und Canonical-Regeln sowie Weiterleitungen bügelt man Probleme aus, anstatt sich darum zu kümmern, dass diese Notwendigkeit erst gar nicht entsteht.

Die weit größere Herausforderung ist es, die Spreu vom Weizen zu trennen und nur die URLs für Crawler (über interne Links) erreichbar zu machen, die wirklich für ihn von Relevanz sind. Bildlich gesprochen: Warum kippe ich 3 Liter Linkjuice auf eine URL, die ich dann wie auch immer wieder auf eine andere URL umleite? Die bessere Alternative wäre es, diese drei Liter direkt dem finalen Ziel zukommen zu lassen.

Google Bot braucht deine Hilfe!

So erhält man Informationen über den Indexierungsstatus

Neben dem bekannten „site:meinedomain.tld“-Operator ist besonders die Funktion „Indexierungsstatus“ innerhalb der Google Webmaster Tools dazu geeignet, diese Information einzusehen. In diesem Zusammenhang finde ich es etwas schade, dass Google den Status „Nicht ausgewählt“ entfernt hat. Denn mit dieser Angabe konnte man sehen, wie viele URLs es auf der Website gibt, die (in den Augen von Google) anderen URLs der Website entsprechen. Darunter sind z.B. Seiten mit unterschiedlichen Parameterausprägungen aufgeführt worden.

Natürlich sollte man für sich auch abschätzen können, wie viele URLs eigentlich indexiert sein sollten. Denn nur eine rein zahlenmäßige Betrachtung hilft nicht weiter. In einem älteren Beitrag haben wir dazu schonmal über dieses Thema geschrieben.

Wie verhindert man die Indexierung einer Seite?

Es gibt mehrere Möglichkeiten, mit denen man die Indexierung einer URL steuern kann:

Meta Robots-Angabe auf der URL

Die bekannteste Variante ist sicherlich das Setzen der „Noindex“-Anweisung:

<meta name="robots" content="noindex" />

Tipp: Mit dem Browser-Plugin Seerobots (Firefox | Chrome) kann man sich die Meta-Robots Angabe einer Seite anzeigen lassen, ohne den Quelltext durchsuchen zu müssen (hier nochmal unsere Aufstellung über SEO-Browserplugins).

Robots-Angabe über HTTP-Header (X-Robots)

Eine andere Variante ist das Setzen von Noindex über den HTTP-Header. Das ist besonders für nicht-HTMLdokumente wie .pdfs wichtig. Im HTTP-Header sieht das wie folgt aus:

HTTP/1.1 200 OK
Date: Tue, 14 February 2013 21:42:43 GMT
(…)
X-Robots-Tag: noindex
(…)

Auch hier hilft wiederum Seerobots, um die X-Robots-Tags auf einer Seite sehen zu können.

Das Canonical-Tag

Auch das Canonical-Tag kann zur Indexierungs- und Crawlingsteuerung herangezogen werden. Die Idee ist, dass mittels des Tags die URL markiert wird, die vom Webmaster bevorzugt gecrawlt und indexiert werden soll. Wichtig: Das Canonical-Tag ist keine strikte Handlungsanweisung, sondern nur eine Empfehlung.

<link rel="canonical" href="https://www.trustagents.de/" />

Eine Selbstreferenzierung ist dabei kein Problem. Neben der Implementierung im Head-Bereich des Quelltexts ist es auch möglich, per HTTP-Header die kanonische URL zu definieren (siehe Google Blog).

HTTP/1.1 200 OK
Date: Tue, 14 February 2013 21:42:43 GMT
(…)
Link: <https://www.trustagents.de/blog/indexierungskontrolle-ist-nicht-genug>
; rel="canonical"
(…)

Steuerung des Crawlings über die Parameterbehandlung

Über den Bereich „URL-Parameter“ in den Google bzw. über „URL-Parameter ignorieren“ in den Bing Webmaster Tools kann man das Crawling-Verhalten alternativ beeinflussen. Mehr Infos dazu gibt es in meinem kostenlosen Google Webmaster Tools E-Book.

Noindex per robots.txt

Was auch sehr gut (bei Google) funktioniert, ist das Setzen von Noindex über die robots.txt. Wer dies nicht glaubt, der sollte mal „Noindex: URL-die-nicht-indexiert-werden-soll“ in seine Robots-Datei eintragen und schauen, was passiert. Gerne auch die „Blockierte URL“-Funktion der Webmaster Tools zum Testen verwenden.

Die Anzahl an crawlbaren URLs minimieren

Es gibt einige Möglichkeiten, um die Anzahl an crawlbaren URLs zu verringen. Die Liste stellt dabei einen Auszug dar.

  • Weitergeleitete URLs nicht intern verlinken
  • Anzahl an paginierten Seiten reduzieren
  • In Blogs nicht wahlfrei Tag-Seiten erstellen
  • Google AdWords Landing-Pages per robots.txt sperren
  • Seiten konsolidieren, z.B. alte SEO Landingpages, die eigentlich denselben Inhalt anzeigen
  • Seiten wie Impressum und Kontakt zusammenlegen und per Sprungmarke verfügbar machen
  • Einzelne Links nachladen lassen
  • Links maskieren

Man darf natürlich nicht vergessen, dass der Google-Bot über irgendwo im Netz gefundenen Verweise weiterhin auf eine „maskierte“ URL kommen kann, doch hier kann dann mit Indexierungsregeln gearbeitet werden. Es geht beim Thema interne Verlinkung ja um die Steuerung der Nutzer und der Bots – warum sollte letzterer denn viele Wege zu URLs finden, die nachher von der Indexierung ausgeschlossen werden?

Per robots.txt blockierte URLs können zwar auch im Index landen (ohne den auf der URL definierten Seitentitel und ohne Description), das ist aber kein Problem. Durch den Crawling-Ausschluss soll ja Bandbreite gespart werden und das Crawling-Budget effizient verwendet werden – von daher ist ein „ich lasse alles crawlen“ in den meisten Fällen nicht der richtige Ansatz. Hierbei bitte bedenken: Es macht in den wenigsten Setups Sinn, URLs die intern gut verlinkt sind, per robots.txt vom Crawling auszuschließen.
Aufschluss darüber, ob der Bot wirklich alle (wichtigen) Seiten einer Domain regelmäßig crawlt, kann über eine Analyse der Logfiles geben.

Diesen Artikel teilen



Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Wir sind bekannt aus...

  • Werben und Verkaufen
  • Internet World Business
  • lead Digital
  • t3n
  • https://www.trustagents.de/wp-content/uploads/2016/07/5.png
  • Markt und Mittelstand
  • IHK
  • n-tv