Crawlinganalyse mit Google Webmaster Tools

Warum immer nur über Indexierungsmanagement spechen, wenn das Thema Crawlingoptimierung den viel größeren Hebel darstellt? Über das Thema Crawlingoptimierung habe ich hier im Blog bereits vor einiger Zeit geschrieben (siehe „How-To: Crawling verbessern„) und weshalb eine Kontrolle des Indexierungsstatus Sinn macht, wurde ebenfalls thematisiert.

Heute möchte ich mich kurz und bündig damit auseinandersetzen, wie die Google Webmaster Tools dazu verwendet werden können, das Crawling der eigenen Website durch die Suchmaschine zu analysieren, um dieses anschließend zu optimieren.

Webseitencrawling: So sieht der Prozess aus

In einem Google-Hangout war ich mal so frei, einen Screenshot zum Thema Duplicate-Content Handling bzw. auch Crawling- bzw. Indexierungsvorgang zu machen. Leider fehlen weitere Anmerkungen zu dem Screenshot, aber interessant sieht dieser allemal aus 🙂

Google Crawling Prozess

Inhalte können nur dann über die Google-Suche gefunden werden, wenn deren URL

  • bekannt ist
  • erreichbar ist
  • nicht vom Crawling ausgeschlossen wurde
  • nicht gebannt wurde
  • und indexiert werden darf

Crawling in Webmaster Tools: Basics

Erste Anlaufstellen für eine Analyse des Crawlings sind zum einen die Crawling-Statistiken und zum anderen der Indexierungsstatus. Warum dieser? Weil uns Google hier auch sagt, wie viele einzigartige URLs jemals auf dem Webauftritt gefunden wurden.

Crawling-Statistiken

google-webmaster-tools-crawling-statistiken

Was wir hier sehen ist

  • Wie viele URLs am Tag gecrawlt wurden
  • Wie viele Daten dabei übertragen wurden
  • Wie lange das herunterladen der Seiten gedauert hat

In der Regel sieht man einen direkten Zusammenhang zwischen Crawlingdauer und Anzahl der pro Tag gecrawlten Seiten: Je schneller der Crawlingvorgang ist, desto mehr Seiten werden pro Tag gecrawlt.

Indexierungsstatus

Beim Indexierungsstatus interessiert uns für die Crawling-Analyse die Anzahl der indexierten Seiten nicht so sehr. Vielmehr geht es uns um die „jemals gecrawlten URLs“.

Google Webmaster Tools Indexierungsstatus

An diesem Chart sieht man das eher unschöne Problem: Es entstehen im großen Maßstab neue, einzigartige URLs, aber scheinbar sind das vor allem URLs, die aus unterschiedlichen Gründen (bewusst) nicht indexiert werden sollen oder auch werden.

Das ideale Szenario für einen Suchmaschinenoptimierer wäre es, wenn die Datenpunkte für „jemals gecrawlt“ und „indexierte URLs“ 1:1 identisch wären. Offensichtlich liegt bei der Domain ein Optimierungspotenzial hinsichtlich der URL-Strukturen bzw. des Crawlings vor.

Wagen wir uns jetzt an die Analyse: welche URLs werden von Google überhaupt gecrawlt.

Crawlinganalyse mit Webmaster Tools Funktionen

Nachdem wir jetzt schon wissen, wie viele URLs Google pro Tag crawlt und wie viele einzigartige URLs auf dem Webauftritt entdeckt wurden, machen wir uns doch am besten Mal auf deren Spur. Die Serverlogfiles wären natürlich auch eine ganz exzellente Quelle, aber das ist nicht Thema dieses Beitrags 🙂 Also: Welche Funktionen der Google Webmaster Tools helfen uns dabei, Rückschlüsse auf die gecrawlten Webseiten zu ziehen?

Da hätten wir:

  • Crawling-Fehler
  • URL-Parameter
  • Interne Links
  • Suchanfragen
  • Content-Keywords
  • HTML-Verbesserungen
  • Strukturierte Daten
  • Google Webmaster Tools Nachrichten

Letztendlich sind alle Funktionen, die URLs des eigenen Webauftritts innerhalb der Google Webmaster Tools benennen dazu geeignet, uns bei der Crawling-Analyse behilflich zu sein. Denn wenn Google weiß, dass auf einer URL z.B. ein Fehler, ein Wort, strukturierte Daten oder auch ein Zugriff über die Google-Suche zu verzeichnen war, muss Google diese URL-Strukturen auch analysiert haben.

Crawlinganalyse mit „URL-Parameter“

Schauen wir uns beispielhaft die „URL-Parameter“-Funktion an. Auf der Übersichtsseite weißt Google bereits darauf hin, welche Parameter gefunden wurden und wie viele URLs einen bestimmten Parameter enthalten. Durch einen Klick auf „Bearbeiten“ zeigt Google einige der gecrawlten und Parameter-verwendenden URLs an.

URL Parameter Google Webmaster Tools

Abschließend noch kurz zum Punkt „Google Webmaster Tools Nachrichten“: Bei sehr großen Seiten schickt Google von Zeit zu Zeit eine Mitteilung, dass auf dem Webauftritt eine extrem hohe Anzahl an URLs gefunden wurde. Dankenswerterweise listet Google innerhalb der Nachricht auch gleich URLs auf, die beim Crawlingvorgang entdeckt wurden:

Extrem hohe Anzahl URLs Webmaster Tools

Fazit

Ihr wollt wissen, was der Googlebot auf eurer Website crawlt? Dann schaut – wenn ihr die Logfiles nicht zur Hand habt – einfach in die Webmaster Tools hinein! Ihr werdet erstaunt sein, was man dort alles zu Gesicht bekommt.

Diesen Artikel teilen



Kommentare (8)

  • Enis Antworten

    Bringt dieses Meta Tag revisit after 1 day eigentlich etwas? Ich denke, das regelmäßige Updaten mit Hilfe von eigenen gut strukturierten Inhalten ist da wichtiger für den Google Bot oder?

    Gruß, Enis

    • Stephan Czysch Antworten

      Ehrlich gesagt nicht getestet, aus dem Bauchgefühl heraus bezweifel ich einen Effekt. Würde es eher über eine XML-Sitemap mit aktualisierten Last-mod Date probieren

  • Stephan Antworten

    Stephan,

    kann es sein, dass mit den neusten Änderungen im WMT bereits vorhandene Einstellungen in der Parameterbehandlung entfernt bzw. überschrieben wurden?
    Bei uns steht bei jedem Parameter neuerdings „Entscheidung dem Googlebot überlassen“.

    Zwar sind die Parameter nirgends verlinkt, aber da der Bot ja weiß, das es sich um Magento handelt, fügt er die Parameter wild an bestehende URLs an.

    • Stephan Czysch Antworten

      Hi Stephan 🙂

      etwas verspätet meine Antwort. Das sollte eigentlich nicht der Fall sein und habe ich auch nicht beobachten können.

      Google zieht sich auch teilweise IDs aus Input-Feldern und hängt diese an URLs dran – vielleicht ist das bei euch auch der Fall. Hast du mal in die Logfiles geschaut?

  • Thomas Wagner Antworten

    Hi Stephan,

    eine Frage zu den Parametern bei Google Webmastertools. Wenn ich da rein schaue sehe ich das Google keine Parameter gefunden hat. Ist das grundsätzlich schlecht? Wenn ja wie kann ich das ändern?

    • Stephan Czysch Antworten

      Hallo Thomas,

      nein, das ist nicht schlecht. Parameter werden zu unterschiedlichen Zwecken eingesetzt und z.B. ?gender=1 könnte dazu führen, dass nur Produkte für Herren angezeigt werden.

      Sofern du keine URL-Parameter innerhalb deiner Website benötigst, findet Google auch entsprechend keine.

  • Thomas Wagner Antworten

    Hi Stephan,

    danke für die Info. Würde es denn überhaupt Sinn machen wenn ich Parameter einsetzen würde? Und wenn, ja wo und wie kann ich wissen was für Parameter ich einfügen muss damit zb. meine Seite besser gecrawlt werden kann. Oder besser lassen wenn keine Crawling Probleme vorhanden sind? Danke

    • Stephan Czysch Antworten

      Ob du Parameter einsetzt oder nicht liegt an dir. Wenn du dies machst, sollte der Parameter natürlich auch den Seiteninhalt ändern. Wenn das nicht der Fall ist, spar dir lieber gleich die Parameter

Hinterlasse einen Kommentar

Ihre E-Mail-Adresse wird nicht veröffentlicht.

Wir sind bekannt aus...

  • Werben und Verkaufen
  • Internet World Business
  • lead Digital
  • t3n
  • https://www.trustagents.de/wp-content/uploads/2016/07/5.png
  • Markt und Mittelstand
  • IHK
  • n-tv