Was ist Crawl Budget?

Die Anzahl der Seiten, die auf einer Website von Google maximal gecrawlt werden, haben die Bezeichnung Crawl Budget.

Erklärung

Die Anzahl der Unterseiten die mit jeder URL gecrawlt werden legt Google selbst fest. Dies wird von Google bei allen Websites unterschiedlich gehandhabt. Wie Matt Cutts erklärt nimmt Google die Abhängigkeit der Websites vom PageRank als Basis. Das Crawl Budget richtet sich nach dem PageRank – das Crawl Budget wird größer wenn der PageRank hoch ist. Die Häufigkeit von tiefgehendem Crawl und wie oft von einer Website die wichtigen Unterseiten gecrawlt werden wird vom Crawl Budget bestimmt.

Crawl Budget und Index Budget – zwei verschiedene Themen

Die Begriffe Crawl Budget und Index Budget werden von Google unterschiedlich bewertet. Index Budget legt die Anzahl der URLs, die indexiert werden können, fest. Kurz die Verdeutlichung des Unterschieds: Beinhaltet eine Website viele Seiten mit dem Fehlercode „404-Fehlercode“ wird jede dieser Seiten das Crawl Budget belasten. Eine Indexierung ist aber aufgrund der Fehlermeldung nicht möglich; eine vollständige Ausschöpfung vom Index Budget gibt es daher nicht.

Schwierigkeiten

Schwierigkeiten beim Crawl Budget ergeben sich für Website, die eine große Anzahl an Unterseiten beinhalten. Üblicherweise crawlt Google nicht alle Unterseiten, sondern nur eine gewisse Anzahl. Die Folge ist, dass nicht alle Unterseiten gecrawlt und damit nicht indexiert werden. Die Folge ist, dass dem Traffic, dem Seitentreiber die nicht indexierten Seiten entgehen.

Auswirkungen auf die Suchmaschinenoptimierung

Mit der Crawl Optimization bildete sich, bezogen auf der o. g. Grundlage, ein Teilbereich. Dieser Teilbereich will den Googlebot so steuern, dass eine sinnvolle Ausnutzung vom vorhandenen Crawl Budget erfolgt und die Seiten, die eine große Bedeutung und von hochwertiger Qualität sind für den Webseitenbetreiber indexiert werden. Doch im ersten Schritt ist die Identifikation der untergeordneten Seiten, die wenig Bedeutung haben, wichtig. In der Regel sind dies fehlerhafte Seiten mit einem „404-Errorcode“, mit einem sehr geringen Informationsgehalt und / oder einem minderwertigem Content. Vom Crawling werden diese Seiten nicht berücksichtigt. Damit bleibt für hochwertige Unterseiten das Crawl Budget verfügbar. Danach erfolgt die Bearbeitung der wichtigen Unterseiten, damit diese bevorzugt vom Spider gecrawlt werden. Bei der Crawl Optimization sind verschiedene Maßnahmen möglich:

  • Die Architektur der Seiten so zu realisieren, dass eine  flache Seitenarchitektur entsteht. Wichtig ist, dass zu den Unterseiten kurze Wege führen und diese mit wenigen Klicks erreichbar sind.
  • Häufig gecrawlte Seiten mit Seiten, die viele Backlinks beinhalten intern verlinken.
  • Für die wichtigen Unterseiten einer Website eine optimale interne Verlinkung schaffen.
  • Unwichtige Seiten mittels robots.txt vom Crawling ausschließen. Dies können bspw. Seiten mit Log-in, Bildern oder Kontaktformularen sein.
  • Mit Metadaten Seiten wie nofollow oder noindex vom Crawling ausschließen.
  • Für die wichtigsten Unterseiten einer Website eine URL-Liste in Verbindung mit einer  XML-Sitemap  erstellen und anbieten
  • Verbessert die Crawl Optimization das Angebot der indexierten und gecrawlten und Seiten, kann sich das Ranking verbessern. Fakt ist, dass die Seiten, die ein gutes Ranking haben, deutlich öfter gecrawlt werden. Das bringt für die Seite und den Webseitenbetreiber Vorteile mit sich.