Was ist Crawl Budget?
Die Anzahl der Seiten, die auf einer Website von Google maximal gecrawlt werden, haben die Bezeichnung Crawl Budget.
Erklärung
Die Anzahl der Unterseiten die mit jeder URL gecrawlt werden legt Google selbst fest. Dies wird von Google bei allen Websites unterschiedlich gehandhabt. Wie Matt Cutts erklärt nimmt Google die Abhängigkeit der Websites vom PageRank als Basis. Das Crawl Budget richtet sich nach dem PageRank – das Crawl Budget wird größer wenn der PageRank hoch ist. Die Häufigkeit von tiefgehendem Crawl und wie oft von einer Website die wichtigen Unterseiten gecrawlt werden wird vom Crawl Budget bestimmt.
Crawl Budget und Index Budget – zwei verschiedene Themen
Die Begriffe Crawl Budget und Index Budget werden von Google unterschiedlich bewertet. Index Budget legt die Anzahl der URLs, die indexiert werden können, fest. Kurz die Verdeutlichung des Unterschieds: Beinhaltet eine Website viele Seiten mit dem Fehlercode „404-Fehlercode“ wird jede dieser Seiten das Crawl Budget belasten. Eine Indexierung ist aber aufgrund der Fehlermeldung nicht möglich; eine vollständige Ausschöpfung vom Index Budget gibt es daher nicht.
Schwierigkeiten
Schwierigkeiten beim Crawl Budget ergeben sich für Website, die eine große Anzahl an Unterseiten beinhalten. Üblicherweise crawlt Google nicht alle Unterseiten, sondern nur eine gewisse Anzahl. Die Folge ist, dass nicht alle Unterseiten gecrawlt und damit nicht indexiert werden. Die Folge ist, dass dem Traffic, dem Seitentreiber die nicht indexierten Seiten entgehen.
Auswirkungen auf die Suchmaschinenoptimierung
Mit der Crawl Optimization bildete sich, bezogen auf der o. g. Grundlage, ein Teilbereich. Dieser Teilbereich will den Googlebot so steuern, dass eine sinnvolle Ausnutzung vom vorhandenen Crawl Budget erfolgt und die Seiten, die eine große Bedeutung und von hochwertiger Qualität sind für den Webseitenbetreiber indexiert werden. Doch im ersten Schritt ist die Identifikation der untergeordneten Seiten, die wenig Bedeutung haben, wichtig. In der Regel sind dies fehlerhafte Seiten mit einem „404-Errorcode“, mit einem sehr geringen Informationsgehalt und / oder einem minderwertigem Content. Vom Crawling werden diese Seiten nicht berücksichtigt. Damit bleibt für hochwertige Unterseiten das Crawl Budget verfügbar. Danach erfolgt die Bearbeitung der wichtigen Unterseiten, damit diese bevorzugt vom Spider gecrawlt werden. Bei der Crawl Optimization sind verschiedene Maßnahmen möglich:
- Die Architektur der Seiten so zu realisieren, dass eine flache Seitenarchitektur entsteht. Wichtig ist, dass zu den Unterseiten kurze Wege führen und diese mit wenigen Klicks erreichbar sind.
- Häufig gecrawlte Seiten mit Seiten, die viele Backlinks beinhalten intern verlinken.
- Für die wichtigen Unterseiten einer Website eine optimale interne Verlinkung schaffen.
- Unwichtige Seiten mittels robots.txt vom Crawling ausschließen. Dies können bspw. Seiten mit Log-in, Bildern oder Kontaktformularen sein.
- Mit Metadaten Seiten wie nofollow oder noindex vom Crawling ausschließen.
- Für die wichtigsten Unterseiten einer Website eine URL-Liste in Verbindung mit einer XML-Sitemap erstellen und anbieten
- Verbessert die Crawl Optimization das Angebot der indexierten und gecrawlten und Seiten, kann sich das Ranking verbessern. Fakt ist, dass die Seiten, die ein gutes Ranking haben, deutlich öfter gecrawlt werden. Das bringt für die Seite und den Webseitenbetreiber Vorteile mit sich.
Dirk Schiff ist Head of SEO bei der AnalyticaA GmbH, Master (MBA) im Bereich Digital Business mit Schwerpunkt Search Engine (SEO und (SEA), Journalist (FJS) und Online Marketing Experte. Er optimiert seit über 18 Jahren Internetseiten. Er leitete bei stellenanzeigen.de den SEO-Bereich Inhouse, sowie für 40 Verlagsportale.