Crawlbudget optimaliseren voor grote sites

technical-seo10 min leestijd

Crawlbudget is het aantal pagina's dat Google dagelijks op je site kan en wil crawlen. Voor de meeste kleine sites is het irrelevant. Maar heb je meer dan 10.000 URL's, dynamische content, of een e-commerce catalogus met filters? Dan bepaalt je crawlbudget hoe snel nieuwe pagina's worden ontdekt en geïndexeerd.

Een groot deel van de crawl-requests gaat naar URL's die geen prioriteit hebben: filterpagina's, paginering, en duplicaten. Botify noemt dit "crawl waste" en rapporteert dat slechts 40% van strategische URL's maandelijks door Google wordt gecrawld. In deze gids: hoe crawlbudget werkt, hoe je het meet, en 7 concrete manieren om het te optimaliseren.

Inhoudsopgave

Wat is crawlbudget?
Crawl rate limit vs. crawl demand
Wanneer is crawlbudget relevant?
Hoe je crawl-issues opspoort
7 manieren om crawlbudget te optimaliseren
AI-bots en je crawlbudget
Wat je niet moet doen
Veelgestelde vragen

Wat is crawlbudget?

Crawlbudget is het totale aantal URL's dat Googlebot per dag op je site kan en wil crawlen. Google definieert het als de combinatie van twee factoren: crawl capacity (hoeveel je server aankan) en crawl demand (hoeveel Google wil ophalen).

Het is geen vast getal dat je ergens kunt opzoeken. Het fluctueert dagelijks op basis van je serversnelheid, de hoeveelheid nieuwe content, en hoe waardevol Google je pagina's vindt. Een site met snelle servers en veel kwalitatieve content krijgt meer crawlbudget dan een trage site met veel thin pages.

Eén ding is zeker: het is eindig. En elke request die naar een irrelevante URL gaat (een filterpage, een redirect chain, een soft-404) is een request die niet naar je belangrijke pagina's gaat.

Crawl rate limit vs. crawl demand

Google splitst crawlbudget in twee componenten. Het verschil begrijpen is essentieel voor de juiste optimalisatie.

Crawl rate limit (capaciteitslimiet)

De crawl rate limit is het maximale aantal gelijktijdige verbindingen dat Google gebruikt om je site te crawlen, plus de vertraging tussen requests. Dit getal is dynamisch:

Situatie	Effect op crawl rate
Server reageert snel (<200ms)	Limiet gaat omhoog
Server wordt trager	Limiet gaat omlaag
Server geeft 5xx errors	Limiet daalt fors
Site-eigenaar verlaagt limiet in Search Console	Google respecteert dit

Je kunt de crawl rate limit verhogen door je server sneller te maken. Dat is de enige directe hefboom.

Crawl demand (crawl-vraag)

Crawl demand bepaalt hoeveel Google wil crawlen, ongeacht de capaciteit. Factoren:

Populariteit: pagina's met meer externe links en traffic krijgen meer crawl-aandacht
Versheid: recent gewijzigde pagina's worden vaker gecrawld
Site-grootte: meer pagina's betekent meer te crawlen
URL-kwaliteit: Google leert welke URL-patronen waardevolle content bevatten

Zelfs als je server razendsnel is: als Google je content niet waardevol vindt, blijft de crawl demand laag.

Wanneer is crawlbudget relevant?

Niet elke site hoeft zich druk te maken over crawlbudget. Google's eigen documentatie is hier duidelijk: voor de meeste sites is crawlbudget geen probleem.

Crawlbudget is relevant als:

Je site meer dan 10.000 unieke URL's heeft
Je dagelijks of wekelijks veel nieuwe pagina's publiceert
Je dynamische content genereert (filters, zoekresultaten, faceted navigation)
Je grote delen van je site ziet die niet geïndexeerd worden in Search Console
Je log files laten zien dat Googlebot dezelfde URL's herhaaldelijk crawlt

Crawlbudget is NIET relevant als:

Je site minder dan 1.000 pagina's heeft
Je content zelden wijzigt
Al je pagina's geïndexeerd zijn in Search Console

Hoe je crawl-issues opspoort

Google Search Console: Crawl Stats

Ga naar Instellingen > Crawlerstatistieken in Search Console. Hier zie je:

Totaal aantal crawl-requests per dag
Gemiddelde responstijd
Percentage 200, 301, 404, en 5xx responses
Crawl-requests per bestandstype (HTML, JS, CSS, afbeeldingen)

Rode vlag: als meer dan 10% van je crawl-requests naar niet-200 responses gaat, verlies je crawlbudget aan errors.

Log file analyse

Server logs zijn de ultieme bron van waarheid. Ze tonen exact welke URL's Googlebot bezoekt, hoe vaak, en met welke response code.

# Googlebot-requests filteren uit access logs
grep "Googlebot" access.log | awk '{print $7}' | sort | uniq -c | sort -rn | head -50

Segmenteer de data per paginatype. Een typische verdeling voor een e-commerce site:

Paginatype	% van crawl-requests	Gewenst?
Productpagina's	35%	Ja
Categoriepagina's	15%	Ja
Filterpagina's	30%	Nee
Blog/content	10%	Ja
Overig (zoek, tags, feeds)	10%	Nee

Als 30% van je crawlbudget naar filterpagina's gaat, is dat je eerste optimalisatie-target.

Screaming Frog

Crawl je eigen site met Screaming Frog en vergelijk de gevonden URL's met je log file data. URL's die Screaming Frog vindt maar Googlebot niet bezoekt, zijn waarschijnlijk te diep in je site-architectuur begraven.

7 manieren om crawlbudget te optimaliseren

1. Sitemap segmentatie

Splits je sitemap op per paginatype. Eén grote sitemap.xml met 50.000 URL's geeft Google geen context over prioriteit. Segmentatie helpt Google je site-structuur begrijpen.

<!-- sitemap-index.xml -->
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>https://example.nl/sitemap-products.xml</loc>
    <lastmod>2026-05-03</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.nl/sitemap-categories.xml</loc>
    <lastmod>2026-05-01</lastmod>
  </sitemap>
  <sitemap>
    <loc>https://example.nl/sitemap-blog.xml</loc>
    <lastmod>2026-05-03</lastmod>
  </sitemap>
</sitemapindex>

Voor handler.gg, een padelbaan-booking platform dat Hiveminds bouwde, pasten we sitemap-segmentatie toe per stad. Door per regio een eigen sitemap te genereren verbeterde de crawl-efficiency met ongeveer 40%. Google ontdekte nieuwe baanpagina's binnen 24 uur in plaats van 5-7 dagen.

Meer over sitemaps: XML sitemaps: best practices

2. Internal linking depth verkorten

Elke belangrijke pagina moet bereikbaar zijn binnen 3-4 klikken vanaf de homepage. Pagina's op 5+ klikken diepte worden aanzienlijk minder gecrawld.

Concreet:

Voeg breadcrumbs toe (goed voor structuur en voor gebruikers)
Link vanuit categoriepagina's direct naar subcategorieën
Gebruik gerelateerde content-blokken op productpagina's
Maak een HTML-sitemap voor diepe content

3. Low-value pages elimineren of blokkeren

Filter-URL's, zoekresultaatpagina's, tag-pagina's, en paginering zijn typische crawl-waste bronnen. Bij grote e-commerce sites genereren gefacetteerde navigatie-URL's (kleur, maat, prijs, merk) vaak meer URL's dan de productpagina's zelf. Googlebot crawlt die filter-URL's trouw, ten koste van de pagina's die er echt toe doen.

Aanpak:

Gebruik noindex, follow op low-value pagina's (niet robots.txt, die voorkomt crawling maar niet indexering)
Gebruik rel="canonical" om filtervarianten naar de hoofdpagina te wijzen
Overweeg JavaScript-gebaseerde filtering die geen nieuwe URL's genereert

4. Robots.txt strategisch gebruiken

Robots.txt blokkeert crawling, niet indexering. Gebruik het om grote secties van je site af te schermen die Googlebot niet hoeft te bezoeken: admin-panels, interne zoekresultaten, staging-pagina's.

User-agent: Googlebot
Disallow: /search/
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Allow: /

Sitemap: https://example.nl/sitemap-index.xml

Gebruik robots.txt niet voor pagina's die je uit de index wilt houden. Daarvoor gebruik je <meta name="robots" content="noindex">.

Volledige handleiding: Robots.txt: complete handleiding

5. Redirect chains opruimen

Elke redirect in een chain kost een extra crawl-request. Een chain van A → B → C → D gebruikt 3 requests om bij de eindbestemming te komen. Googlebot volgt maximaal 10 redirects, maar elke stap verspilt budget.

Fix: vervang chains door directe redirects. A → D in plaats van A → B → C → D.

# Redirect chains opsporen met curl
curl -sIL https://example.nl/old-page | grep -i "location:"

Check na elke migratie of redesign op nieuwe chains. Ze ontstaan bijna altijd bij opeenvolgende redesigns.

6. Server response time onder 200ms

Google's crawl rate limit is direct gekoppeld aan serversnelheid. Een server die consistent onder 200ms reageert, krijgt significant meer crawlbudget dan een server die 1-2 seconden nodig heeft.

Quick wins:

Implementeer server-side caching (Redis, Varnish)
Gebruik een CDN voor statische assets
Optimaliseer database-queries (de #1 oorzaak van trage responses)
Vermijd blocking third-party scripts in server-side rendering

7. JavaScript rendering optimaliseren

Single Page Applications (React, Vue, Angular) zonder server-side rendering zijn een crawlbudget-killer. Googlebot rendert JavaScript, maar met een vertraging van seconden tot dagen. En het kost Google extra resources per pagina.

Oplossingen:

Server-Side Rendering (SSR) voor dynamische content
Static Site Generation (SSG) voor content die niet per request verandert
Hybrid rendering (Next.js, Astro) voor het beste van beide

Meer hierover: JavaScript SEO: rendering en indexering

AI-bots en je crawlbudget

Volgens Cloudflare-data uit 2025 maken AI-bots inmiddels 4,2% uit van alle HTML-requests op het web. GPTBot groeide met 305% in een jaar tijd. PerplexityBot steeg met 157.000%. Dit is extra crawl-load bovenop Googlebot.

Voor handler.gg zagen we 5.191 AI-crawler requests in 9 dagen. Dat is significant voor een site met ~2.000 pagina's. Als je server dit niet aankan, beïnvloedt het je Googlebot crawl rate limit.

Wat je kunt doen:

Monitor AI-bot traffic via server logs (zoek op GPTBot, ClaudeBot, PerplexityBot)
Als AI-bots je server belasten: gebruik crawl-delay in robots.txt (werkt voor sommige AI-bots, niet voor Googlebot)
Blokkeer geen AI-bots als je AI-zichtbaarheid wilt. Zie AI-crawlers en je robots.txt voor het afwegingskader

Hiveminds Lens analyseert welke AI-bots je site bezoeken en of ze je content correct kunnen lezen. Dat is de overlap tussen crawlbudget en AI Search Visibility.

Wat je niet moet doen

Robots.txt gebruiken voor noindex. Robots.txt voorkomt crawling, niet indexering. Een pagina die in robots.txt geblokkeerd staat maar elders gelinkt wordt, kan alsnog in de index verschijnen (zonder content, maar met URL).

Crawl-delay instellen voor Googlebot. Google negeert de crawl-delay directive. Alleen Bing en sommige AI-bots respecteren het. Wil je Google's crawl rate beperken? Doe het via Search Console.

Alle parameters blokkeren. Sommige parameters zijn nodig voor tracking (UTM) maar genereren geen nieuwe content. Gebruik rel="canonical" om Google te vertellen dat ?utm_source=x dezelfde pagina is als de schone URL.

Je hele site noindexen om crawlbudget te "sparen." Dat is alsof je je winkel sluit om de energierekening te verlagen. De oplossing is selectief zijn, niet alles blokkeren.

Veelgestelde vragen

Hoe weet ik hoeveel crawlbudget mijn site krijgt? Check Crawlerstatistieken in Google Search Console. Het exacte getal fluctueert dagelijks, maar je ziet het gemiddelde over 90 dagen. Voor een preciezer beeld: analyseer je server logs en tel het aantal Googlebot-requests per dag.

Helpt een snellere server echt voor crawlbudget? Ja. Google's documentatie bevestigt dat de crawl capacity limit stijgt als je server consistent snel reageert. Een responstijd onder 200ms is de benchmark. Boven de 500ms daalt het crawlbudget merkbaar.

Is crawlbudget relevant voor AI-zoekmachines? Indirect. AI-bots (GPTBot, ClaudeBot, PerplexityBot) hebben hun eigen crawl-patronen en beleid. Ze zijn niet gebonden aan Google's crawlbudget. Maar als AI-bots je server belasten, kan dat de responstijd voor Googlebot verslechteren, wat je Google-crawlbudget indirect verlaagt.

Hoe vaak moet ik mijn crawlbudget monitoren? Wekelijks een blik op Crawl Stats in Search Console is voldoende voor de meeste sites. Bij grote sites (100.000+ pagina's) of na een migratie: dagelijks monitoren en log files maandelijks analyseren.

Mijn site heeft 500 pagina's. Moet ik me zorgen maken? Nee. Bij 500 pagina's crawlt Google je volledige site moeiteloos, zelfs met een laag crawlbudget. Focus op content-kwaliteit en technische basis, niet op crawlbudget.

Volgende stap

Crawlbudget is een technische basis. Wil je weten of je site niet alleen door Google maar ook door AI-systemen goed gelezen wordt? Hiveminds Lens combineert technische SEO-analyse met AI-zichtbaarheid.

→ Bekijk Hiveminds Lens