AI-crawlers en je robots.txt: wie blokkeer je (en moet dat)?

crawlers-technische-seo6 min leestijd

Je robots.txt is geschreven voor Googlebot. Maar er kruipen nu 10+ AI-crawlers over je site die je misschien niet kent, niet wilt, of juist hard nodig hebt. Blokkeren is makkelijk, maar de consequentie is onzichtbaarheid in AI-search.

Inhoudsopgave

Welke AI-crawlers bestaan er?
Wat doen ze met je content?
Blokkeren vs. toelaten: het afwegingskader
Robots.txt voorbeelden
JavaScript-rendering en AI-crawlers
Veelgestelde vragen

Welke AI-crawlers bestaan er?

De belangrijkste AI-crawlers, met eigenaar en doel:

GPTBot (OpenAI): training
OAI-SearchBot (OpenAI): zoek-indexing voor ChatGPT Search
ChatGPT-User (OpenAI): haalt pagina's op wanneer een ChatGPT-gebruiker erom vraagt
ClaudeBot / anthropic-ai (Anthropic): training
PerplexityBot (Perplexity): zoek-indexing voor Perplexity
Google-Extended (Google): training
Bytespider (ByteDance): training
CCBot (Common Crawl): open dataset, indirect training

De vraag die je per crawler wilt beantwoorden: blokkeert hij je uit trainingsdata, uit een zoekindex, of uit antwoorden op live gebruikersvragen?

💡 Lens check: In de technische scan checken we je robots.txt op zeven AI-crawlers, waaronder GPTBot, OAI-SearchBot, ChatGPT-User, ClaudeBot en PerplexityBot. Zo zie je direct of je blokkeert waar je open wilt staan.

Wat doen ze met je content?

Er zijn drie soorten crawls, en het verschil bepaalt wat een blokkade je kost:

Training-crawls (GPTBot, ClaudeBot, Google-Extended): content wordt opgenomen in trainingsdata voor toekomstige modellen. Eenmalig/periodiek. Effect op AI-antwoorden is indirect en vertraagd.
Zoek-index-crawls (OAI-SearchBot, PerplexityBot): content wordt geïndexeerd voor de zoekfunctie van het platform. Bepaalt of je überhaupt in zoekresultaten van ChatGPT Search of Perplexity kunt verschijnen.
Ophalen op verzoek van een gebruiker (ChatGPT-User, Claude-User): de pagina wordt opgehaald op het moment dat iemand in een chat een vraag stelt. Direct effect op wat die gebruiker te zien krijgt.

Dit onderscheid is cruciaal: GPTBot blokkeren blokkeert je uit training. OAI-SearchBot blokkeren haalt je uit de zoekresultaten van ChatGPT Search. ChatGPT-User blokkeren blokkeert je uit antwoorden op live gebruikersvragen. PerplexityBot blokkeren maakt je onzichtbaar in Perplexity, direct.

Blokkeren vs. toelaten: het afwegingskader

Situatie	Aanbeveling	Reden
Je wilt zichtbaar zijn in AI-search	Toelaten (alle crawlers)	Blokkeren = onzichtbaar
Je hebt premium content achter paywall	Blokkeer training-crawlers, sta retrieval toe	Beschermt content, behoudt zichtbaarheid
Je hebt gevoelige content (intranet, klantdata)	Blokkeer alles + noindex	Veiligheid boven zichtbaarheid
Je bent uitgever en wilt compensatie	Blokkeer training-crawlers	Legale/commerciële keuze

Voor de meeste bedrijven (dienstverlening, SaaS, retail) is volledig toelaten de juiste keuze. Je wílt gevonden worden.

⚠️ Niet beloven: Toelaten garandeert niet dat je geciteerd wordt. Het verwijdert alleen een blokkade. Vergelijk het met een open winkeldeur: mensen kunnen binnenlopen, maar je moet nog steeds iets aantrekkelijks in de etalage hebben.

Robots.txt voorbeelden

Drie copy-paste-bare configuraties:

Maximale zichtbaarheid (recommended voor de meeste bedrijven):

User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

Selectief blokkeren (premium content beschermen):

User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: ChatGPT-User
Allow: /

Minimaal risico (training dicht, zoek- en gebruikersverkeer open):

User-agent: GPTBot
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Voorbeeld uit een audit

📋 Voorbeeld uit een audit

Klant: Tide & Co (premium fashion retail) Bevinding: Standaard WordPress robots.txt blokkeert geen enkele AI-crawler, maar de React-storefront rendert niet server-side. Crawlers zien lege pagina's ondanks "Allow". Impact: Effectief 0% crawlbare content ondanks open robots.txt Fix: Server-side rendering implementeren OF pre-rendered snapshots serveren aan bot user-agents

JavaScript-rendering en AI-crawlers

Robots.txt is niet het hele verhaal:

Google rendert JavaScript (met vertraging). AI-crawlers doen dit vaak NIET.
Een SPA (React/Vue/Angular) zonder SSR/SSG is effectief onzichtbaar voor AI-crawlers
Test-methode: curl -A "GPTBot" [url]. Als je een lege <div> ziet, ziet de crawler dat ook.
Oplossingen: SSR, SSG, pre-rendering, of dynamic rendering voor bot user-agents

Technische checklist

Check robots.txt op AI-crawler blocks (curl https://jouwsite.nl/robots.txt)
Test of je content zichtbaar is zonder JavaScript (curl -s [url] | grep [kernwoord])
Verifieer dat OAI-SearchBot, ChatGPT-User en PerplexityBot niet geblokkeerd zijn (zoek- en gebruikersgestuurde crawlers)
Check je sitemap.xml: is die actueel en bevat die alle relevante pagina's?
Overweeg een llms.txt bestand toe te voegen (zie llms.txt uitgelegd)
Monitor crawl-logs op AI-crawler bezoeken (check access logs voor user-agent strings)

Veelgestelde vragen

Moet ik alle AI-crawlers toelaten? Voor de meeste bedrijven: ja. Tenzij je specifieke redenen hebt om content te beschermen (paywall, gevoelig materiaal). Blokkeren = onzichtbaar. Het blijft een strategische keuze: maak hem bewust, niet per ongeluk.

Kan een AI-crawler mijn hele site kopiëren? Technisch wel, maar dat is geen verschil met hoe Google je site crawlt. De juridische discussie over AI-training en copyright loopt nog. Pragmatisch: als je zichtbaarheid in AI-search wilt, moet je openstaan.

Hoe weet ik of AI-crawlers mijn site bezoeken? Check je server access logs op de user-agent strings (GPTBot, OAI-SearchBot, ChatGPT-User, PerplexityBot, ClaudeBot). Of gebruik een tool zoals Screaming Frog met log file analysis.

Heeft robots.txt blokkeren juridische consequenties? Nee. Het is een technische instructie, geen juridisch document. AI-bedrijven respecteren robots.txt als protocol, maar het is geen contract.

Klaar voor een technische check?

Met een Visibility Scan duiken we in je technische setup: robots.txt, rendering, crawl-toegang, en structured data. Je krijgt een exact overzicht van wat AI-crawlers zien (en niet zien) op je site.

→ Meer over de Visibility Scan

Liever eerst een quick check? Een gratis Snapshot laat al zien of je überhaupt zichtbaar bent.

AI-crawlers en je robots.txt: wie blokkeer je (en moet dat)?

Inhoudsopgave

Welke AI-crawlers bestaan er?

Wat doen ze met je content?

Blokkeren vs. toelaten: het afwegingskader

Robots.txt voorbeelden

Voorbeeld uit een audit

JavaScript-rendering en AI-crawlers

Technische checklist

Veelgestelde vragen

Klaar voor een technische check?

Gerelateerde kennisbankartikelen

Gerelateerde artikelen

Wat is AI Search Visibility?

Waarom noemt ChatGPT mijn concurrent wel (en mij niet)?

llms.txt: het nieuwe robots.txt voor AI?