AI-crawlers en je robots.txt — wie blokkeer je (en moet dat)?
Je robots.txt is geschreven voor Googlebot. Maar er kruipen nu 10+ AI-crawlers over je site die je misschien niet kent, niet wilt, of juist hard nodig hebt. Blokkeren is makkelijk, maar de consequentie is onzichtbaarheid in AI-search.
Inhoudsopgave
- Welke AI-crawlers bestaan er?
- Wat doen ze met je content?
- Blokkeren vs. toelaten: het afwegingskader
- Robots.txt voorbeelden
- JavaScript-rendering en AI-crawlers
- Veelgestelde vragen
Welke AI-crawlers bestaan er?
Inhoud: Complete tabel van bekende AI-crawlers met user-agent string, eigenaar, doel (training vs. real-time retrieval), en crawl-frequentie. Minimaal behandelen:
- GPTBot (OpenAI): training + retrieval
- ChatGPT-User (OpenAI): real-time browsing bij chat
- ClaudeBot / anthropic-ai (Anthropic): training
- PerplexityBot (Perplexity): real-time retrieval voor antwoorden
- Google-Extended (Google AI): training
- Bytespider (ByteDance): training
- CCBot (Common Crawl): open dataset, indirect training
Noteer per crawler: blokkeert het je uit trainingsdata, uit real-time antwoorden, of beide?
💡 Lens check: In een Lens-audit scannen we je huidige robots.txt en vergelijken welke crawlers je blokkeert versus je top-3 concurrenten. Vaak zien we dat concurrenten bewust open staan waar onze klant per ongeluk blokkeert.
Wat doen ze met je content?
Inhoud: Uitleg van het verschil tussen:
- Training-crawls: content wordt opgenomen in trainingsdata voor toekomstige modellen. Eenmalig/periodiek. Effect op AI-antwoorden is indirect en vertraagd.
- Retrieval-crawls: content wordt real-time opgehaald om een specifiek antwoord te genereren. Continu. Direct effect op wat een gebruiker te zien krijgt.
Leg uit waarom dit onderscheid cruciaal is: GPTBot blokkeren blokkeert je uit training. ChatGPT-User blokkeren blokkeert je uit real-time resultaten. PerplexityBot blokkeren maakt je onzichtbaar in Perplexity, direct.
Blokkeren vs. toelaten: het afwegingskader
Inhoud: Beslisschema in de vorm van een tabel of flowchart:
| Situatie | Aanbeveling | Reden |
|---|---|---|
| Je wilt zichtbaar zijn in AI-search | Toelaten (alle crawlers) | Blokkeren = onzichtbaar |
| Je hebt premium content achter paywall | Blokkeer training-crawlers, sta retrieval toe | Beschermt content, behoudt zichtbaarheid |
| Je hebt gevoelige content (intranet, klantdata) | Blokkeer alles + noindex | Veiligheid boven zichtbaarheid |
| Je bent uitgever en wilt compensatie | Blokkeer training-crawlers | Legale/commerciële keuze |
Maak expliciet: voor de meeste bedrijven (dienstverlening, SaaS, retail) is volledig toelaten de juiste keuze. Je wílt gevonden worden.
⚠️ Niet beloven: Toelaten garandeert niet dat je geciteerd wordt. Het verwijdert alleen een blokkade. Vergelijk het met een open winkeldeur: mensen kunnen binnenlopen, maar je moet nog steeds iets aantrekkelijks in de etalage hebben.
Robots.txt voorbeelden
Inhoud: Concrete, copy-paste-bare robots.txt configuraties voor 3 scenario's:
- Maximale zichtbaarheid (recommended voor de meeste bedrijven):
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
- Selectief blokkeren (premium content beschermen):
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Allow: /
User-agent: ChatGPT-User
Allow: /
- Minimaal risico (alles dicht behalve retrieval):
User-agent: GPTBot
Disallow: /
User-agent: ChatGPT-User
Allow: /
User-agent: PerplexityBot
Allow: /
Voorbeeld uit een audit
📋 Voorbeeld uit een audit
Klant: Tide & Co (premium fashion retail) Bevinding: Standaard WordPress robots.txt blokkeert geen enkele AI-crawler, maar de React-storefront rendert niet server-side. Crawlers zien lege pagina's ondanks "Allow". Impact: Effectief 0% crawlbare content ondanks open robots.txt Fix: Server-side rendering implementeren OF pre-rendered snapshots serveren aan bot user-agents
JavaScript-rendering en AI-crawlers
Inhoud: Uitleg waarom robots.txt niet het hele verhaal is:
- Google rendert JavaScript (met vertraging). AI-crawlers doen dit vaak NIET.
- Een SPA (React/Vue/Angular) zonder SSR/SSG is effectief onzichtbaar voor AI-crawlers
- Test-methode:
curl -A "GPTBot" [url]. Als je een lege<div>ziet, ziet de crawler dat ook. - Oplossingen: SSR, SSG, pre-rendering, of dynamic rendering voor bot user-agents
Technische checklist
- Check robots.txt op AI-crawler blocks (
curl https://jouwsite.nl/robots.txt) - Test of je content zichtbaar is zonder JavaScript (
curl -s [url] | grep [kernwoord]) - Verifieer dat ChatGPT-User en PerplexityBot niet geblokkeerd zijn (retrieval-crawlers)
- Check je sitemap.xml: is die actueel en bevat die alle relevante pagina's?
- Overweeg een
llms.txtbestand toe te voegen (zie llms.txt uitgelegd) - Monitor crawl-logs op AI-crawler bezoeken (check access logs voor user-agent strings)
Veelgestelde vragen
Moet ik alle AI-crawlers toelaten? Voor de meeste bedrijven: ja. Tenzij je specifieke redenen hebt om content te beschermen (paywall, gevoelig materiaal). Blokkeren = onzichtbaar. Content notes: nuanceer dat dit een strategische keuze is.
Kan een AI-crawler mijn hele site kopiëren? Technisch wel, maar dat is geen verschil met hoe Google je site crawlt. De juridische discussie over AI-training en copyright loopt nog. Pragmatisch: als je zichtbaarheid in AI-search wilt, moet je openstaan.
Hoe weet ik of AI-crawlers mijn site bezoeken? Check je server access logs op de user-agent strings (GPTBot, ChatGPT-User, PerplexityBot, ClaudeBot). Of gebruik een tool zoals Screaming Frog met log file analysis.
Heeft robots.txt blokkeren juridische consequenties? Nee. Het is een technische instructie, geen juridisch document. AI-bedrijven respecteren robots.txt als protocol, maar het is geen contract.
Klaar voor een technische check?
In een Lens Audit duiken we in je technische setup: robots.txt, rendering, crawl-toegang, en structured data. Je krijgt een exact overzicht van wat AI-crawlers zien (en niet zien) op je site.
Liever eerst een quick check? Een gratis Snapshot laat al zien of je überhaupt zichtbaar bent.
Gerelateerde kennisbankartikelen
Gerelateerde artikelen
Wat is AI Search Visibility?
AI Search Visibility bepaalt of ChatGPT, Claude, Perplexity en Google AI jouw bedrijf noemen. Leer hoe het werkt en check je zichtbaarheid gratis.
Waarom noemt ChatGPT mijn concurrent wel (en mij niet)?
Je concurrent verschijnt in ChatGPT, jij niet. Dit zijn de 8 technische oorzaken — en wat je eraan kunt doen. Gratis check beschikbaar.
llms.txt — het nieuwe robots.txt voor AI?
llms.txt is een nieuw bestandsformaat waarmee je AI-systemen context geeft over je site. Uitleg, implementatie, en of het de moeite waard is.