AI-crawlers en je robots.txt — wie blokkeer je (en moet dat)?

crawlers-technische-seo5 min leestijd

Je robots.txt is geschreven voor Googlebot. Maar er kruipen nu 10+ AI-crawlers over je site die je misschien niet kent, niet wilt, of juist hard nodig hebt. Blokkeren is makkelijk, maar de consequentie is onzichtbaarheid in AI-search.

Inhoudsopgave

Welke AI-crawlers bestaan er?

Inhoud: Complete tabel van bekende AI-crawlers met user-agent string, eigenaar, doel (training vs. real-time retrieval), en crawl-frequentie. Minimaal behandelen:

  • GPTBot (OpenAI): training + retrieval
  • ChatGPT-User (OpenAI): real-time browsing bij chat
  • ClaudeBot / anthropic-ai (Anthropic): training
  • PerplexityBot (Perplexity): real-time retrieval voor antwoorden
  • Google-Extended (Google AI): training
  • Bytespider (ByteDance): training
  • CCBot (Common Crawl): open dataset, indirect training

Noteer per crawler: blokkeert het je uit trainingsdata, uit real-time antwoorden, of beide?

💡 Lens check: In een Lens-audit scannen we je huidige robots.txt en vergelijken welke crawlers je blokkeert versus je top-3 concurrenten. Vaak zien we dat concurrenten bewust open staan waar onze klant per ongeluk blokkeert.

Wat doen ze met je content?

Inhoud: Uitleg van het verschil tussen:

  1. Training-crawls: content wordt opgenomen in trainingsdata voor toekomstige modellen. Eenmalig/periodiek. Effect op AI-antwoorden is indirect en vertraagd.
  2. Retrieval-crawls: content wordt real-time opgehaald om een specifiek antwoord te genereren. Continu. Direct effect op wat een gebruiker te zien krijgt.

Leg uit waarom dit onderscheid cruciaal is: GPTBot blokkeren blokkeert je uit training. ChatGPT-User blokkeren blokkeert je uit real-time resultaten. PerplexityBot blokkeren maakt je onzichtbaar in Perplexity, direct.

Blokkeren vs. toelaten: het afwegingskader

Inhoud: Beslisschema in de vorm van een tabel of flowchart:

SituatieAanbevelingReden
Je wilt zichtbaar zijn in AI-searchToelaten (alle crawlers)Blokkeren = onzichtbaar
Je hebt premium content achter paywallBlokkeer training-crawlers, sta retrieval toeBeschermt content, behoudt zichtbaarheid
Je hebt gevoelige content (intranet, klantdata)Blokkeer alles + noindexVeiligheid boven zichtbaarheid
Je bent uitgever en wilt compensatieBlokkeer training-crawlersLegale/commerciële keuze

Maak expliciet: voor de meeste bedrijven (dienstverlening, SaaS, retail) is volledig toelaten de juiste keuze. Je wílt gevonden worden.

⚠️ Niet beloven: Toelaten garandeert niet dat je geciteerd wordt. Het verwijdert alleen een blokkade. Vergelijk het met een open winkeldeur: mensen kunnen binnenlopen, maar je moet nog steeds iets aantrekkelijks in de etalage hebben.

Robots.txt voorbeelden

Inhoud: Concrete, copy-paste-bare robots.txt configuraties voor 3 scenario's:

  1. Maximale zichtbaarheid (recommended voor de meeste bedrijven):
User-agent: GPTBot
Allow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /
  1. Selectief blokkeren (premium content beschermen):
User-agent: GPTBot
Disallow: /premium/
Disallow: /members/
Allow: /

User-agent: ChatGPT-User
Allow: /
  1. Minimaal risico (alles dicht behalve retrieval):
User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Allow: /

User-agent: PerplexityBot
Allow: /

Voorbeeld uit een audit

📋 Voorbeeld uit een audit

Klant: Tide & Co (premium fashion retail) Bevinding: Standaard WordPress robots.txt blokkeert geen enkele AI-crawler, maar de React-storefront rendert niet server-side. Crawlers zien lege pagina's ondanks "Allow". Impact: Effectief 0% crawlbare content ondanks open robots.txt Fix: Server-side rendering implementeren OF pre-rendered snapshots serveren aan bot user-agents

JavaScript-rendering en AI-crawlers

Inhoud: Uitleg waarom robots.txt niet het hele verhaal is:

  • Google rendert JavaScript (met vertraging). AI-crawlers doen dit vaak NIET.
  • Een SPA (React/Vue/Angular) zonder SSR/SSG is effectief onzichtbaar voor AI-crawlers
  • Test-methode: curl -A "GPTBot" [url]. Als je een lege <div> ziet, ziet de crawler dat ook.
  • Oplossingen: SSR, SSG, pre-rendering, of dynamic rendering voor bot user-agents

Technische checklist

  • Check robots.txt op AI-crawler blocks (curl https://jouwsite.nl/robots.txt)
  • Test of je content zichtbaar is zonder JavaScript (curl -s [url] | grep [kernwoord])
  • Verifieer dat ChatGPT-User en PerplexityBot niet geblokkeerd zijn (retrieval-crawlers)
  • Check je sitemap.xml: is die actueel en bevat die alle relevante pagina's?
  • Overweeg een llms.txt bestand toe te voegen (zie llms.txt uitgelegd)
  • Monitor crawl-logs op AI-crawler bezoeken (check access logs voor user-agent strings)

Veelgestelde vragen

Moet ik alle AI-crawlers toelaten? Voor de meeste bedrijven: ja. Tenzij je specifieke redenen hebt om content te beschermen (paywall, gevoelig materiaal). Blokkeren = onzichtbaar. Content notes: nuanceer dat dit een strategische keuze is.

Kan een AI-crawler mijn hele site kopiëren? Technisch wel, maar dat is geen verschil met hoe Google je site crawlt. De juridische discussie over AI-training en copyright loopt nog. Pragmatisch: als je zichtbaarheid in AI-search wilt, moet je openstaan.

Hoe weet ik of AI-crawlers mijn site bezoeken? Check je server access logs op de user-agent strings (GPTBot, ChatGPT-User, PerplexityBot, ClaudeBot). Of gebruik een tool zoals Screaming Frog met log file analysis.

Heeft robots.txt blokkeren juridische consequenties? Nee. Het is een technische instructie, geen juridisch document. AI-bedrijven respecteren robots.txt als protocol, maar het is geen contract.

Klaar voor een technische check?

In een Lens Audit duiken we in je technische setup: robots.txt, rendering, crawl-toegang, en structured data. Je krijgt een exact overzicht van wat AI-crawlers zien (en niet zien) op je site.

→ Meer over de Lens Audit

Liever eerst een quick check? Een gratis Snapshot laat al zien of je überhaupt zichtbaar bent.

Gerelateerde kennisbankartikelen