RAG uitgelegd: AI die je eigen documenten kent

Er is één AI-patroon dat ondertussen in elk bedrijf thuishoort: RAG. Het is niet nieuw, niet hip, maar het werkt. En het lost precies het probleem op waar elke "laten we AI inzetten"-sessie op vastloopt: LLM's weten niks van jouw bedrijf.

Dit artikel legt uit wat RAG is, waarom het werkt, en hoe je er een bouwt — zonder dat je data science hoeft te hebben gestudeerd.

Wat is RAG?

RAG staat voor Retrieval-Augmented Generation. In gewone taal: een AI die eerst relevante stukken tekst opzoekt in een database, en ná die informatie te lezen pas antwoord geeft. Dus het model verzint niets — het parafraseert wat het net in jouw documenten vond.

Zonder RAG, gebeurt dit:

Jij: Wat is het retourbeleid van ons bedrijf?

ChatGPT zonder RAG: Dat kan ik niet zien. Meestal geldt 14 dagen...

Met RAG:

Jij: Wat is het retourbeleid van ons bedrijf?

AI met RAG: (zoekt in huisreglement.pdf, vindt paragraaf 4.2) Jullie retourbeleid is 30 dagen, mits het product ongebruikt is en in originele verpakking zit.

Waarom RAG het probleem van hallucinations oplost

Een LLM (GPT-4, Claude, enzovoort) is een autocomplete op steroïden. Het voorspelt het volgende woord op basis van alles wat het heeft gezien tijdens training. Over jouw bedrijf heeft het nooit iets gezien — dus het verzint iets dat plausibel klinkt. Dat heet een hallucinatie.

Door relevante feiten mee te geven in de prompt ("de context"), verdwijnt het verzin-probleem. Het model redeneert over echte informatie, niet over waarschijnlijkheden.

Beter nog: je kunt het model instructies geven zoals:

"Beantwoord uitsluitend op basis van de onderstaande context. Als je het antwoord niet kunt vinden, zeg 'Dat weet ik niet uit de beschikbare documenten.' Verzin niks."

Goede LLM's houden zich hier aan. Dat maakt ze inzetbaar in situaties waar "ik weet het niet" beter is dan "ik verzin wat".

Hoe werkt RAG technisch?

In vijf stappen:

Documenten verzamelen — PDFs, Word-docs, wiki-pagina's, database-exports. Alles wat antwoorden op vragen kan bevatten.
Chunken — documenten worden opgesplitst in behapbare stukjes van typisch 300–800 woorden. Eén hoofdstuk, één FAQ-antwoord, één productbeschrijving per chunk.
Embeddings maken — elk chunk wordt door een embedding model omgezet naar een vector (een lange lijst getallen). Vectoren die semantisch lijken, liggen dichtbij elkaar in de ruimte.
Opslaan in vector database — Pinecone, Weaviate, pgvector (PostgreSQL-extensie) slaan deze vectoren indexeer-baar op.
Vragen afhandelen — bij elke vraag: vraag → embedding → zoek de 5 meest relevante chunks → geef chunks + vraag mee aan LLM → antwoord.

Klinkt complex, maar elk element is een losstaand, bewezen component. De kunst zit in het tunen.

Welke AI-modellen zijn geschikt?

In 2026 zijn de belangrijkste keuzes:

Claude 4.7 (Anthropic) — uitstekend in langere context, strikt volgt instructies, EU-hosting mogelijk
GPT-4.5 (OpenAI) — breed inzetbaar, grootste ecosysteem, US-gehost standaard
Llama 3 / Mistral — open source, self-hostable, voor privacy-kritieke toepassingen
Gemini (Google) — goed in multi-modal (tekst + afbeelding), matig in strenge instructie-volging

Voor Nederlandse bedrijven met AVG-vereisten kies ik meestal Claude (via AWS Frankfurt) of een self-hosted open-source model.

Waar bedrijven mee beginnen

De drie meest voorkomende eerste RAG-toepassingen:

1. Klantenservice-chatbot

FAQ's, handleidingen, productbeschrijvingen in de vector DB. Bezoeker stelt vraag via website-widget of WhatsApp → AI zoekt antwoord → klant geholpen zonder ticket. Voor veelgestelde vragen lost dit 40–60% van het volume op.

2. Interne kennisbank-zoek

Alle bedrijfsdocumenten (beleid, processen, handleidingen) doorzoekbaar via natuurlijke taal. "Hoe declareer ik overwerk?" → directe uit HR-handboek, geen gescroll door SharePoint. Bespaart medewerkers gemiddeld 20–40 min per dag op zoeken.

3. Compliance-assistent

Wet- en regelgeving, contracten, interne richtlijnen in de DB. "Mag deze klant dit product in Duitsland verkopen?" → AI checkt compliance-regels en geeft onderbouwd antwoord. Vooral sterk in financiële sector, healthcare.

Wat gaat er fout (en hoe je het voorkomt)

Slechte chunking

Te grote chunks = model krijgt te veel ruis mee. Te kleine = context verloren. Rule of thumb: 500 tokens per chunk met 50 token overlap tussen opeenvolgende chunks.

Geen evaluatie

Je weet pas of het werkt als je het meet. Bouw een set van 50–100 testvragen met verwachte antwoorden. Test elke week. Zonder dit kun je niet zien of een model-update of chunking-aanpassing beter of slechter is.

Vergeten source-attribution

Geef in het antwoord altijd aan wáár de info vandaan komt ("volgens handleiding sectie 4.2"). Dat maakt het antwoord verifieerbaar en verhoogt vertrouwen.

Privacy-lekken

Standaard stuurt een RAG-systeem je documenten naar een LLM-API. Voor privacy-gevoelige data: gebruik EU-gehoste modellen (Claude in AWS Frankfurt) of self-hosted (Llama op eigen infra). AVG-conformiteit is een serieus onderwerp, geen checkbox.

Wat kost het?

Ruwe richtlijnen voor 2026:

Component	Startkosten (eenmalig)	Runtime (per 1000 gesprekken)
Build (discovery, chunking, prompt-engineering)	€ 3.500 – € 8.000	–
Claude API	–	€ 5 – € 20
Embedding model	€ 5 (eenmalig voor de DB)	€ 0,10 (voor zoekvragen)
Vector database (Supabase pgvector)	€ 0 – € 25/mnd	–
Hosting frontend	€ 0 – € 20/mnd	–
Totaal per gesprek		€ 0,005 – € 0,02

Voor een bedrijf met 500 vragen per dag: € 2,50 – € 10 per dag aan runtime. Minder dan een uurtje van een medewerker die dezelfde vragen zou beantwoorden.

Wanneer kies je géén RAG?

RAG is overkill als:

Je content nauwelijks verandert (een statische FAQ-pagina werkt)
Je bezoekers weinig variatie in vragen stellen (template-antwoorden volstaan)
Je team klein is en de vragen direct doorspelen ook werkt

Voor elk ander scenario: RAG is waarschijnlijk de juiste tool. Het is volwassen, goed gedocumenteerd, en het rendeert snel.

Veelgestelde vragen

Kan ik RAG ook zelf bouwen zonder developer?+

Met tools als LlamaIndex, Langflow of flowise kun je een eenvoudige RAG opzetten zonder zwaar te programmeren. Voor productie-gebruik, veel verkeer, of eigen integraties is developer-input doorgaans nodig.

Hoe vaak moet ik mijn vector DB bijwerken?+

Elke keer als bronnen veranderen. Voor statische kennisbanken: maandelijks. Voor e-commerce met dagelijkse productwijzigingen: automatische dagelijkse re-index. Een goede RAG-setup ondersteunt incrementele updates (alleen gewijzigde chunks opnieuw embedden).

Werken chunking-strategieën verschillend per taaltype?+

Ja. Technische documentatie werkt goed met chunks rond hoofdstukken of secties. Juridische teksten willen chunks per artikel. Gesprekken of interviews werken beter met chunks per logische beurt of thema. Start met 500-token chunks en tune vanaf daar.

Kunnen meerdere LLM's samenwerken in een RAG-systeem?+

Zeker. Een goedkoper model (GPT-4o-mini, Claude Haiku) voor initiele classificatie en routing, een duurder model (Claude Opus, GPT-4) voor het uiteindelijke antwoord. Dit heet een LLM-router-patroon en bespaart flink op kosten.

Hoe ga ik om met verouderde informatie in mijn RAG?+

Versiebeheer op documenten (metadata 'ingevoerd op', 'laatst gewijzigd'). Filter in de retrieval op 'niet ouder dan X maanden' waar relevant. Automatische checks op interne inconsistenties in nieuwe chunks.

RAG uitgelegd: AI die je eigen documenten kent

Wat is RAG?

Waarom RAG het probleem van hallucinations oplost

Hoe werkt RAG technisch?

Welke AI-modellen zijn geschikt?

Waar bedrijven mee beginnen

1. Klantenservice-chatbot

2. Interne kennisbank-zoek

3. Compliance-assistent

Wat gaat er fout (en hoe je het voorkomt)

Slechte chunking

Geen evaluatie

Vergeten source-attribution

Privacy-lekken

Wat kost het?

Wanneer kies je géén RAG?

Veelgestelde vragen

Verwante artikelen

Vragen die je eigen project betreffen?

Wat is RAG?

Waarom RAG het probleem van hallucinations oplost

Hoe werkt RAG technisch?

Welke AI-modellen zijn geschikt?

Waar bedrijven mee beginnen

1. Klantenservice-chatbot

2. Interne kennisbank-zoek

3. Compliance-assistent

Wat gaat er fout (en hoe je het voorkomt)

Slechte chunking

Geen evaluatie

Vergeten source-attribution

Privacy-lekken

Wat kost het?

Wanneer kies je géén RAG?

Veelgestelde vragen

Verwante artikelen

Wat is een LLM eigenlijk? AI-basisbegrippen in gewone taal

10 AI-tools die ik dagelijks gebruik (en waarvoor)

AI-agents uitgelegd: meer dan slimme chatbots

Vragen die je eigen project betreffen?