Hoe ik een RAG-systeem bouwde dat bedrijfsdocumenten doorzoekbaar maakt
2026-04-15 · 2 min leestijd
Het probleem
Een bedrijf met honderden beleidsdocumenten, handleidingen en rapporten. Medewerkers besteedden gemiddeld 45 minuten per zoekactie. Niemand wist precies welke informatie waar stond.
De vraag: kun je een systeem bouwen waar we in gewone taal vragen aan kunnen stellen?
De architectuur
Een RAG-systeem (Retrieval-Augmented Generation) combineert twee componenten:
- Retrieval — het vinden van relevante documentfragmenten
- Generation — het formuleren van een antwoord op basis van die fragmenten
# Vereenvoudigde architectuur
documenten → chunking → embeddings → vector database
↓
gebruikersvraag → embedding → similarity search → context
↓
LLM → antwoord + bronverwijzingenStap 1: Document processing
De eerste uitdaging: documenten in allerlei formaten (PDF, Word, Excel) omzetten naar doorzoekbare tekst.
from langchain.text_splitter import RecursiveCharacterTextSplitter
splitter = RecursiveCharacterTextSplitter(
chunk_size=1000,
chunk_overlap=200,
separators=["\n\n", "\n", ". ", " "]
)
chunks = splitter.split_documents(documents)De chunk_overlap is cruciaal — zonder overlap verlies je context op de grenzen van je chunks.
Stap 2: Embeddings en vector store
Elk chunk wordt omgezet naar een embedding — een numerieke representatie van de betekenis. Vergelijkbare teksten krijgen vergelijkbare embeddings.
Stap 3: Query pipeline
Wanneer een gebruiker een vraag stelt:
- De vraag wordt omgezet naar een embedding
- We zoeken de meest relevante chunks via cosine similarity
- De gevonden chunks worden als context meegegeven aan het LLM
- Het LLM formuleert een antwoord en verwijst naar de bronnen
Het resultaat
- Zoektijd: van 45 minuten naar 30 seconden
- Nauwkeurigheid: 92% van de antwoorden was correct bij validatie
- Adoptie: binnen 2 weken gebruikte 80% van het team het systeem dagelijks
Lessons learned
- Chunk size matters. Te klein = geen context. Te groot = te veel ruis. Test met echte vragen.
- Metadata is goud waard. Documentnaam, datum, auteur — voeg het toe aan je chunks. Het verbetert zowel retrieval als het vertrouwen van de gebruiker.
- Start simpel. Een basis RAG-systeem levert al enorme waarde. Optimaliseer pas als je weet waar de zwakke plekken zitten.
De businesswaarde
Dit project laat zien wat er mogelijk is als je GenAI combineert met echte bedrijfsdata. Geen generieke chatbot, maar een tool die specifieke vragen beantwoordt over jouw documenten, met bronverwijzingen.
Meer lezen?
Schrijf je in voor de nieuwsbrief en ontvang maandelijks een artikel over data, AI en hoe je er als bedrijf iets aan hebt.
Neem contact op