Hoe ik een RAG-systeem bouwde dat bedrijfsdocumenten doorzoekbaar maakt

2026-04-15 · 2 min leestijd

Het probleem

Een bedrijf met honderden beleidsdocumenten, handleidingen en rapporten. Medewerkers besteedden gemiddeld 45 minuten per zoekactie. Niemand wist precies welke informatie waar stond.

De vraag: kun je een systeem bouwen waar we in gewone taal vragen aan kunnen stellen?

De architectuur

Een RAG-systeem (Retrieval-Augmented Generation) combineert twee componenten:

Retrieval — het vinden van relevante documentfragmenten
Generation — het formuleren van een antwoord op basis van die fragmenten

# Vereenvoudigde architectuur
documenten → chunking → embeddings → vector database
                                          ↓
gebruikersvraag → embedding → similarity search → context
                                                      ↓
                                              LLM → antwoord + bronverwijzingen

Stap 1: Document processing

De eerste uitdaging: documenten in allerlei formaten (PDF, Word, Excel) omzetten naar doorzoekbare tekst.

from langchain.text_splitter import RecursiveCharacterTextSplitter
 
splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000,
    chunk_overlap=200,
    separators=["\n\n", "\n", ". ", " "]
)
 
chunks = splitter.split_documents(documents)

De chunk_overlap is cruciaal — zonder overlap verlies je context op de grenzen van je chunks.

Stap 2: Embeddings en vector store

Elk chunk wordt omgezet naar een embedding — een numerieke representatie van de betekenis. Vergelijkbare teksten krijgen vergelijkbare embeddings.

Stap 3: Query pipeline

Wanneer een gebruiker een vraag stelt:

De vraag wordt omgezet naar een embedding
We zoeken de meest relevante chunks via cosine similarity
De gevonden chunks worden als context meegegeven aan het LLM
Het LLM formuleert een antwoord en verwijst naar de bronnen

Het resultaat

Zoektijd: van 45 minuten naar 30 seconden
Nauwkeurigheid: 92% van de antwoorden was correct bij validatie
Adoptie: binnen 2 weken gebruikte 80% van het team het systeem dagelijks

Lessons learned

Chunk size matters. Te klein = geen context. Te groot = te veel ruis. Test met echte vragen.
Metadata is goud waard. Documentnaam, datum, auteur — voeg het toe aan je chunks. Het verbetert zowel retrieval als het vertrouwen van de gebruiker.
Start simpel. Een basis RAG-systeem levert al enorme waarde. Optimaliseer pas als je weet waar de zwakke plekken zitten.

De businesswaarde

Dit project laat zien wat er mogelijk is als je GenAI combineert met echte bedrijfsdata. Geen generieke chatbot, maar een tool die specifieke vragen beantwoordt over jouw documenten, met bronverwijzingen.

Meer lezen?

Schrijf je in voor de nieuwsbrief en ontvang maandelijks een artikel over data, AI en hoe je er als bedrijf iets aan hebt.

Neem contact op