Context Window: Maximale Tokens voor LLMs

Context Window

Het context window is de maximale hoeveelheid tokens die een taalmodel tegelijkertijd kan verwerken in één aanroep. De grootte bepaalt hoeveel documenten, geschiedenis of instructies meegegeven kunnen worden, wat directe impact heeft op enterprise-toepassingen zoals RAG en lange documentanalyse.

Wat is een Context Window

Het context window is de maximale lengte aan input plus output die een taalmodel in één aanroep kan verwerken. Het wordt uitgedrukt in tokens en varieert per model: GPT-4o biedt 128.000 tokens, Claude 3.5 tot 200.000, en sommige Gemini-varianten zelfs één miljoen. Voor enterprise-toepassingen is dit een belangrijk criterium bij modelkeuze.

Waarom belangrijk

Hoe groter het context window, hoe meer informatie er in één prompt past: documenten, gespreksgeschiedenis, voorbeelden en instructies. Voor lange contracten, technische documentatie of multi-turn conversaties is een ruim context window essentieel. Tegelijk stijgen kosten en latency met de grootte van de gebruikte context.

Lange context versus RAG

Een groot context window vervangt RAG niet altijd. Bij grote kennisbanken is het efficiënter om met semantic search alleen relevante fragmenten op te halen via Pinecone of Weaviate. Lange contexts werken goed voor één lang document, maar schalen slecht naar miljoenen documenten qua kosten en performance.

Beperkingen

Onderzoek toont dat modellen niet altijd consistent presteren over de volle lengte van hun context window: het zogenaamde “lost in the middle”-fenomeen, waarbij informatie in het midden van de input minder goed wordt gebruikt dan informatie aan het begin of einde.

Tokenisatie en planning

De effectieve grootte hangt af van tokenisatie. Nederlandse tekst gebruikt vaak meer tokens dan dezelfde inhoud in het Engels. Het is verstandig om bij architectuurontwerp ruimte over te houden voor system prompts, voorbeelden en het uiteindelijke antwoord van het model.

Voorbeelden

Artificial Intelligence Consultant ondersteunt klanten bij contextstrategie: voor uitgebreide juridische analyse benutten we Claude 3.5’s lange context, terwijl voor kennisontsluiting RAG met GPT-4o vaak efficiënter is.

Synoniemen

contextvenster
tokenvenster
input window

Voorbeelden

GPT-4o met 128k token context
Claude 3.5 met 200k context window
Gemini 1.5 met 1M tokens voor lange video's

Laatst bijgewerkt: 15 april 2026

Context Window

Wat is een Context Window

Waarom belangrijk

Lange context versus RAG

Beperkingen

Tokenisatie en planning

Voorbeelden

Lees verder

Tokenisatie

Retrieval-Augmented Generation (RAG)

Large Language Model (LLM)

Vraag of voorstel?