Tokenisatie: Hoe LLMs Tekst in Tokens Verwerken

Tokenisatie

Tokenisatie is het opsplitsen van tekst in kleinere eenheden, tokens genaamd, die door taalmodellen verwerkt kunnen worden. De manier waarop tokenisatie plaatsvindt beïnvloedt direct de kosten, contextlengte en prestaties van LLM-toepassingen op Azure OpenAI of AWS Bedrock.

Wat is Tokenisatie

Tokenisatie is het proces waarbij tekst wordt opgesplitst in kleinere eenheden die een taalmodel kan verwerken. Een token is geen woord of letter, maar een subwoord-eenheid die via statistische methoden bepaald wordt. Voor Engelse tekst telt een token gemiddeld vier karakters, voor Nederlands of complexe talen vaak iets minder.

Hoe werkt het

Moderne LLMs gebruiken algoritmes zoals Byte-Pair Encoding (BPE), WordPiece of SentencePiece. Deze leren tijdens pre-training welke karakter-combinaties veel voorkomen en groeperen die tot tokens. Hierdoor kunnen ook onbekende woorden worden opgesplitst in bekende fragmenten, wat het model robuust maakt tegen typefouten en eigennamen.

Waarom belangrijk

Tokenisatie heeft directe gevolgen voor kosten en prestaties. Cloud-API’s zoals Azure OpenAI en AWS Bedrock rekenen per token. Een efficiënte tokenizer scheelt direct geld bij grote volumes. Daarnaast bepaalt de tokenisatie hoe groot het effectieve context window is en hoe goed een model met meertaligheid omgaat.

Verschillen tussen modellen

GPT-4o, Claude 3.5, Llama 3 en Mistral Large gebruiken elk een eigen tokenizer met andere woordenschat. Hetzelfde stuk tekst kan dus een verschillend aantal tokens opleveren in verschillende modellen. Voor Nederlandstalige content presteren sommige tokenizers beter dan andere.

Praktische impact

Voor enterprise-architecturen is het belangrijk om tokenisatie mee te nemen in cost engineering. Hulpmiddelen als tiktoken voor OpenAI of de tokenizer-libraries van Hugging Face geven inzicht in tokenverbruik per use case.

Voorbeelden

Artificial Intelligence Consultant adviseert klanten over modelkeuze mede op basis van tokenisatie-efficiëntie voor hun specifieke taal en domein. Voor een Nederlandse zorgverzekeraar kan dit tot 30% kostenverschil opleveren tussen vergelijkbare modellen, zonder concessies aan kwaliteit.

Synoniemen

tokenization
tokeniseren
tekstsegmentatie

Voorbeelden

Byte-pair encoding bij GPT-4o
SentencePiece bij Llama 3
Tiktoken voor OpenAI-modellen

Laatst bijgewerkt: 15 april 2026

Tokenisatie

Wat is Tokenisatie

Hoe werkt het

Waarom belangrijk

Verschillen tussen modellen

Praktische impact

Voorbeelden

Lees verder

Context Window

Inference

Large Language Model (LLM)

Vraag of voorstel?