Infrastructuur
Tokenisatie
Tokenisatie is het opsplitsen van tekst in kleinere eenheden, tokens genaamd, die door taalmodellen verwerkt kunnen worden. De manier waarop tokenisatie plaatsvindt beïnvloedt direct de kosten, contextlengte en prestaties van LLM-toepassingen op Azure OpenAI of AWS Bedrock.
Wat is Tokenisatie
Tokenisatie is het proces waarbij tekst wordt opgesplitst in kleinere eenheden die een taalmodel kan verwerken. Een token is geen woord of letter, maar een subwoord-eenheid die via statistische methoden bepaald wordt. Voor Engelse tekst telt een token gemiddeld vier karakters, voor Nederlands of complexe talen vaak iets minder.
Hoe werkt het
Moderne LLMs gebruiken algoritmes zoals Byte-Pair Encoding (BPE), WordPiece of SentencePiece. Deze leren tijdens pre-training welke karakter-combinaties veel voorkomen en groeperen die tot tokens. Hierdoor kunnen ook onbekende woorden worden opgesplitst in bekende fragmenten, wat het model robuust maakt tegen typefouten en eigennamen.
Waarom belangrijk
Tokenisatie heeft directe gevolgen voor kosten en prestaties. Cloud-API’s zoals Azure OpenAI en AWS Bedrock rekenen per token. Een efficiënte tokenizer scheelt direct geld bij grote volumes. Daarnaast bepaalt de tokenisatie hoe groot het effectieve context window is en hoe goed een model met meertaligheid omgaat.
Verschillen tussen modellen
GPT-4o, Claude 3.5, Llama 3 en Mistral Large gebruiken elk een eigen tokenizer met andere woordenschat. Hetzelfde stuk tekst kan dus een verschillend aantal tokens opleveren in verschillende modellen. Voor Nederlandstalige content presteren sommige tokenizers beter dan andere.
Praktische impact
Voor enterprise-architecturen is het belangrijk om tokenisatie mee te nemen in cost engineering. Hulpmiddelen als tiktoken voor OpenAI of de tokenizer-libraries van Hugging Face geven inzicht in tokenverbruik per use case.
Voorbeelden
Artificial Intelligence Consultant adviseert klanten over modelkeuze mede op basis van tokenisatie-efficiëntie voor hun specifieke taal en domein. Voor een Nederlandse zorgverzekeraar kan dit tot 30% kostenverschil opleveren tussen vergelijkbare modellen, zonder concessies aan kwaliteit.
Synoniemen
- tokenization
- tokeniseren
- tekstsegmentatie
Voorbeelden
- Byte-pair encoding bij GPT-4o
- SentencePiece bij Llama 3
- Tiktoken voor OpenAI-modellen
Laatst bijgewerkt: 15 april 2026