Methode & Techniek
Pre-training
Pre-training is de eerste, kostbare fase waarin een foundation model leert door op enorme hoeveelheden ongelabelde tekst en data zelf-supervised patronen te voorspellen. Deze fase legt de algemene kennis vast die later via fine-tuning verder wordt gespecialiseerd voor enterprise-taken.
Wat is Pre-training
Pre-training is de eerste en meest middelen-intensieve fase in de levenscyclus van een groot AI-model. Het model leert taalstructuren, wereldkennis en redeneerpatronen herkennen door miljarden woorden te verwerken. De uitkomst is een algemeen toepasbaar foundation model dat als basis dient voor talloze downstream-applicaties.
Hoe werkt pre-training
Tijdens pre-training wordt het model getraind met self-supervised technieken: het leert bijvoorbeeld het volgende woord voorspellen of een gemaskeerd woord aanvullen. Deze aanpak is schaalbaar omdat er geen handmatig gelabelde data nodig is. Modellen zoals Llama 3 zijn pre-trained op meer dan 15 biljoen tokens, met clusters van duizenden GPUs.
Waarom is dit belangrijk
Pre-training bepaalt het maximaal haalbare prestatieniveau van een model. De diversiteit en kwaliteit van de trainingsdata beïnvloeden direct de capaciteiten, bias en betrouwbaarheid. Voor enterprises is het belangrijk te begrijpen welke data in pre-training is gebruikt, vanwege risico’s rond auteursrecht, GDPR en EU AI Act.
Pre-training versus fine-tuning
Waar pre-training algemene patronen leert, voegt fine-tuning specifieke domeinkennis toe. De meeste organisaties bouwen niet zelf pre-trained modellen, maar bouwen voort op bestaande foundation modellen via Azure OpenAI, AWS Bedrock of open-source alternatieven.
Strategische impact
Voor enterprise AI-architectuur is het kennen van de pre-trainingsdata van een model essentieel voor risicobeoordeling. Artificial Intelligence Consultant adviseert klanten over de selectie van modellen waarvan de pre-trainingsdata aansluit bij hun gebruikscontext, taal en compliance-vereisten zoals NIS2 en ISO 27001.
Synoniemen
- voortraining
- self-supervised training
- basistraining
Voorbeelden
- Pre-training van Llama 3 op 15 biljoen tokens
- GPT-4o getraind op web- en codedata
- Mistral Large pre-training voor meertaligheid
Laatst bijgewerkt: 15 april 2026