Inventarisatie: wat draait, en weet iemand het?
Onze eerste week bestaat uit een eerlijk gesprek met data scientists, ML-engineers en compliance-officers. We brengen alle productiemodellen in kaart: doel, eigenaar, trainingsdata, deploy-pad, monitoring (of het ontbreken daarvan) en risico-classificatie onder de EU AI Act. Vrijwel altijd komen er modellen boven water die niemand meer onderhoudt of waarvoor de oorspronkelijke trainingsdata niet meer reproduceerbaar is. Deze "schaduw-modellen" vormen een operationeel én compliance-risico. We adviseren ze ofwel formeel te registreren met huidige eigenaar, ofwel uit productie te halen.
Model registry: één bron van waarheid
Elk productiemodel — klassiek ML, deep learning, fine-tunes van Llama 3, of een wrapper rond GPT-4o — krijgt een record in MLflow. Het record bevat: modelversie, trainingsdata-hash, hyperparameters, evaluatiemetrics, deploy-environment en eigenaar. De registry bewaakt tevens de promotiepaden: een model gaat van "staging" naar "production" alleen na een gedocumenteerde goedkeuring. Voor LLM-toepassingen breiden we de registry uit met prompts, system messages en function-schemas — die zijn voor een LLM-systeem net zo bepalend als modelgewichten voor een klassiek model.
Observability: drie soorten drift
We monitoren drie soorten drift. Datadrift: de inputverdeling verschuift (klanten worden jonger, productmix verandert). Conceptdrift: de relatie tussen input en output verandert (fraudepatronen evolueren, gebruikersgedrag wijzigt). Performance-drift: de meetbare modelkwaliteit daalt op een vaste evaluatieset. Voor klassieke modellen gebruiken we statistische tests (KS, PSI) op feature-distributies; voor LLM-toepassingen monitoren we hallucinatie-rate, citatiekwaliteit en latentie. Bij overschrijding van drempels alarmeert het systeem de eigenaar — niet alleen het ops-team.
CI/CD voor modellen
Een modelupdate moet door dezelfde discipline als een softwarerelease. Wij implementeren pipelines waarin elke nieuwe modelversie automatisch wordt geëvalueerd op een vaste testset, getoetst op fairness-metrics waar relevant (EU AI Act artikel 10), en alleen geaccepteerd als alle drempels gehaald worden. Bij promotie naar productie worden eerst tien procent van de requests naar het nieuwe model gerouteerd (canary deployment). Bij stabiele metrics binnen 24 of 72 uur volgt volledige uitrol. Bij regressie volgt automatische rollback. Deze flow is gestandaardiseerd en hergebruikbaar over alle modellen heen.
Audit trails en rapportage
Elke gebeurtenis — training, evaluatie, promotie, rollback, prediction op een persoonsgegeven — wordt gelogd in een tamper-evident store. Voor SOC 2 Type II audit leveren we kwartaalrapportages die aantonen dat de controls (change management, monitoring, incident response) effectief functioneerden. Voor EU AI Act-conformiteit produceren we de monitoringrapportage van artikel 17, met aantal incidenten, drift-events en correctieve maatregelen. ISO 27001-auditors krijgen één lijst van alle modellen met hun A.12-controls afgevinkt. Dit voorkomt dat compliance-tijd elke keer "vanaf nul" wordt opgebouwd.