Modelkeuze begint bij het gebruiksgeval, niet bij de hype
De vraag "welk model gebruiken jullie" is bijna altijd de verkeerde eerste vraag. Wij beginnen met een use-case canvas: wat is de input, wat is de gewenste output, hoe groot is de fouttolerantie, en welke compliance-classificatie geldt. Pas op basis daarvan kiezen we tussen GPT-4o (sterke redenering, breed inzetbaar), Claude 3.5 Sonnet (uitstekend bij lange context en schrijfwerk), Llama 3 (volledige controle, on-premise mogelijk) of Mistral Large (Europese leverancier, sterke instructievolging). Voor veel klanten eindigt de modelkeuze bij een hybride: een snel goedkoop model voor routineverwerking en een sterker model voor kritieke beslissingen.
Architectuur: private endpoints, geen publieke API's
Geen enterprise-implementatie van Artificial Intelligence Consultant loopt via publieke ChatGPT- of Claude-endpoints. Wij implementeren binnen Azure OpenAI Service of AWS Bedrock, met data-residency in West Europe of Frankfurt, een netwerkisolatie via Private Link of VPC endpoints, en een gateway-laag die elke aanroep logt, valideert en zo nodig blokkeert. Voor zeer gevoelige scenario's — patiëntdata, BSN-verwerking, advocatuurlijke dossiers — draaien we Llama 3 70B of 405B on-premise op Nvidia H100-clusters of via een gehoste private cloud. De gateway-laag is hetzelfde, ongeacht waar het model fysiek draait.
Evaluatie: meten voordat u schaalt
Een LLM-implementatie zonder evaluatieharnas is een gok. Wij bouwen voor elk gebruiksgeval een testset van tweehonderd tot tweeduizend voorbeelden, geannoteerd door domeinexperts, en draaien automatische evaluaties op accuratesse, hallucinatie-frequentie, latentie en kosten. Bij elke modelupdate — en die komen elke twee tot drie maanden — draaien we de testset opnieuw en publiceren we een vergelijkingsrapport. Dit voorkomt dat een schijnbaar onschuldige modelversie-bump uw productiekwaliteit halveert. Tooling: LangChain Evaluators, Promptfoo, of een maatwerk-harnas op basis van uw eigen criteria.
Guardrails: input-validatie, output-filtering, mens-in-de-lus
Drie lagen guardrails staan standaard in onze implementaties. Input-validatie blokkeert prompts met persoonsgegevens die niet horen in het model. Output-filtering controleert of het antwoord voldoet aan een JSON-schema (via function calling) en geen vertrouwelijke data lekt. Voor hoog-risico beslissingen onder de EU AI Act voegen we een human-in-the-loop toe: een bevoegde medewerker accordeert het modelvoorstel voordat het systeem actie onderneemt. Deze drie lagen — samen met audit-logs — vormen het bewijsmateriaal dat een EU AI Act-toezichthouder of een interne auditor wil zien.