Procesinventarisatie: welke processen lenen zich voor een agent?
Niet elk proces is geschikt. Wij beginnen met een procesinventarisatie waarin we drie criteria toetsen: variatie (volgt elk geval een ander pad?), kennisintensiteit (vereist het oordeelsvorming?) en volume (rechtvaardigt het de implementatiekosten?). Routinematige, regelgebaseerde processen blijven beter bij RPA. Hoog-risico beslissingen onder de EU AI Act — kredietverstrekking, sollicitatieselectie, medische diagnose — vragen extra zware menselijk-toezichtwaarborgen. De zoete plek voor een eerste agent: kennisintensief, hoog volume, laag risico. Bijvoorbeeld eerstelijns klantvragen, contractsamenvatting, onderzoeksondersteuning.
Architectuur: planner, executor, criticus
Een goede agent heeft drie rollen, vaak gevuld door hetzelfde of verschillende modellen. De planner — meestal GPT-4o of Claude 3.5 Sonnet — analyseert de opdracht en breekt deze op in stappen. De executor roept tools aan: API-calls, databasequeries, RAG-zoekopdrachten, e-mailgeneratie. De criticus controleert tussenresultaten en kan de planner verzoeken een stap over te doen of te escaleren. Deze driedeling — geïmplementeerd in LangChain of LlamaIndex — voorkomt dat de agent zichzelf in een fout pad lokt en maakt elke stap afzonderlijk auditeerbaar.
Tool ontwerp: function calling als grens
Tools zijn de enige manier waarop een agent invloed uitoefent op de echte wereld. Daarom ontwerpen we tools restrictief: elke tool heeft een strikt JSON-schema, een gelimiteerde rechtenset en een audit-log per aanroep. Een tool "verstuur e-mail" mag alleen naar interne adressen sturen tenzij expliciet geautoriseerd. Een tool "wijzig dossier" vereist een mens-in-de-lus voor velden die compliance-relevant zijn. Function calling van GPT-4o of Claude 3.5 Sonnet biedt de structurele garantie: de agent kan alleen tools aanroepen met geldige parameters die het schema doorstaan. Dit elimineert een hele klasse van fouten die in vroege agent-implementaties veel voorkwam.
Human-in-the-loop guardrails
Op elk besluit met juridische, financiële of reputationele impact bouwen we een menselijke goedkeuringsstap. Concreet: de agent stelt voor, een bevoegde medewerker keurt goed via een review-interface, en pas dan wordt de actie uitgevoerd. Voor laag-risico stappen — interne notitie, samenvatting voor intern gebruik — kan de menselijke check beperkt blijven tot steekproef. Wij ontwerpen het escalatieprotocol expliciet: bij onzekerheid (de criticus signaleert twijfel) gaat de taak automatisch naar een mens. Deze structuur voldoet aan EU AI Act artikel 14 en versterkt het vertrouwen van uw eigen medewerkers in het systeem.
Observability en evaluatie
Agents zijn moeilijker te debuggen dan eenvoudige LLM-toepassingen omdat ze meerdere stappen ondernemen. We instrumenteren elke planner-, executor- en criticusbeslissing met traces (LangSmith, OpenTelemetry) en bouwen evaluatiesuites die niet alleen het eindresultaat maar ook de tussenstappen toetsen. Maandelijks reviewen we de "agent-trajecten": welke paden kiest de agent vaak, waar escaleert hij, waar zit hallucinatierisico. Deze rapportage is tegelijk uw EU AI Act-monitoringbewijs en uw operationele verbeterloop.