Technology6 min lezen

Van AI-pilot naar AI in productie

April 29, 2026

De meeste bedrijven hebben inmiddels een pilot gedraaid. Sommige zelfs meerdere. Het patroon is herkenbaar: een klein team kiest een use case, bouwt er een model omheen, demo't het aan de directie, krijgt applaus, en loopt daarna vast ergens tussen "dit werkt in staging" en "dit kunnen we uitrollen."

Uit een McKinsey-onderzoek uit 2024 blijkt dat 79% van de executives zegt pijn te ervaren bij AI-adoptie. Een apart cijfer van Gartner laat zien dat slechts 31% van de organisaties een formeel meetframework heeft voor productie-agents. Leg die twee getallen naast elkaar en het probleem is helder. Pilots draaien overal. De discipline om iets productieklaar te maken, vrijwel nergens.

Dit is geen capabilities-probleem. De modellen zijn goed genoeg. De tooling is volwassen genoeg. Wat ontbreekt is het vakmanschap om van een experiment iets te maken waar je een heel kwartaal op kunt inzetten.

Waarom pilots stranden op de drempel

Een pilot is ontworpen om één vraag te beantwoorden. kan dit werken? Hij mag fragiel zijn. Iemand houdt hem in de gaten. Iemand grijpt in als hij halverwege de mist in gaat. Iemand controleert handmatig de output voordat die iets echts raakt.

Productie is een ander verhaal. Niemand kijkt elke run mee. Fouten zijn stil. Kosten lopen op op de achtergrond. Gebruikers bouwen gewoontes op rondom het systeem, goede en slechte. En als er iets misgaat, moet je dat binnen minuten weten, niet weken.

Het verschil tussen die twee situaties overbrugje niet met een sprint opruimwerk. Het vraagt om een andere manier van kijken naar wat je hebt gebouwd. De meeste teams slaan die heroverweging over, omdat de pilot er zo veelbelovend uitzag. Precies daar begint het gedonder.

Er is ook een organisatorische aantrekkingskracht richting de demo. Een werkende demo is zichtbaar. Die wekt enthousiasme. Productiegereedheid is onzichtbaar, tot het moment dat het misgaat voor een klant. De druk om de demo te shippen en het daarbij te laten is dus reëel. Weerstand bieden vraagt om een actieve keuze.

Een pilot mag fragiel zijn. Iemand houdt het in de gaten. Productie is een ander verhaal. Niemand kijkt elke run na, en als het misgaat, merk je het niet eens.
Max Pinas, Studio Hyra

Drie dingen die er toe doen in de tweede helft van 2026

Na het werken met productie-agentsystemen in verschillende klanttrajecten, zijn er drie disciplines die het verschil maken tussen systemen die standhouden en systemen die stilletjes worden uitgezet.

1. Een meetframework per agent, niet per product

De standaard metric voor de meeste AI-features die live gaan, is adoptie. Hoeveel gebruikers het hebben geopend. Hoeveel sessies. Hoeveel seats geactiveerd. Dat is een productmetric, geen agentmetric. Het vertelt je niets over of de agent doet waarvoor je hem gebouwd hebt.

De bruikbare metrics zitten een niveau dieper. Taaksuccespercentage: heeft de agent de toegewezen taak afgerond zonder dat een mens moest ingrijpen of het opnieuw doen? Nauwkeurigheid van tool-aanroepen: als de agent een functie of API aanriep, deed hij dat met de juiste argumenten? Kosten per uitkomst: niet per token, niet per sessie, maar per eenheid daadwerkelijk geleverde waarde.

Die zijn lastiger te instrumenteren, zeker als je agent snel in elkaar is gezet voor een demo. Maar het zijn de enige cijfers die je vertellen of het systeem zijn plek in de stack verdient. Kies er twee of drie voor je live gaat. Later kun je er altijd meer aan toevoegen. Met geen enkele starten betekent dat je vliegt zonder instrumenten.

2. Identiteit, auditlogs, rollback en menselijke override zijn de basis, niet het plafond

Elke productieagent moet weten namens wie hij handelt, een spoor achterlaten van wat hij heeft gedaan, teruggedraaid kunnen worden als hij op basis van slechte data heeft gehandeld, en een duidelijk pad hebben waarlangs een mens kan ingrijpen en het overneemt.

Die vier dingen zijn geen compliance-checklist. Het zijn de mechanische eigenschappen die een agentisch systeem veilig maken om op schaal te draaien. Zonder die eigenschappen kan één slechte run de state corrumperen, een klant verkeerd in rekening brengen, iets onherstelbaar verwijderen, of een downstream proces starten dat dagen kost om terug te draaien.

Het bezwaar dat ik meestal hoor, is dat het toevoegen van deze infrastructuur het team vertraagt. Dat klopt, licht, de eerste keer. Bij de derde agent kost het twee uur, want de patronen liggen er al in. De kosten om dit achteraf toe te voegen na een incident liggen een orde van grootte hoger.

Dit is dezelfde logica waardoor versiebeheer ononderhandelbaar werd voor code. Niemand discussieert er nog over. Auditlogs en rollback voor agents komen ook zover. Teams die dit nu als optioneel behandelen, lenen gewoon tijd.

3. ROI op uitkomstniveau, niet op toolniveau

Dit is waar veel businesscases stil instorten. Een team bouwt een agent, meet de kosten om hem te draaien (compute, API-aanroepen, engineeringtijd), vergelijkt dat met de licentiekosten van de SaaS-tool die hij vervangt, en beschouwt het als een succes.

Maar de toolkosten waren nooit de echte kosten. De echte kosten waren de tijd die iemand besteedde aan een taak die een resultaat opleverde. De juiste vraag is: levert de agent dat resultaat sneller, nauwkeuriger en met minder correcties achteraf? Dat is een uitkomst. Daar zit de ROI.

Meten op toolniveau voelt comfortabel omdat de cijfers makkelijk op te halen zijn. Meten op uitkomstniveau vereist dat je definieert hoe een goed resultaat eruitziet. Dat dwingt een gesprek over kwaliteit af dat veel teams nog niet willen voeren. Voer dat gesprek voor je iets live zet. Het maakt alle andere beslissingen scherper.

De productiemindset in de praktijk

Bij Studio Hyra valt dit werk onder wat wij Track B noemen. Track A is de snelle, uitgesproken build: assisted coding, rapid prototyping, iets echts voor mensen zetten binnen een paar weken. Track B is de discipline die daarop volgt. Geen handoff, geen apart traject. Dezelfde manier van denken, gericht op de vraag of wat we hebben gebouwd ook op de lange termijn te vertrouwen is.

Die framing is belangrijk omdat ze het gesprek met de klant verandert. Als Track A en Track B twee losse projecten zijn met twee losse budgetten, stopt de klant vaak bij Track A en gaat ervan uit dat het werk klaar is. Als het twee fases van hetzelfde traject zijn, komen de productieveragen vroeg op tafel: tijdens het ontwerp, tijdens de scaffolding, nog voor de demo af is.

Het principe "Decision Making, Speed of Taste" waar we mee werken is hier ook van toepassing. Snelle smaak is het vermogen om een beslissing te nemen zonder drie weken analyse. In agent-productie betekent dat: op dinsdagochtend naar je task success rate kijken en voor de middag bepalen of je de agent moet terugschalen, een prompt moet bijstellen, of een tool call moet omleiden. Die snelheid van oordeel vereist dat de instrumentatie al op zijn plek zit. Dat improviseer je niet midden in een incident.

Fast taste is het vermogen om een beslissing te nemen zonder drie weken analyseren. In agent-productie betekent dat: je task success rate bekijken op dinsdagochtend en voor het middaguur een keuze maken.
Max Pinas, Studio Hyra

Wat je deze maand kunt doen

Heb je een pilot draaien en denk je na over de stap naar productie? Beantwoord dan eerst drie vragen voordat je ook maar één regel infrastructuurcode schrijft.

Een. hoe ziet een succesvolle run van deze agent eruit, in een zin die iemand zonder technische achtergrond begrijpt? Als je die zin niet kunt schrijven, kun je het ook niet meten.

Twee. wat is het ergste wat deze agent stilletjes kan doen? Een slechte conceptmail is klein bier. Een write naar een klantrecord of een betalingstrigger niet. Breng het risicoprofiel in kaart voordat je bepaalt hoeveel override en rollback je echt nodig hebt.

Drie. wie is over zes maanden eigenaar van deze agent? Niet het team dat hem heeft gebouwd. De persoon die gebeld wordt als hij degradeert, die de logs leest, die besluit of je opnieuw traint of vervangt. Is er geen naam aan die rol gekoppeld, dan is de agent niet productieklaar, hoe goed de demo er ook uitzag.

Die drie vragen kosten een middag. Ze besparen je maanden.

Klaar als jij het bent

Momentum begint met een gesprek.

Geen formulieren, geen intake. Gewoon een echt gesprek met de mensen die het werk doen.

Plan een gesprekPlan een gesprek

Drie dingen die er toe doen in de tweede helft van 2026

Na het werken met productie-agentsystemen in verschillende klanttrajecten, zijn er drie disciplines die het verschil maken tussen systemen die standhouden en systemen die stilletjes worden uitgezet.

Van AI-pilot naar AI in productie

Waarom pilots stranden op de drempel

Drie dingen die er toe doen in de tweede helft van 2026

1. Een meetframework per agent, niet per product

2. Identiteit, auditlogs, rollback en menselijke override zijn de basis, niet het plafond

3. ROI op uitkomstniveau, niet op toolniveau

De productiemindset in de praktijk

Wat je deze maand kunt doen

Momentum begint met een gesprek.

Van AI-pilot naar AI in productie

Waarom pilots stranden op de drempel

Drie dingen die er toe doen in de tweede helft van 2026

1. Een meetframework per agent, niet per product

2. Identiteit, auditlogs, rollback en menselijke override zijn de basis, niet het plafond

3. ROI op uitkomstniveau, niet op toolniveau

De productiemindset in de praktijk

Wat je deze maand kunt doen

Blijf lezen.

Wat de EU AI Act betekent voor je productstack in 2026

You don't need more traffic. You need to be the answer.

Momentum begint met een gesprek.

Blijf lezen.

Wat de EU AI Act betekent voor je productstack in 2026

You don't need more traffic. You need to be the answer.