Niemand ziet de AI-rekening

In AI-kringen doet een verhaal de ronde over een bedrijf dat naar verluidt in een maand een factuur van 500 miljoen dollar bij Anthropic opliep. Het bedrag kwam van Claude Code, de agentic coding assistant, die zonder uitgavenlimiet draaide. Of het eindbedrag vervolgens omlaag is onderhandeld of het verhaal in de herhaling is opgesmukt doet er niet toe. Het punt is dat het volledig aannemelijk is. En dat is het probleem.

De meeste teams die AI nu inzetten, doen het snel. Dat is niet fout. Snelheid is belangrijk. Maar snelheid zonder kostenmodel is gewoon een manier om geld op grote schaal te verliezen. En de agentschappen en productteams waar ik mee praat, negeren vaker dan niet de meter terwijl ze het resultaat volgen.

Het deel waar niemand budget voor had

Als een bedrijf een SaaS-tool gebruikt, weet iemand bij finance wat het per persoon kost. Het getal staat in een contract. Het verlengt jaarlijks. Er is een regel in het spreadsheet.

AI API-gebruik werkt niet zo. Het is op consumptie gebaseerd, het schaalt mee met activiteit, en het verergert als je agents eraan hangt. Een agent die loopt, opnieuw probeert of parallel draait, stuurt je geen waarschuwing. Die draait gewoon door. Claude, GPT-4o, Gemini, ze rekenen allemaal af per token. Een coding agent die een grote codebase doorwerkt, verbruikt tokens sneller dan elke menselijke engineer die dezelfde bestanden leest.

De wiskunde is niet ingewikkeld. Wat ingewikkeld is, is dat de meeste deployments gebeuren voordat iemand de wiskunde heeft gedaan. Een developer verstuurt een feature. De feature werkt. De feature schaalt. De factuur komt vier weken later binnen en niemand herkent het bedrag.

Dit is geen technologiefout. Dit is een gat in de governance.

Snelheid telt bij AI-deployment. Maar snelheid zonder kostenmodel is gewoon een manier om geld op grote schaal te verliezen.
Max Pinas, oprichter van Studio Hyra

Waar agentschappen het eerst mis gaan

In een agency-context is het risico specifiek. Je zet AI vaak in voor klanten, of je bouwt interne AI-capaciteit om meer klanten sneller te bedienen. Beide situaties creëren hetzelfde structurele probleem: wie de deployment besloot is niet wie de factuur ziet.

Ik zie drie foutpatronen zich herhalend voorkomen.

De eerste is de prototype die volwassen werd. Iemand bouwt snel een AI-feature om aan een klant te laten zien. De demo slaat goed aan, de klant vraagt om het draaiend te houden, en de prototype gaat naar production zonder al de ondersteuning die een productiesysteem nodig heeft. Geen spend caps. Geen monitoring. Geen alerting. Gewoon een live API key en optimisme.

De tweede is de agent die niemand inperktte. Agentic workflows zijn echt nuttig. Ze zijn ook echt duur als het misgaat. Een lus die per taak tien keer een LLM aanroept, draaiend over een paar honderd taken per dag, produceert een factuur die nergens op lijkt met de kostenraming van de week waarin de agent werd uitgewerkt.

De derde is de gedeelde key. Eén API key die over meerdere projecten, meerdere klanten, meerdere omgevingen wordt gebruikt. Als de factuur aankomt, kan niemand je zeggen welk project welke kosten heeft gegenereerd. Je kunt niet wegsnijden wat je niet ziet.

De controles zijn niet exotisch

Geen van de fixes hier vraagt om een dedicated platform team of een zes-cijferig observability contract. Ze vragen om discipline, en om iemand wiens baan het is om erom te geven.

Spend limits bestaan op elk groot AI platform. Anthropic, OpenAI en Google bieden allemaal hard caps en soft alerts op accountniveau. Zet ze in voordat je deploy, niet na de eerste factuur. Als je billing threshold voor een prototype "geen limit" moet zijn, is die prototype niet klaar om ingezet te worden.

Losse keys per project, per klant, per omgeving. Dit klinkt voor de hand liggend. Het wordt niet consequent gedaan. Eén key per deployment betekent één kostsignaal per deployment. Dat is de minimale eenheid van zichtbaarheid die je nodig hebt om iets te managen.

Bouw token usage in je scoping. Als je de kosten van een AI-feature schat, werk je terug vanaf het token count. Hoeveel calls per user session? Hoeveel sessions per dag? Wat is de gemiddelde prompt length? Hoeveel rekent het model per miljoen input en output tokens? Dit zijn geen moeilijk te vinden getallen. De providers publiceren hun pricing. Het werk is om de vermenigvuldiging te doen voordat je verstuurt, niet erna.

Log wat draait. Als je een orchestration layer gebruikt zoals LangChain, LlamaIndex, of iets custom, zorg dat token counts en latency op call level worden vastgelegd. Totaliseer ze dagelijks. Een kostgrafiek die dinsdag omhoog schiet, vertelt je dat dinsdag iets gebeurde. Zonder grafiek kom je erachter als Anthropic het doet.

Als je billing threshold voor een prototype 'geen limit' moet zijn, is die prototype niet klaar om ingezet te worden.
Max Pinas, oprichter van Studio Hyra

Wie draagt hier verantwoordelijkheid voor

Het eerlijke antwoord is dat momenteel vaak niemand dat doet. AI-deployment is de organisatiestructuren voorbijgestreefd die het normaal zouden reguleren. In de meeste agentschappen bestaat geen AI ops functie. Er is een developer die enthousiast is over LLM's en een klant die enthousiast is over de resultaten. Dat is prima om mee te beginnen. Maar niet prima om mee te draaien.

De rol die formeel of informeel moet bestaan, is iemand die twee vragen stelt voordat iets live gaat. Ten eerste: wat kost dit bij tien keer de verwachte load? Ten tweede: wat triggert een alert of een hard stop als die load wordt bereikt?

Die twee vragen vragen niet om een nieuwe aanstelling. Ze vragen om een beslissing over wie verantwoordelijk is. In een klein agentschap kan dat de technical lead zijn. In een groter agentschap kan het een delivery manager of principal engineer zijn. De titel maakt niet uit. De verantwoordelijkheid wel.

Er is een breder punt hier over hoe AI-werk wordt verkocht en opgeleverd. Als je een vaste prijs noemt voor een project dat LLM calls bevat, neem je het marginrisico van elke token die draait op je. Dat risico moet worden doorgerekend, gelimiteert, en óf in het engagement geprijsd óf aan de klant doorgegeven met transparante usage reporting. Geen van beide opties is ingewikkeld. Allebei vragen ze om het gesprek voor het contract is getekend.

De vraag naar waarde

Ik wil duidelijk zijn dat dit allemaal geen argument is tegen snel werken met AI. De teams die interessant werk doen nu zijn de teams die hebben verstuurd, geleerd, en opnieuw geprobeerd. Voorzichtigheid om voorzichtigheid's wil is gewoon traag mislukken.

Maar kostdiscipline is geen voorzichtigheid. Het is het ding dat je laat blijven versturen. Een team dat zijn AI-budget in maand één opbrandt aan een ungoverned prototype kan in maand drie geen experimenten meer doen. Een klant die een onverwachte factuur krijgt, komt niet terug voor de volgende engagement.

Het 500 miljoen dollar verhaal, echt of opgesmukt, is nuttig omdat het extreem genoeg is om het punt duidelijk te maken. Je hoeft nergens in de buurt van dat getal te gaan voor ongereglementeerde AI-uitgaven om echt schade aan een project, een klantrelatie, of de financiën van een studio te veroorzaken.

De tools om het te voorkomen staan al in de dashboards van je providers. De discipline om ze te gebruiken is een keuze. Maak die keuze voordat je deployed.

Niemand ziet de AI-rekening

Het deel waar niemand budget voor had

Waar agentschappen het eerst mis gaan

De controles zijn niet exotisch

Wie draagt hier verantwoordelijkheid voor

De vraag naar waarde

Blijf lezen.

Europa wordt in het nauw gedreven door twee kampen tegelijk

Een AI voerde de ransomware-aanval uit. Nu uitzoeken wie daar verantwoordelijk voor is.

Momentum begint met een gesprek.

Blijf lezen.

Europa wordt in het nauw gedreven door twee kampen tegelijk

Een AI voerde de ransomware-aanval uit. Nu uitzoeken wie daar verantwoordelijk voor is.