De controles zijn niet exotisch
Geen van de fixes hier vraagt om een dedicated platform team of een zes-cijferig observability contract. Ze vragen om discipline, en om iemand wiens baan het is om erom te geven.
Spend limits bestaan op elk groot AI platform. Anthropic, OpenAI en Google bieden allemaal hard caps en soft alerts op accountniveau. Zet ze in voordat je deploy, niet na de eerste factuur. Als je billing threshold voor een prototype "geen limit" moet zijn, is die prototype niet klaar om ingezet te worden.
Losse keys per project, per klant, per omgeving. Dit klinkt voor de hand liggend. Het wordt niet consequent gedaan. Eén key per deployment betekent één kostsignaal per deployment. Dat is de minimale eenheid van zichtbaarheid die je nodig hebt om iets te managen.
Bouw token usage in je scoping. Als je de kosten van een AI-feature schat, werk je terug vanaf het token count. Hoeveel calls per user session? Hoeveel sessions per dag? Wat is de gemiddelde prompt length? Hoeveel rekent het model per miljoen input en output tokens? Dit zijn geen moeilijk te vinden getallen. De providers publiceren hun pricing. Het werk is om de vermenigvuldiging te doen voordat je verstuurt, niet erna.
Log wat draait. Als je een orchestration layer gebruikt zoals LangChain, LlamaIndex, of iets custom, zorg dat token counts en latency op call level worden vastgelegd. Totaliseer ze dagelijks. Een kostgrafiek die dinsdag omhoog schiet, vertelt je dat dinsdag iets gebeurde. Zonder grafiek kom je erachter als Anthropic het doet.