Technology6 minuten

Inferencekosten halveren. Waarom groeien AI-budgetten toch nog?

July 4, 2026

De inferentiekosten voor grote taalmodellen zijn in het afgelopen jaar met meer dan de helft gedaald. Je zou verwachten dat AI-budgetten hetzelfde doen. Dat gebeurt niet. De meeste bureaus en product teams geven meer aan AI uit dan een jaar geleden, niet minder. Die kloof verdient aandacht, omdat die je iets nuttigs vertelt over hoe organisaties echt met nieuwe technologie omgaan, versus hoe ze ervan plannen.

Het kernpunt. Goedkopere inferentie betekent niet goedkoper AI. Het betekent meer AI. En meer AI zonder duidelijke architectuur laat je kosten groeien op manieren die een verlaging van de per-token prijs niet oplost.

A person reading a book alone at a wooden table inside a sunlit library.

De Jevons-val in je sprint backlog

In de jaren 1860 merkte econoom William Stanley Jevons op dat efficiëntere kolenmachines tot meer kolenconsumptie leidden, niet minder. Efficiëntie maakte kolen rendabel voor meer toepassingen, dus de vraag groeide sneller dan de efficiëntie toenam. Datzelfde patroon speelt zich nu af in AI-budgetten.

When GPT-4 class inference cost a dollar per thousand tokens, teams were disciplined. You routed only what needed routing to the expensive model. You cached aggressively. You designed prompts to be short. When costs dropped sharply, that discipline relaxed. Teams added features, expanded context windows, connected more data sources, ran more evaluations. Each of these is individually reasonable. Cumulatively, they erase the savings and then some.

Dit is geen fout van oordeel. Het is normaal gedrag van een rationaal team dat met een net betaalbare input werkt. De fout is aannemen dat goedkopere per-unit kosten tot een lagere totaalnota leiden.

Goedkopere tokens doen je AI-factuur niet dalen. Ze vergroten je honger naar AI. Daar kun je beter op voorbereid zijn.
Max Pinas, Studio Hyra

Waar het geld werkelijk heen gaat

Als we AI-uitgaven voor klanten in kaart brengen, is de inferentieregel zelden de grootste. Hier is waar budgetten werkelijk groeien.

Orchestratie en glue code. Het verbinden van modellen met je data, APIs en bestaande tools kost engineering-uren. Die uren worden niet goedkoper omdat OpenAI prijzen verlaagt.

Evaluatie. Een serieuze eval suite voor een AI-feature in productie kost echt geld om op te bouwen en onderhouden. De meeste teams onderschatten dit met een factor drie tot vier bij de start.

Menselijke review. Voor alles wat ertoe doet, leest nog steeds iemand de output. Die persoon heeft een salaris. Hun tijd is een kost die niet verschijnt in je model billing dashboard.

Rework door overhaaste architectuur. De duurste AI-kost is degene die pas zes maanden later opduikt, wanneer je een feature moet herontwerpen omdat je die rond een modelcapaciteit bouwde die verschoof, of een prompt-patroon dat niet meer op schaal werkte.

Inferentiekosten zijn een klein deel van dit plaatje. Als ze dalen, wordt het plaatje niet proportioneel goedkoper. Het wordt groter.

An empty urban street at sunset, with long shadows cast across the pavement.

Wat snellere modeleconomie werkelijk verandert

Dat gezegd zijnde, de verschuiving is echt en het doet ertoe. Dit is wat het werkelijk verandert voor bureaus en product teams.

De startdrempel voor features schuift. Use cases die twaalf maanden geleden economisch marginaal waren, zijn nu het bouwen waard. AI-ondersteunde search over grote documentsets, real-time personalisatie op contentniveau, multimodale inputs in mobiele flows. Dit waren leuke-to-have vorig jaar. Nu passen ze in het budget van mid-market producten.

Het competitieve raam krimpt. Als je wachtte tot AI goedkoop genoeg was voor een feature, wachtten je concurrenten op dezelfde drempel. Wanneer de prijs daalt, oversteken ze die allemaal min of meer tegelijk. Snelheid van implementatie weegt zwaarder dan toen kosten het onderscheidend factor waren.

Modelkeuzelogica moet geüpdatet. Veel teams bouwden routing logic, keuzes tussen goedkopere en meer capable modellen, gebaseerd op prijspunten die niet meer bestaan. Als je nog steeds een model router draait gekalibreerd voor 2023-prijzen, voeg je latency en complexiteit toe voor besparingen die op provider-niveau al gerealiseerd zijn.

Het budgetcyclus-probleem

De meeste organisaties budgetteren jaarlijks. AI-modeleconomie beweegt op een zes-maands ritme, misschien sneller. Die mismatch creëert een specifieke misfunctie: teams zetten aannames vast aan het begin van een fiscaal jaar die in Q3 materieel fout zijn.

De oplossing is niet minder zorgvuldig plannen. Het is de lagen van je AI-investering scheiden. Scheid wat je aan infrastructuur en modelaccess uitgeeft, wat blijft verschuiven, van wat je aan architectuur, evaluatie en de mensen die het systeem onderhouden en verbeteren besteedt. Dit tweede stuk is stickier. Het moet stabieler gepland en bemand worden, niet als variabele kost behandeld.

Als je AI-budget vooral een regelpost is voor API-access, meet je het verkeerde. De echte investering is in het team en het systeemontwerp rond de modellen. Daar zit de duurzame waarde, en dat is het deel dat niet goedkoper wordt als inferentiekosten dalen.

A potted plant on a windowsill, silhouetted against a brightly lit window.

De vraag is niet wat inferentie vandaag kost. Het is wat je systeem kost om te onderhouden als het model waarvan het afhangt over achttien maanden deprecated is.
Max Pinas, Studio Hyra

Wat je hier mee doet

Drie dingen die nu de moeite waard zijn, onafhankelijk van waar inferentieprijzen volgende keer heen gaan.

Eerst, audit je AI-uitgaven per laag. Scheid modelkosten van engineering-kosten van review-kosten. Als je dit niet hebt gedaan, optimaliseer je waarschijnlijk het verkeerde getal.

Twee, herzie feature-kandidaten die in 2023 of begin 2024 om kostredenen werden afgekeurd. Sommige daarvan zijn nu haalbaar. Een snelle herbeoordeling kost een dag en kan iets nuttigs ontgrendelen.

Derde, investeer in je eval-laag voordat je meer features toevoegt. Goedkope inferentie betekent dat je meer kunt draaien, sneller. Dat is alleen voordelig als je snel kunt zien of wat je draait daadwerkelijk werkt. Zonder een solide evaluatieproces wordt snelheid een risico.

De economie van AI verschuift in jouw voordeel. Of je budget dat weerspiegelt, hangt minder af van wat modellen kosten en meer van hoe bewust je het systeem eromheen hebt ingericht.

Klaar als jij het bent

Momentum begint met een gesprek.

Geen formulieren, geen intake. Gewoon een echt gesprek met de mensen die het werk doen.

Plan een gesprekPlan een gesprek

Waar het geld werkelijk heen gaat

Als we AI-uitgaven voor klanten in kaart brengen, is de inferentieregel zelden de grootste. Hier is waar budgetten werkelijk groeien.

Orchestratie en glue code. Het verbinden van modellen met je data, APIs en bestaande tools kost engineering-uren. Die uren worden niet goedkoper omdat OpenAI prijzen verlaagt.

Evaluatie. Een serieuze eval suite voor een AI-feature in productie kost echt geld om op te bouwen en onderhouden. De meeste teams onderschatten dit met een factor drie tot vier bij de start.

Menselijke review. Voor alles wat ertoe doet, leest nog steeds iemand de output. Die persoon heeft een salaris. Hun tijd is een kost die niet verschijnt in je model billing dashboard.

Inferentiekosten zijn een klein deel van dit plaatje. Als ze dalen, wordt het plaatje niet proportioneel goedkoper. Het wordt groter.

Inferencekosten halveren. Waarom groeien AI-budgetten toch nog?

De Jevons-val in je sprint backlog

Waar het geld werkelijk heen gaat

Wat snellere modeleconomie werkelijk verandert

Het budgetcyclus-probleem

Wat je hier mee doet

Momentum begint met een gesprek.

Inferencekosten halveren. Waarom groeien AI-budgetten toch nog?

De Jevons-val in je sprint backlog

Waar het geld werkelijk heen gaat

Wat snellere modeleconomie werkelijk verandert

Het budgetcyclus-probleem

Wat je hier mee doet

Blijf lezen.

Nvidia speelt geldverstrekker voor AI-startups

Wat gebeurt er als je een system prompt met 80 procent inkorpt?

Momentum begint met een gesprek.

Blijf lezen.

Nvidia speelt geldverstrekker voor AI-startups

Wat gebeurt er als je een system prompt met 80 procent inkorpt?