Waar AI-modellen echt helpen. waarom 3 procent veel zegt

Vorige week verscheen een benchmark die iets meet wat AI-teams graag vermijden: hoe goed beschikbare modellen presteren op het werk dat mensen werkelijk aan hun bureau doen. Niet coderingsopgaven. Niet trivialiteiten. Niet het samenvatten van een nette PDF. Echt multi-staps kenniswerk, waar je oordeel, contextwisseling en het vermogen nodig hebt om je eigen eerdere fouten te herstellen.

De uitslag. het best presterende model voltooide ongeveer 3 procent van de taken volledig en correct.

Dat getal verrast iedereen die zich in demo's heeft verdiept. Het verrast niemand die ooit een echte workflow op een groot taalmodel heeft geprobeerd.

A colorful beach ball partially submerged in clear blue water, viewed from below.

De meeste AI-benchmarks zijn ontworpen om oplosbaar te zijn. De taken zijn afgebakend, de input is schoon, en succes is makkelijk te meten. Dat geeft indrukwekkende getallen en zelfverzekerde persberichten.

Deze benchmark deed iets anders. Het gebruikte taken gebaseerd op echte kantoorwerk: synthesewerk, schrijven onder beperkingen, werken in rommelige documenten, omgaan met onduidelijke instructies, en ketens afronden waar een vroege fout zich verderop verslechtert. Het soort werk dat een goed junior analist, een capabele accountmanager of een scherpe strateeg voor de lunch afmaakt.

De taken waren niet ontworpen om AI moeilijk te maken. Ze waren ontworpen om normaal te zijn voor mensen.

Onder die omstandigheden voltooide het best beschikbare model 3 procent van de taken helemaal zonder fouten. Andere modellen scoorden lager.

Demo's draaien op schone input. Echt werk niet. De kloof tussen die twee is waar de meeste AI-projecten stilzwijgend sterven.
Max Pinas, Studio Hyra

Dit is het deel waar je mee moet nadenken. Een taak met tien opeenvolgende stappen, elk met 80 procent nauwkeurigheid, eindigt met slechts 10 procent kans op volledig juiste uitvoering. Dit is geen eigenaardigheid van deze benchmark. Dit is rekenkunde.

Kenniswerk is bijna altijd opeenvolgend. Je rechercheert, dan syntheseert je, dan schrijf je, dan bewerk je met nieuwe context, dan beslis je. Bij elke stap stapelt een AI-assistent die 90 procent nauwkeurig is stilzwijgend fouten op. Na stap vijf of zes ziet de output er plausibel uit maar is fout op manieren die zonder echte domeinkennis moeilijk op te merken zijn.

Dit maakt AI in agencywerk zo specifiek. De output ziet er goed uit. De senior in de kamer is degene die kan zien wanneer het niet klopt. Als je die persoon uit de loop haalt om kosten te besparen, haal je het enige betrouwbare foutdetectiemechanisme weg dat je had.

A pair of human legs kicking through clear water, viewed from below the surface.

Dit betekent niet dat AI waardeloos is in kenniswerk. Het betekent dat het eerlijke kader smaller is dan de marketing doet voorkomen.

AI presteert goed op afgebakende, goed gedefinieerde taken waar de input gestructureerd is en de juiste output verifieerbaar. Een eerste versie van copy schrijven op basis van een duidelijke briefing. Gestructureerde data uit een consistent format extraheren. Dezelfde operatie herhalen op een groot volume soortgelijke inputs. Tussen formats vertalen. Opties genereren, niet beslissingen nemen.

Dit zijn echt bruikbare dingen. Bij Studio Hyra bouwen we daar elke week workflows omheen. Maar ze hebben een kenmerk gemeen: iemand die het domein kent kan de output snel controleren. De AI doet werk, de mens checkt het. Die arbeidsverdeling werkt. Het omdraaien ervan, de AI vragen het werk van de mens te controleren of onbewaakt iets zinvols te doen, is waar het 3 procentgetal begint te tellen.

De agencies die goed met AI omgaan automatiseren niet het meest. Ze hebben erachter gekomen welke 20 procent van hun workflow in afgebakende taken past, en hebben daar schone systemen omheen gebouwd.

Er is een versie van de AI-pitch die agencies klanten geven waarin het model de rommelige kern van een project handelt: recherche, strategie synthesis, schrijfwerk, iteratie. Die pitch werkt goed in een slide deck. Het overleeft niet het contact met de echte workflow.

Klanten beginnen dit op te merken. Niet omdat ze modellen benchmarken, maar omdat ze outputs krijgen die juist voelen totdat iemand met echte kennis ze aandachtig leest.

Het nuttigere gesprek begint met een ander vraag. Niet. hoeveel hiervan kan AI doen? Maar: welke specifieke onderdelen van dit project hebben duidelijke input, duidelijke succescriteria en een korte feedback loop? Bouw AI in die onderdelen. Houd mensen voor al het andere. Wees expliciet over de lijn.

Dit is minder spannend om te verkopen. Het is eerlijker om af te leveren. En in een markt waar AI-hype al een tweede golf teleurstelling veroorzaakt, eerlijkheid over scope begint er als een concurrentievoordeel uit te zien.

Sunlight streaming through wavy water surface, creating patterns on the bottom, viewed from below.

De agencies die goed met AI omgaan automatiseren niet het meest. Ze weten exact waar de lijn ligt.
Max Pinas, Studio Hyra

Een 3 procentvoltooiingspercentage op echt kenniswerk is geen vernietigend oordeel over AI. Het is een kalibratie. Het vertelt je dat de technologie echt krachtig is onder bepaalde omstandigheden en echt onbetrouwbaar daarbuiten. Dat is nuttige informatie als je systemen eromheen ontwerpt.

De praktijkmensen die AI de komende jaren goed zullen gebruiken geloven niet in de demo's. Ze begrijpen de malfunctioneringswijzen, ontwerpen menselijke controle op de juiste momenten, en verzetten zich tegen de druk om toezicht uit het proces te automatiseren om een kostendoel te halen.

Modellen zullen verbeteren. De 3 procent worden 10 procent, dan 30 procent. De vraag is niet of AI beter wordt in kenniswerk. Dat wordt het. De vraag is of de systemen en gewoonten die we nu bouwen eerlijk genoeg zijn om die overgang te overleven, of ze zijn gebouwd op de aanname dat de demo het echte werk was.

Voorlópig is de demo niet het echte werk. Het echte werk scoort 3 procent. Bouw eraan.

Waar AI-modellen echt helpen. waarom 3 procent veel zegt

Blijf lezen.

Één op tien krijgt nieuws van chatbots. Bijna niemand klikt door naar de bron

Twee keer zo duur, vijf procent beter. Is dat het waard?

Momentum begint met een gesprek.

Blijf lezen.

Één op tien krijgt nieuws van chatbots. Bijna niemand klikt door naar de bron

Twee keer zo duur, vijf procent beter. Is dat het waard?