Vorige week verscheen een benchmark die iets meet wat AI-teams graag vermijden: hoe goed beschikbare modellen presteren op het werk dat mensen werkelijk aan hun bureau doen. Niet coderingsopgaven. Niet trivialiteiten. Niet het samenvatten van een nette PDF. Echt multi-staps kenniswerk, waar je oordeel, contextwisseling en het vermogen nodig hebt om je eigen eerdere fouten te herstellen.
De uitslag. het best presterende model voltooide ongeveer 3 procent van de taken volledig en correct.
Dat getal verrast iedereen die zich in demo's heeft verdiept. Het verrast niemand die ooit een echte workflow op een groot taalmodel heeft geprobeerd.



