Eine Benchmark veröffentlicht diese Woche misst etwas, das die meisten KI-Teams stillschweigend vermeiden zu messen: wie gut die besten verfügbaren Modelle bei der Art von Arbeit abschneiden, die Menschen tatsächlich an ihren Schreibtischen erledigen. Nicht Coding-Rätsel. Nicht Trivia. Nicht eine saubere PDF zusammenfassen. Echte, mehrstufige Wissensarbeit, die Art, die Urteilsvermögen, Kontextwechsel und die Fähigkeit erfordert, sich von eigenen Fehlern zu erholen.
Das Ergebnis. Das beste Modell hat etwa 3 Prozent der Aufgaben vollständig und korrekt bewältigt.
Diese Zahl wird Menschen überraschen, die Demos verfolgt haben. Sie wird niemanden überraschen, der versucht hat, einen echten Workflow auf einem Large Language Model zu betreiben.



