Das beste KI-Modell löst 3 Prozent echter Wissensarbeit. Warum diese Zahl zählt.

Eine Benchmark veröffentlicht diese Woche misst etwas, das die meisten KI-Teams stillschweigend vermeiden zu messen: wie gut die besten verfügbaren Modelle bei der Art von Arbeit abschneiden, die Menschen tatsächlich an ihren Schreibtischen erledigen. Nicht Coding-Rätsel. Nicht Trivia. Nicht eine saubere PDF zusammenfassen. Echte, mehrstufige Wissensarbeit, die Art, die Urteilsvermögen, Kontextwechsel und die Fähigkeit erfordert, sich von eigenen Fehlern zu erholen.

Das Ergebnis. Das beste Modell hat etwa 3 Prozent der Aufgaben vollständig und korrekt bewältigt.

Diese Zahl wird Menschen überraschen, die Demos verfolgt haben. Sie wird niemanden überraschen, der versucht hat, einen echten Workflow auf einem Large Language Model zu betreiben.

A colorful beach ball partially submerged in clear blue water, viewed from below.

Was die Benchmark tatsächlich getestet hat

Die meisten KI-Benchmarks sind so gestaltet, dass sie lösbar sind. Die Aufgaben sind diskret, die Eingaben sind sauber, und der Erfolg lässt sich leicht bewerten. Das produziert beeindruckende Zahlen und selbstbewusste Pressemitteilungen.

Diese Benchmark hat etwas anderes getan. Sie modellierte Aufgaben aus echter Büroarbeit: Forschungssynthese, Schreiben unter Einschränkungen, Arbeit in ungeordneten Dokumenten, Umgang mit mehrdeutigen Anweisungen und das Abschließen mehrstufiger Ketten, bei denen ein früher Fehler zu Problemen führt. Die Art von Arbeit, die ein guter Junior-Analyst, ein fähiger Account Manager oder eine scharfsinnige Strategin vor dem Mittagessen erledigt.

Die Aufgaben waren nicht so gestaltet, um für KI schwierig zu sein. Sie waren so gestaltet, um für Menschen normal zu sein.

Unter diesen Bedingungen hat das beste verfügbare Modell 3 Prozent der Aufgaben fehlerfrei abgeschlossen. Andere Modelle schnitten noch schlechter ab.

Demos laufen auf sauberen Eingaben. Echte Arbeit nicht. Die Lücke zwischen diesen beiden Dingen ist dort, wo die meisten KI-Projekte stillschweigend scheitern.
Max Pinas, Studio Hyra

Warum sich die Genauigkeit falsch verdoppelt

Hier ist der Teil, der es wert ist, sich Zeit zu nehmen. Eine Aufgabe, die zehn aufeinanderfolgende Schritte erfordert, jeweils mit 80 Prozent Genauigkeit abgeschlossen, erreicht das Ziel mit einer 10-Prozent-Chance, vollständig korrekt zu sein. Das ist keine Eigenheit dieser bestimmten Benchmark. Das ist Mathematik.

Wissensarbeit ist fast immer sequenziell. Du recherchierst, dann synthetisierst du, dann entwirf du, dann bearbeitest du mit neuem Kontext, dann entscheidest du. Bei jedem Schritt sammelt ein KI-Assistent, der zu 90 Prozent genau ist, stillschweigend Fehler an. Ab Schritt fünf oder sechs ist die Ausgabe plausibel, aber falsch auf Weise, die schwer zu erkennen sind, ohne echtes Fachwissen.

Das ist das, was KI in der Agenturarbeit so spezifisch macht. Die Ausgabe sieht normalerweise gut aus. Die Senior-Person im Raum ist diejenige, die erkennen kann, wenn das nicht der Fall ist. Wenn du diese Person aus dem Loop entfernst, um Kosten zu sparen, entfernst du den einzigen zuverlässigen Fehlerkontrollmechanismus, den du hattest.

A pair of human legs kicking through clear water, viewed from below the surface.

Wo KI seinen Platz verdient

Das alles bedeutet nicht, dass KI in Wissensarbeit nutzlos ist. Es bedeutet, dass die ehrliche Darstellung schmaler ist als das Marketing suggert.

KI schneidet gut ab bei begrenzten, klar definierten Aufgaben, bei denen die Eingabe strukturiert ist und die korrekte Ausgabe überprüfbar ist. Eine erste Version von Copy aus einem klaren Brief entwerfen. Strukturierte Daten aus einem einheitlichen Format extrahieren. Dieselbe Operation über ein großes Volumen ähnlicher Eingaben laufen. Zwischen Formaten übersetzen. Optionen generieren, nicht Entscheidungen.

Das sind echte nützliche Dinge. Bei Studio Hyra bauen wir jede Woche Workflows darum herum. Aber sie haben ein gemeinsames Merkmal: Ein Mensch, der die Domäne kennt, kann die Ausgabe schnell überprüfen. Die KI macht die Arbeit, der Mensch kontrolliert sie. Diese Arbeitsteilung funktioniert. Sie zu invertieren, die KI zu bitten, die Arbeit des Menschen zu überprüfen oder unbeaufsichtigt an etwas Wichtigem zu arbeiten, ist der Punkt, an dem die 3-Prozent-Zahl anfängt zu beißen.

Die Agenturen, die jetzt gut mit KI umgehen, sind nicht diejenigen, die das meiste automatisiert haben. Sie sind diejenigen, die herausgefunden haben, welche 20 Prozent ihres Workflows in begrenzte Aufgaben passen, und saubere Systeme darum herum gebaut haben.

Das ehrliche Gespräch, das niemand mit Kunden führt

Es gibt eine Version des KI-Pitchs, den Agenturen Kunden geben, bei dem das Modell die ungeordnete Mitte eines Projekts bewältigt: die Recherche, die Strategiesynthese, die Entwürfe, die Iteration. Dieser Pitch funktioniert gut in einem Slide Deck. Er überlebt keinen Kontakt mit dem echten Workflow.

Kunden fangen an zu merken. Nicht weil sie Modelle benchmarken, sondern weil sie Ausgaben erhalten, die sich richtig anfühlen, bis jemand mit echtem Kontext sie sorgfältig liest.

Das nützlichere Gespräch beginnt mit einer anderen Frage. Nicht: wie viel davon kann KI machen? Sondern: Welche spezifischen Teile dieses Projekts haben klare Eingaben, klare Erfolgskriterien und eine kurze Feedback-Schleife? Baue KI in diese Teile. Behalte Menschen bei allem anderen. Sei explizit über die Linie.

Das ist weniger aufregend zu verkaufen. Es ist ehrlicher zu liefern. Und in einem Markt, wo KI-Hype bereits eine zweite Welle der Enttäuschung produziert, sieht Ehrlichkeit über den Umfang anfang wie ein Wettbewerbsvorteil aus.

Sunlight streaming through wavy water surface, creating patterns on the bottom, viewed from below.

Die Agenturen, die gut mit KI umgehen, sind nicht diejenigen, die das meiste automatisiert haben. Sie sind diejenigen, die genau wissen, wo die Linie ist.
Max Pinas, Studio Hyra

Was die 3 Prozent dir wirklich sagen

Eine 3-Prozent-Erfolgsquote bei echter Wissensarbeit ist kein vernichtendes Urteil über KI. Es ist eine Kalibrierung. Es sagt dir, dass die Technologie unter spezifischen Bedingungen wirklich mächtig ist und außerhalb von ihnen wirklich unzuverlässig. Das ist nützliche Information, wenn du Systeme darum herum entwirfst.

Die Praktiker, die KI in den nächsten Jahren gut nutzen, sind nicht diejenigen, die an die Demos glauben. Sie sind diejenigen, die die Fehlermodi verstehen, an den richtigen Momenten menschliche Überprüfung gestalten und dem Druck widerstehen, die Aufsicht aus dem Prozess zu automatisieren, um ein Kostenziel zu erreichen.

Modelle werden sich verbessern. Die 3 Prozent werden zu 10 Prozent, dann zu 30 Prozent. Die Frage ist nicht, ob KI besser bei Wissensarbeit wird. Das wird sie. Die Frage ist, ob die Systeme und Gewohnheiten, die wir jetzt bauen, ehrlich genug sind, um diesen Übergang zu überstehen, oder ob sie auf der Annahme gebaut sind, dass die Demo das Echte war.

Für jetzt ist die Demo nicht das Echte. Das Echte hat 3 Prozent. Baue danach.

Das beste KI-Modell löst 3 Prozent echter Wissensarbeit. Warum diese Zahl zählt.

Was die Benchmark tatsächlich getestet hat

Warum sich die Genauigkeit falsch verdoppelt

Wo KI seinen Platz verdient

Das ehrliche Gespräch, das niemand mit Kunden führt

Was die 3 Prozent dir wirklich sagen

Weiterlesen.

Zehn Prozent beziehen ihre Nachrichten von Chatbots. Fast niemand klickt weiter

Doppelter Preis, fünf Prozent besser. Lohnt sich das?

Momentum beginnt mit einem Gespräch.

Weiterlesen.

Zehn Prozent beziehen ihre Nachrichten von Chatbots. Fast niemand klickt weiter

Doppelter Preis, fünf Prozent besser. Lohnt sich das?