Drei Dinge, die in der zweiten Hälfte von 2026 zählen
Nach der Arbeit mit produktiven Agentensystemen in mehreren Kundenprojekten zeigt sich: Drei Disziplinen trennen die Systeme, die sich halten, von denen, die still abgeschaltet werden.
1. Ein Messframework pro Agent, nicht pro Produkt
Die Standardmetrik für die meisten veröffentlichten KI-Features ist Adoption. Wie viele Nutzer es geöffnet haben. Wie viele Sessions. Wie viele Seats aktiviert wurden. Das ist eine Produktmetrik, keine Agentenmetrik. Sie sagt dir nichts darüber, ob der Agent das tut, wofür du ihn gebaut hast.
Nützliche Metriken liegen eine Ebene tiefer. Task-Success-Rate: Hat der Agent die zugewiesene Aufgabe abgeschlossen, ohne dass ein Mensch eingreifen oder nacharbeiten musste? Tool-Call-Genauigkeit: Wenn der Agent eine Funktion oder eine API aufgerufen hat, hat er die richtige mit den richtigen Argumenten gewählt? Kosten pro Ergebnis: nicht pro Token, nicht pro Session, sondern pro Einheit tatsächlich geliefertem Wert.
Das ist schwieriger zu messen, besonders wenn dein Agent schnell für eine Demo zusammengebaut wurde. Aber das sind die einzigen Zahlen, die dir sagen, ob das System seinen Platz im Stack verdient. Leg zwei oder drei Metriken fest, bevor du live gehst. Mehr kannst du später immer noch hinzufügen. Ohne eine einzige fliegst du blind.
2. Identity, Audit Logs, Rollback und menschliche Übernahme sind Pflicht, kein Bonus
Jeder produktive Agent muss wissen, in wessen Auftrag er handelt, eine Spur hinterlassen, was er getan hat, umkehrbar sein, wenn er auf Basis schlechter Daten handelt, und einen klaren Weg haben, damit ein Mensch einspringen und übernehmen kann.
Diese vier Dinge sind keine Compliance-Checkliste. Sie sind die mechanischen Eigenschaften, die ein agentisches System sicher im großen Maßstab betreibbar machen. Ohne sie kann ein einziger Fehllauf den State korrumpieren, einen Kunden falsch belasten, etwas unwiderruflich löschen oder einen nachgelagerten Prozess anstoßen, dessen Rückabwicklung Tage dauert.
Der Einwand, den ich meistens höre. Diese Infrastruktur verlangsamt das Team. Beim ersten Mal stimmt das leicht. Beim dritten Agenten ist es ein Zwei-Stunden-Setup, weil die Muster bereits vorhanden sind. Die Kosten, das nachträglich nach einem Vorfall einzubauen, sind um Größenordnungen höher.
Das ist dieselbe Logik, die Versionskontrolle bei Code unverhandelbar gemacht hat. Darüber streitet niemand mehr. Audit Logs und Rollback für Agenten werden dort auch ankommen. Teams, die das heute als optional behandeln, kaufen sich nur Zeit.
3. ROI auf Ergebnisebene, nicht auf Tool-Ebene
Hier bricht die Business-Case-Logik leise zusammen. Ein Team baut einen Agenten, misst die Betriebskosten (Compute, API-Aufrufe, Engineering-Zeit), vergleicht das mit den Lizenzkosten des abgelösten SaaS-Tools und nennt es einen Erfolg.
Aber die Tool-Kosten waren nie die eigentlichen Kosten. Die eigentlichen Kosten waren die Zeit, die eine Person für eine Aufgabe aufgewendet hat, die ein Ergebnis produziert hat. Die richtige Frage lautet: Liefert der Agent dieses Ergebnis schneller, genauer und mit weniger Nachkorrekturen? Das ist ein Outcome. Da lebt der ROI.
Auf Tool-Ebene zu messen ist bequem, weil die Zahlen leicht zu ziehen sind. Auf Ergebnisebene zu messen erfordert, dass du definierst, wie ein gutes Ergebnis aussieht. Das erzwingt eine Qualitätsdiskussion, für die viele Teams noch nicht bereit sind. Führ diese Diskussion, bevor du shippen. Sie macht alles andere schärfer.