Technology6 min Lesezeit

Wenn du einen System Prompt um 80 Prozent kürzst, was hat der Rest geleistet?

July 4, 2026

Anthropic hat vor kurzem offengelegt, dass sie Claudes System Prompt um etwa 80 Prozent reduziert haben. Das Verhalten des Modells ist besser geworden.

Dieser eine Datenpunkt verdient Aufmerksamkeit. Nicht weil er kontraintuiv wirkt, obwohl das so ist. Sondern weil er uns einen seltenen Blick aus erster Hand gibt, wie das Verhalten von Grenzmodellen wirklich geformt wird und worin die meisten Teams scheitern, wenn sie es selbst versuchen.

Bei Studio Hyra verbringen wir viel Zeit mit diesem Problem. Wir bauen Systeme, in denen Sprachmodelle folgenreiche Aktionen ausführen: Inhalte generieren, Entscheidungen routen, mit Kunden sprechen. Das Modell zum guten Verhalten zu bewegen, ist das Handwerk. Und Anthropics Offenlegung bestätigt, was wir schmerzhaft gelernt haben: Das Meiste, was Menschen in einen System Prompt schreiben, ist keine Anweisung. Es ist Angst.

A large, abstract, organic-looking sculpture composed of interconnected rounded geometric shapes.

Das 80 Prozent, das nicht funktioniert

Hier ist, was typischerweise einen langen System Prompt füllt. Regeln, geschrieben als Reaktion auf eine schlechte Ausgabe. Fallstricke, die frühere Fallstricke widersprechen. Tonvorgaben, die gegen das natürliche Register des Modells arbeiten. Verbote auf Verboten, jedes einzelne hinzugefügt, nachdem jemand sich beschwert hat.

Es sammelt sich an wie technische Schulden. Niemand entwirft einen 4.000-Token System Prompt. Sie erben einen.

Das Problem ist strukturell. Wenn du eine Einschränkung hinzufügst, um ein Verhalten zu stoppen, testest du selten, was es sonst noch verändert. Eine Regel, die sagt 'schlag keine Alternativen vor', könnte dort sein, weil das Modell einmal eine schlechte vorgeschlagen hat. Aber die Regel unterdrückt jetzt echte nützliche Vorschläge in jedem anderen Kontext. Du hast einen engen Fix gegen eine breite Regression getauscht, und du wirst es nicht bemerken, bis sich ein Nutzer über etwas ganz anderes beschwert.

Das ist, was die anderen 80 Prozent geleistet haben. Nicht das Modell geleitet. Es eingegrenzt. Und in der Eingrenzung Ausgaben produziert, die steif sind, überabgesichert und merkwürdig widerwillig, die Art, bei der Menschen sagen, das Modell 'fühlt sich nicht richtig an', ohne sagen zu können, warum.

Das Meiste, was Menschen in einen System Prompt schreiben, ist keine Anweisung. Es ist Angst.
Max Pinas, Gründer, Studio Hyra

Kontext schafft, was Regeln nicht können

Was Anthropic diese Regeln mit ersetzt hat, ist grob gesagt Kontext. Nicht 'tue X nicht', sondern 'hier ist, was du bist, hier ist, mit wem du sprichst, hier ist, wie Erfolg in dieser Situation aussieht'.

Dieser Unterschied zählt mehr als es klingt. Regeln arbeiten mit oberflächlichen Mustern. Kontext arbeitet mit Absicht. Ein Modell, das die Absicht einer Situation versteht, wird Fallstricke bewältigen, auf die keine Regel vorbereitet war. Ein Modell, das nur Regeln hat, wird scheitern, sobald die Realität leicht außerhalb der Szenarien abdriftet, die jemand vorgesehen hat.

Claudes Modellspezifikation, die Anthropic veröffentlicht hat, illustriert das gut. Es ist nicht eine Liste verbotener Verhaltensweisen. Es ist ein kohärenter Bericht von Werten, Prioritäten und Überlegungen. Das Modell bekommt etwas zum Denken, nicht nur einen Zaun zum Drinbleiben. Wenn du es liest, bekommst du ein Gefühl dafür, wie viel davon Erklärung ist. Es sagt nicht nur, was das Modell tun soll. Es sagt, warum und was zu tun ist, wenn zwei gute Dinge in Konflikt geraten.

Dieser Ansatz skaliert. Eine Regelliste nicht. Die Welt erzeugt neue Situationen schneller, als jemand Regeln hinzufügen kann.

An aerial view of an abstract city grid made of various colorful geometric blocks.

Was das bedeutet, wenn du auf diesen Modellen aufbaust

Die meisten Teams, die Modelle über API nutzen, behandeln den System Prompt als Schalttafel. Dreh hier einen Schalter um, füg dort eine Einschränkung hinzu. Es fühlt sich wie Konstruktion an. Es ist es nicht.

Ein System Prompt ist eher wie ein Briefing. Die Frage, die er beantworten sollte, ist: Was muss dieses Modell über seine Situation verstehen, um aus eigenem Antrieb gute Entscheidungen zu treffen? Nicht: Wovor fürchte ich mich, dass es das tut?

In der Praxis bedeutet das drei Dinge.

Beginne mit Identität, nicht mit Regeln. Wer ist dieses Modell in diesem Kontext? Wozu ist es da? Welche Art von Person würde es nützlich finden? Eine klare Antwort auf diese Fragen leistet mehr Arbeit als eine Seite Einschränkungen.

Schreib für den Fall, den du nicht durchdacht hast. Deine Fallstricke werden deine Voraussehungen innerhalb eines Monats nach dem Start übersteigen. Der einzige Weg damit umzugehen, ist dem Modell genug Verständnis des Zwecks zu geben, damit es über neue Situationen nachdenken kann. Regeln brechen an den Rändern. Zweck nicht.

Durchleuchte Angst ab. Wenn du deinen System Prompt überprüfst, frag für jede Zeile: Schreibe ich das, weil es dem Modell hilft, seine Arbeit zu tun, oder weil einmal etwas schief ging und ich bin immer noch nervös? Beide sind gültige Ausgangspunkte. Nur einer gehört in den endgültigen Prompt.

Dieser letzte Punkt ist schwerer als er klingt. Die Angstzeilen fühlen sich oft wie die wichtigen Zeilen an. Sie sind spezifisch, sie sind konkret, sie fühlen sich an, als würden sie etwas leisten. Meist tun sie das nicht.

Der kontroverse Punkt

Hier möchte ich einer Lesart dieser Geschichte widersprechen.

Die Lektion ist nicht 'System Prompts sollten kurz sein.' Das ist die falsche Schlussfolgerung und sie wird dich zu einer anderen Art von Fehler führen. Ein Modell ohne Kontext ist nicht befreit. Es ist einfach orientierungslos. Es wird das Vakuum mit Defaults füllen, und Defaults sind Durchschnitte.

Die Lektion ist, dass Länge ein Symptom ist, nicht eine Ursache. Ein kurzer, gut gemachter System Prompt ist das Ergebnis davon, klar zu denken, was du wirklich brauchst. Ein langer, ungeordneter ist das Ergebnis davon, nicht klar zu denken und das mit Volumen auszugleichen.

Anthropics 80-Prozent-Schnitt war keine Minimalismus-Übung. Es war eine Klarheits-Übung. Sie wurden klarer, was Claude Code ist und wozu es gut ist, und stellten fest, dass die meisten früheren Anweisungen entweder redundant im Licht dieser Klarheit waren oder aktiv dagegen arbeiteten.

Das ist der Prozess, der es wert ist, sich abzuschauen. Nicht die Zahl.

Several floating, colorful, geometric forms orbiting a central, glowing, ethereal sphere.

Länge ist ein Symptom, nicht eine Ursache. Ein kurzer System Prompt ist das Ergebnis davon, klar zu denken. Ein langer ist das Ergebnis davon, mit Volumen auszugleichen.
Max Pinas, Gründer, Studio Hyra

Was wir bei Studio Hyra damit anfangen

Wenn wir einen System Prompt für einen Kunden durchleuchten, kategorisieren wir zuerst jede Zeile nach ihrer Funktion. Manche Zeilen geben Identität. Manche geben Kontext zum Nutzer. Manche beschreiben Erfolg. Manche beschreiben Fehlermodi. Und manche existieren nur, weil jemand Angst hatte.

Dann fragen wir. Könnte diese Angstzeile durch eine positive Absichtserklärung ersetzt werden? Fast immer ist die Antwort ja. 'Gib keine Finanzberatung' wird zu 'Dieser Assistent hilft bei Produktentscheidungen, nicht bei Finanzplanung.' Das Modell versteht beide. Aber nur eines davon gibt ihm etwas zum Nachdenken, wenn das Gespräch irgendwohin geht, was unerwartet ist.

Das ist das Handwerk der Arbeit mit Grenzmodellen. Nicht sie schwächer anstoßen. Verstehen, was sie brauchen, um gute Arbeit zu leisten, und ihnen das geben, in so wenigen Worten wie nötig.

Anthropics Offenlegung ist eine nützliche Erinnerung daran, dass sogar die Menschen, die diese Modelle gebaut haben, das noch immer lernen. Die Lücke zwischen Anweisungen schreiben und Verhalten formen ist real, und sie schließt sich nicht nur, weil du Zugang zu den Gewichten hast.

Wenn dein KI-System sich nicht so verhält, wie du es willst, ist die erste Frage nicht 'welche Regel fehlt mir?' Es ist 'was versteht das Modell nicht über seine Situation?' Dieser Perspektivwechsel, mehr als jede einzelne Technik, ist das, was Teams, die funktionierende KI-Produkte ausliefern, von Teams trennt, die immer noch Prompts patchen.

Fang dort an.

Bereit, wenn du es bist

Momentum beginnt mit einem Gespräch.

Kein Formular, kein Briefing. Einfach ein echtes Gespräch mit denen, die es umsetzen.

Gespräch buchenGespräch buchen

Was das bedeutet, wenn du auf diesen Modellen aufbaust

In der Praxis bedeutet das drei Dinge.

Wenn du einen System Prompt um 80 Prozent kürzst, was hat der Rest geleistet?

Das 80 Prozent, das nicht funktioniert

Kontext schafft, was Regeln nicht können

Was das bedeutet, wenn du auf diesen Modellen aufbaust

Der kontroverse Punkt

Was wir bei Studio Hyra damit anfangen

Momentum beginnt mit einem Gespräch.

Wenn du einen System Prompt um 80 Prozent kürzst, was hat der Rest geleistet?

Das 80 Prozent, das nicht funktioniert

Kontext schafft, was Regeln nicht können

Was das bedeutet, wenn du auf diesen Modellen aufbaust

Der kontroverse Punkt

Was wir bei Studio Hyra damit anfangen

Weiterlesen.

Nvidia ist die Notenbank für KI-Startups

Inferenzkosten halbiert. Warum wachsen KI-Budgets trotzdem?

Momentum beginnt mit einem Gespräch.

Weiterlesen.

Nvidia ist die Notenbank für KI-Startups

Inferenzkosten halbiert. Warum wachsen KI-Budgets trotzdem?