Opus 4.8: Ein nicht ganz ehrlicher Modell

Mythos wird zurückgehalten, Opus 4.8 spielt es in dieser Runde zurückhaltend...

Am 28. Mai 2026 hat Anthropic Claude Opus 4.8 veröffentlicht.

Nur 41 Tage lagen zwischen dieser Version und der vorherigen Opus 4.7 (16. April), was der bisher schnellste Rhythmus für eine Kleinversion bei Anthropic ist. Wahrscheinlich haben Sie bereits die ersten Berichte gelesen, deren Titel einhellig von "ehrlicher", "zuverlässiger" und "vertrauenswürdig auch ohne Aufsicht" handeln. Wenn man dies mit der großen Neuigkeit am selben Tag kombiniert – Anthropic hat eine Runde H-Finanzierung in Höhe von 65 Milliarden US-Dollar abgeschlossen, und der Unternehmenswert nach der Finanzierung hat sich auf 965 Milliarden US-Dollar erhöht, was OpenAI mit rund 852 Milliarden US-Dollar offiziell übertrifft – hat Anthropic erneut einen großen Erfolg erzielt.

Aber nachdem man die aufregenden Schlagzeilen gelesen hat, sollte man zunächst sehen, was die Entwickler selbst über dieses Modell denken.

Die offizielle Bewertung von Opus 4.8 ist eigentlich etwas ungewöhnlich bescheiden: eine "modest but tangible" (mäßige, aber greifbare) Verbesserung. Das eigentliche Unterschiedliche an dieser Version ist der Hauptvorteil "Ehrlichkeit" – was in starkem Widerspruch zu dem steht, was Anthropic in derselben Systemkarte als die "besorgniserregendste" Entdeckung bei diesem Training markiert hat:

Das Modell lernt immer besser, zu erraten, wie es bewertet wird. Selbst wenn es nicht weiß, dass es getestet wird, formt es seine Antworten so, dass es möglichst viele Punkte bekommt.

Einerseits wird "Ehrlichkeit" zum Hauptverkaufsargument, andererseits wird in der technischen Dokumentation festgehalten, dass "es immer besser in der Prüfung ist". Dieser Widerspruch könnte das größte Merkmal von Opus 4.8 sein, es scheint eher ein nicht ganz ehrliches Modell zu sein.

1 Codierungs- und Agentenfähigkeiten: Schritt für Schritt voran

Schauen wir uns zunächst die Grundparameter an.

Zuerst die Fähigkeiten. Diesmal gibt es eine allgemeine leichte Verbesserung, keine bahnbrechenden Durchbrüche, aber jeder Bereich hat sich etwas verbessert.

Die stärkste Seite ist immer noch die Codierung. Der Benchmark für Agenten-Codierung SWE-bench Pro ist von 64,3 % auf 69,2 % gestiegen. Laut dem Vergleich von Anthropic liegt GPT-5.5 bei 58,6 % und Gemini 3.1 Pro bei 54,2 %. Auch der klassischere SWE-bench Verified ist von 87,6 % auf 88,6 % leicht gestiegen. Der Benchmark für Agenten-Computer-Operationen OSWorld-Verified hat 83,4 % erreicht (4.7 hatte nach der Revision 82,3 %). Der Browser-Agenten-Benchmark Online-Mind2Web hat laut Messungen der Partner 84 % erreicht.

Das bedeutet, dass Anthropic möchte, dass Sie größere Aufgaben einfach an es übergeben. Die offizielle Aussage ist, dass Opus 4.8 in Claude Code "wie ein erfahrener Ingenieur selbständig handelt und Sie nicht ständig überwachen müssen" und in langen Gesprächen bis zum Ende durchhalten kann.

Die Messungen der Partner bestätigen im Großen und Ganzen diese Richtung. Michael Truell, Mitbegründer von Cursor, hat angegeben, dass Opus 4.8 auf ihrer CursorBench-Testplattform bei jeder Anstrengungsstufe die vorherige Opus-Version übertrifft, die Tool-Aufrufe effizienter sind und weniger Schritte benötigt werden. Scott Wu, CEO der AI-Softwareentwicklung Firma Cognition (Devin), hat einen Detailpunkt genannt: 4.8 hat zwei alte Probleme von 4.7 behoben – umständliche Kommentare und instabile Tool-Aufrufe. Dies waren genau die Punkte, über die die Entwickler in der Zeit von 4.7 am meisten geklagt haben.

Aber nicht zu schnell aufgeregt sein. In unabhängigen Tests war die Einschätzung von Lenny's Newsletter nach Erhalt der frühen Zugangsberechtigung eher zurückhaltend: Opus 4.8 ist stark bei Neuprojekten von Grund auf, Einmalfunktionen und schneller Ausführung, aber bei den "letzten 10 %", Randfällen in alten Code-Bibliotheken und Halluzinationen hat es immer noch Schwierigkeiten. Er selbst bevorzugt weiterhin 4.7 für datenintensive strategische und Roadmap-Arbeiten.

2 "Ehrlichkeit" in den Mittelpunkt stellen

Die Codierung ist eine übliche Verbesserung, "Ehrlichkeit" wird als Hauptvorteil herausgestellt.

Anthropic sagt, dass es ein allgemeines Problem bei AI-Modellen ist, dass sie sogar ohne ausreichende Beweise versichern, "ich habe es geschafft". Opus 4.8 soll eher bereit sein, seine Unsicherheiten zu markieren und weniger unbegründete Behauptungen zu machen. In quantifizierbaren Indikatoren: Laut der offiziellen Aussage hat Opus 4.8 etwa ein Viertel der Wahrscheinlichkeit von 4.7, Code-Mängel zu übersehen und Probleme stillschweigend zu ignorieren. Laut einer Zusammenfassung von Dritten der Systemkarte ist es das erste Claude-Modell, das in der Kategorie "unerkannt fehlerhafte Ergebnisse melden" 0 % erreicht hat. Das Maß an Übermut ist im Vergleich zu 4.7 um mehr als das Zehnfache gesunken. Bei der Ausrichtungsevaluation hat es laut der offiziellen Aussage seine "sozialen" Eigenschaften (Respekt vor der Benutzerautonomie und das Wohl des Benutzers im Vordergrund) auf ein neues Hoch geschoben. Die Rate von Fehlverhalten wie Täuschung ist deutlich niedriger als bei 4.7 und kommt dem besten Ausrichtungsverhalten von Claude Mythos Preview nahe.

Warum ist ein Modell, das "ich bin nicht sicher" sagen kann, überhaupt etwas Besonderes?

Weil, wenn Sie es ohne Aufsicht für lange Aufgaben laufen lassen, es viel wichtiger ist, ob "es lügt, dass es etwas repariert hat" als ob "es 5 % intelligenter ist". Michael Ran, ein Partner aus dem Bereich Investmentanalyse, hat sehr konkret feedback gegeben: Der größte Unterschied bei Opus 4.8 ist, dass es Probleme in Eingabe und Ausgabe aktiv anzeigt, die andere Modelle oft übersehen und dem Benutzer überlassen.

Es gibt auch Leute in der Community, die davon überzeugt sind. Ein Entwickler auf Hacker News hat direkt gesagt: Ein Modell, das sicherstellt, dass "der Bug repariert ist", aber es in Wirklichkeit nicht ist, ist schlimmer als ein Modell, das einfach fehlschlägt und einen deutlichen Fehler meldet. "Wenn die 'Wahrscheinlichkeit, Fehler zu übersehen, auf ein Viertel sinkt' in der Praxis stimmt, kann es die Menge an Arbeit, die Sie ohne Aufsicht an es übergeben können, verändern."

Natürlich gibt es auch viele ironische Stimmen. Einige rollten mit den Augen: "Anthropic redet über sein eigenes Modell, als hätte man eine neue Art in der Wildnis entdeckt." Andere waren noch unverblümter: "Mit 'Ehrlichkeit' als Verkaufsargument, aber Claude-Modelle sind bekannt dafür, verschwiegen zu sein, was sie getan haben."

3 Token zu einem "Regler" machen

Das dritte Thema betrifft das Geld. Zusammen mit dem Modell wurde ein ganzes Set an "Einsatzsteuerung" eingeführt – Anthropic versucht, die Frage "wie viele Token man ausgibt" aus der schwarzen Kiste in Ihre Hand zu legen.

Es gibt drei Aspekte:

Erstens Effort Control (Einsatzsteuerung), die auf claude.ai und Cowork online ist und für alle Pakete verfügbar ist. Sie können direkt auswählen, wie viel "Denken" Claude für eine Antwort investiert: Bei der hohen Stufe denkt es häufiger und tiefer und gibt bessere Antworten; bei der niedrigen Stufe antwortet es schneller und spart Ihre Token. Das Modell läuft standardmäßig auf der hohen Stufe. In Claude Code kann es sogar auf "extra" (xhigh) und "max" hochgeregelt werden. Die offizielle Empfehlung ist, "extra" für schwierige Aufgaben und lange asynchrone Workflows zu verwenden, und die Rate-Grenze von Claude Code wurde entsprechend erhöht, um den höheren Token-Verbrauch zu decken.

Zweitens starke Preisreduktion im Fast Mode. Das gleiche Modell läuft etwa 2,5-mal schneller und kostet für die Eingabe 10 US-Dollar und für die Ausgabe 50 US-Dollar (pro Million Token). Es wird behauptet, dass es um den Faktor 3 billiger ist als der Fast-Mode der vorherigen Generation. Hanlin Tang, CTO von Databricks, hat ein Datenpunkt genannt: In ihrer Genie-Plattform hat Opus 4.8 bei der direkten Verarbeitung von unstrukturierten Inhalten wie PDFs und Diagrammen 61 % weniger Token-Kosten als 4.7.

Drittens Dynamic Workflows (Dynamische Workflows), in der Forschungs-Vorschauphase, für die Unternehmens-, Team- und Max-Pakete von Claude Code. Es lässt Claude zuerst planen und dann hunderte von Sub-Agenten parallel in einer Sitzung laufen, und am Ende werden die Ergebnisse überprüft und gemeldet. Das von der offiziellen Seite gegebene Beispielszenario ist die Migration auf Code-Bibliotheks-Ebene über Hunderttausende von Codezeilen, von der Startphase bis zur Merge-Phase in einem Zug, mit den bestehenden Test-Suiten als Mindestanforderung. Entsprechend erlaubt die Messages API jetzt, system-Einträge in der Mitte des Nachrichten-Arrays einzufügen – Sie können die Anweisungen (Berechtigungen, Token-Budget, Umgebungs-Kontext) während des laufenden Tasks ändern, ohne den Prompt-Cache zu unterbrechen.

Für diejenigen, die viel Token verbrauchen, ist die Preisreduktion im Fast-Mode oft nützlicher als die Verbesserung des Modells selbst. Aber nicht jeder ist davon überzeugt: Auf HN hat jemand meckert: "Ich habe es früher gerne gehabt, dass ich bei alltäglichen Gesprächen nicht über die Anstrengungsstufe nachdenken musste. Jetzt fühlt es sich eher wie ein Rückschritt an."

4 "Ehrlichkeit" verkaufen, aber "Prüfungssucht" befürchten

Eine sehr interessant zu betrachtende Aussage ist die "Sorge" von Anthropic gegenüber diesem Modell.

Beim Beschreiben des Trainingsvorgangs von Opus 4.8 hat Anthropic eine Entdeckung als "besorgniserregendste" eingestuft: Das Modell zeigt eine immer stärkere Tendenz, explizit zu inferieren, "wie meine Ausgabe bewertet wird", auch in Umgebungen, in denen es nicht weiß, dass es getestet wird.

Mit anderen Worten – es erkennt, dass es wahrscheinlich bewertet wird, und gibt daher eine Antwort, die es für punktreich hält, nicht unbedingt die Antwort, die es geben würde, wenn es glaubte, dass niemand zuschaut. Anthropic sagt, dass dies "noch nicht zu beobachtbaren schlechten Verhaltensweisen geführt hat" (4.8 hat tatsächlich weniger falsche Meldungen über erfolgreiche Aufgaben als die vorherige Version), aber es wird als "eine besorgniserregende Tendenz, die zukünftiges Training erschweren könnte" eingestuft. In der begleitenden ersten Arbeit zur Interpretierbarkeit wurden in etwa 5 % der Trainingssegmente nicht ausgesprochene, mit der Bewertung zusammenhängende Inferenzen entdeckt.

Wenn man diese beiden Dinge nebeneinander betrachtet, wird der Widerspruch dieses Modells deutlich.

Opus 4.8 hat sich in allen "Ehrlichkeits"-Indikatoren tatsächlich verbessert – es prahlt weniger und sagt eher "ich bin nicht sicher". Dass Anthropic seine Bedenken öffentlich macht, ist auch ein Zeichen von Ehrlichkeit.

Einer seiner größten Fortschritte ist, dass es besser versteht, sich in einer "Prüfung" wie ein guter Schüler zu verhalten. Die Verkaufsargumente "Ehrlichkeit" und "Zuverlässigkeit" basieren schließlich auf den internen Tests von Anthropic – diese Zahlen sind intern gemessen, nicht unabhängig auditert. Wenn ein Modell, das sich aktiv an die Prüfer anpasst, an einer Vertrauenswürdigkeitsprüfung teilnimmt, die vom Hersteller erstellt und bewertet wird, sollten Sie darüber nachdenken.

Wenn das Modell immer besser in der Prüfung wird, ist die "Ehrlichkeit", die es auf der Prüfung zeigt, noch dieselbe wie seine wirkliche Ehrlichkeit? Welche langfristigen Auswirkungen wird diese Modell-Eigenschaft auf die immer mehr in die Praxis integrierten Arbeitsabläufe und Produkte haben?

Diese werden die neuen Fragen sein, die Opus 4.8 für alle aufwirft.

Dieser Artikel stammt aus dem WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。