Plötzlich: Die Arbeiter-Version von Claude 5 ist da

Um 2 Uhr morgens veröffentlichte Anthropic das leistungsstärkste Modell Claude Sonnet 5, dessen Leistung direkt an das Flaggschiff Opus 4.8 heranreicht und GPT-5.5 in der Programmierung übertrifft!

Gerade jetzt ist Claude Sonnet 5 erschienen!

Mit dem Codename Fennec, der Kleinste der Wüstenfüchse in der Sahara.

Dies ist das leistungsfähigste Sonnet-Modell von Anthropic bisher in Bezug auf die Agent-Fähigkeiten, und seine Leistung nähert sich der des Flaggschiffmodells Opus 4.8.

Ab sofort ist Sonnet 5 das Standardmodell für alle Free- und Pro-Benutzer.

Es kann eigenständig planen und Browser- und Terminal-Tools nutzen.

Vor nur wenigen Monaten war dies nur mit teuren Supermodellen möglich, jetzt schafft es Sonnet problemlos.

Im Vergleich zum Vorgängermodell Sonnet 4.6 hat Sonnet 5 in Bezug auf Inferenz, Tool-Nutzung, Programmierung und Wissensarbeit eine signifikante Leistungssteigerung.

Wichtige Punkte:

Der SWE-bench Pro-Score beträgt 63,2%, was GPT-5.5 mit 58,6% übertrifft und nur knapp hinter Opus 4.8 mit 69,2% liegt.

Der Score bei der "letzten menschlichen Prüfung" beträgt 57,4%, nur 0,5 Prozentpunkte hinter Opus 4.8.

Der Standardpreis beträgt $3 pro Million Token Eingabe und $15 pro Million Token Ausgabe, nur 60% des Preises von Opus 4.8.

Die Browser-Injection-Abwehr liegt bei 0,93%, was Mythos 5 und Opus 4.8 schlägt.

Interessanterweise wurde am gleichen Tag bekannt gegeben, dass Fable 5 bald zurückkehren wird. Allerdings erfordert dies eine Pflicht-Identitätsverifizierung und wird höchstwahrscheinlich nur für US-Benutzer zur Verfügung stehen.

Sonnet 5 hingegen ist für alle Weltbenutzer sofort und uneingeschränkt nutzbar.

Knapp an Opus 4.8 heranreichen, der stärkste Arbeits-AI-Angriff

Mit dem plötzlichen Release von Sonnet 5 wird das Bedauern über die Unverfügbarkeit von Fable 5 etwas gemildert.

Für viele Entwickler begann die Ära der Agenten mit Sonnet.

Claude Sonnet 3.5, 3.6 und 3.7 waren die ersten Modelle, die in Bezug auf Code-Schreiben und Tool-Nutzung erstaunliche Fähigkeiten zeigten.

Mit anderen Worten, Sonnet war das erste "mittlere" Modell, das es schaffte, "AI arbeiten zu lassen".

Aber in den letzten einiger Jahre war die stärkste Leistungssteigerung bei den "großen" Opus-Modellen zu verzeichnen. Sonnet wurde von den Flaggschiffmodellen zurückgelassen.

Sonnet 5 will diese Lücke schließen!

Anthropic sagt es direkt - Claude Sonnet 5 ist das leistungsfähigste Sonnet-Modell aller Zeiten.

Die praktischen Ergebnisse bestätigen dies am besten.

Im traditionell starken Bereich der Programmierung erreicht Sonnet 5 im SWE-bench Pro 63,2%. Das Vorgängermodell Sonnet 4.6 erreichte nur 58,1%, und Opus 4.8 führt mit 69,2% vor.

Im Vergleich dazu erreichte das Flaggschiffmodell GPT-5.5 von OpenAI nur 58,6% auf der gleichen Liste, und Google's Gemini 3.5 Flash nur 55,1%.

Im Terminal-Bench 2.1 ist Sonnet 5 noch stärker. Es erreicht 80,4% und lässt Sonnet 4.6 mit 67,0% weit hinter sich, was einer Steigerung von 13 Prozentpunkten entspricht. Es fehlen nur noch weniger als 2 Punkte bis zu Opus 4.8 mit 82,7%.

Bei der sogenannten "letzten menschlichen Prüfung", dem interdisziplinären Inferenzbenchmark "Humanity's Last Exam", erreicht Sonnet 5 mit Tools 57,4%. Opus 4.8 erreicht 57,9%, nur 0,5 Prozentpunkte mehr. GPT-5.5 erreichte in diesem Test nur 52,2%, und Gemini 3.1 Pro 51,4%.

Bezüglich der Computersteuerung erreicht Sonnet 5 im OSWorld-Verified 81,2%, was ebenfalls höher ist als GPT-5.5 mit 78,7% und sich Opus 4.8 mit 83,4% annähert.

Noch überraschender ist die Leistung in der Wissensarbeit. Sonnet 5 erreicht auf dem GDPval-AA v2 1618 Punkte und übertrifft damit Opus 4.8 mit 1615 Punkten.

Bei der Suche von Agenten und der Tool-Nutzung kann Sonnet 5 mit minimalen Kosten die Leistung von Opus 4.8 bieten.

Man kann sagen, dass Sonnet 5 in fast jedem Benchmark zwischen 90% und 100% der Leistung von Opus 4.8 erreicht.

Es ist wie, mit Sonnet-Preisen Opus-Niveau zu bekommen.

2-Dollar-Sonderangebot, aber es steckt eine Falle drin

Der Preis ist der "Todesstrahl" dieser Zeit.

Bei der API-Preisgestaltung bietet Anthropic ein zeitlich begrenztes Sonderangebot: $2 pro Million Token Eingabe und $10 pro Million Token Ausgabe.

Nach dem 31. August wird der normale Preis von $3 für die Eingabe und $15 für die Ausgabe wiederhergestellt.

Im Vergleich dazu kostet Opus 4.8 $5 und $25, und die Standardversion von GPT-5.5 $5 und $30.

Während der Sonderangebotsphase betragen die Eingabe- und Ausgabepreise nur 40% von Opus 4.8. Nach der Rückkehr zum Standardpreis sind es immer noch nur 60%.

Allerdings steckt hinter der scheinbar großzügigen Einstellung von Anthropic eine kleine Falle.

Der Grund ist, dass Sonnet 5 einen neuen Tokenizer hat, und die Anzahl der Tokens für die gleiche Eingabe kann um das 1,0- bis 1,35-fache steigen.

Nach dem Ende der Sonderangebotsphase, wenn der normale Preis von $3/$15 wiederhergestellt wird und die Tokenizer-Expansion hinzukommt, werden die Kosten definitiv höher sein als bei Sonnet 4.6.

Aber dennoch ist der Preis im Vergleich zu Opus immer noch deutlich günstiger.

Das Flaggschiff der ganzen Familie schlagen

Die System Card verbirgt die am stärksten unterschätzte Seite von Sonnet 5.

Die Erfolgsrate bei Prompt-Injection-Angriffen liegt bei 0,19%, was mit Opus 4.8 übereinstimmt. GPT-5.5 hat eine Rate von 3,08%, und Gemini 3.5 Flash von 6,66%.

Bei der Browser-Injection-Abwehr liegt die Angriffsrate nur bei 0,93%, während Mythos 5 29,7% und Opus 4.8 31,5% erreicht.

Ein Mittelklasse-Modell für $2 schlägt das Flaggschiff der ganzen Familie, und nach Aktivierung der Schutzmaßnahmen sinkt die Rate auf 0%.

Bei der Malware-Injection lag die Angriffsrate von Sonnet 4.6 bei 45,26%, bei Sonnet 5 sank sie auf 0,29%, was einer Verbesserung um das 150-fache entspricht.

Im Firefox 147-Exploit-Test konnte Mythos 5 88,4% nutzbare Exploits schreiben, Opus 4.8 8,8%, Sonnet 5 0,0%. Es kann erstklassigen Geschäftscode schreiben, aber keinen nutzbaren Exploit.

Als Nebenwirkung hat Sonnet 5 eine Bewertung von 2,53 (auf 10) für unausgerichtetes Verhalten. Dies ist eine Verbesserung gegenüber Sonnet 4.6 mit 2,89, aber höher als Opus 4.8 mit 2,10 und Mythos Preview mit 1,95.

Es ist stärker geworden und hat auch mehr Eigeninitiative.

Keine Krone ergreifen, sondern die Mittelschicht angreifen

Sonnet 5 befindet sich an einer äußerst präzisen Position. Seine Leistung nähert sich Opus 4.8 und GPT-5.5, und der Preis liegt auf dem Niveau von Gemini 3.5 Flash.

OpenAI hat den Preis im Vergleich zum Vorgängermodell verdoppelt, während Anthropic den Einstiegspreis von Sonnet 5 auf $3 gedrückt hat.

Entwickler, die sich bisher nicht entscheiden konnten, ob sie für ein Flaggschiffmodell bezahlen sollten, haben jetzt eine attraktive Alternative.

Während alle auf die Spitze zielen, hat Anthropic in die Mittelschicht geschossen.

Die Brieftaschen der Entwickler haben heute entschieden

Jetzt hat Sonnet 5 die Leistungsebene der Flaggschiffmodelle erreicht und kann die meisten Aufgaben wie Bugbehebung, Testausführung und Code-Refactoring in einem Zug erledigen.

Die damalige Situation, in der Opus zu teuer war und Sonnet nicht gut genug, ist jetzt vorbei.

Der Preis ist günstiger. Mit dem gleichen Budget konnte man früher nur einen Opus-Agenten betreiben, jetzt können zwei bis drei Sonnet-Agenten parallel laufen.

Die Kosten für eine Multi-Agenten-Architektur sind durch Sonnet 5 gesenkt worden.

Es ist noch unklar, wann Fable 5 wiederkehren wird.

Aber Sonnet 5 steht jetzt fest da, und seine Leistung ist auf das Niveau von Opus gestiegen.

Für die meisten Entwickler ist es in den kommenden Monaten das beste und leistungsfähigste Claude-Modell.

Quellenangaben:

https://x.com/claudeai/status/2072017450611142835

https://www.anthropic.com/news/claude-sonnet-5

Dieser Artikel stammt aus dem WeChat-Account

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Plötzlich ist die Arbeiter-Version von Claude 5 da, jeder kann sie benutzen

Knapp an Opus 4.8 heranreichen, der stärkste Arbeits-AI-Angriff

2-Dollar-Sonderangebot, aber es steckt eine Falle drin

Das Flaggschiff der ganzen Familie schlagen

Keine Krone ergreifen, sondern die Mittelschicht angreifen

Die Brieftaschen der Entwickler haben heute entschieden