Starke Preisreduktion, unbegrenzte Chatmöglichkeiten, Codierungsfähigkeiten, die menschliche Experten übertreffen – Claude Opus 4.5 erobert erneut die Krone des stärksten Modells.
Am frühen Morgen des 25. November veröffentlichte Anthropic sein bisher leistungsfähigstes KI-Modell, Claude Opus 4.5. Das Unternehmen behauptet, dass das neue Modell in Softwareentwicklungstasks "Spitzenleistung" erzielt, was den Wettbewerb mit Konkurrenten wie OpenAI und Google noch verschärft.
Claude Opus 4.5 hat sich in den Softwareentwicklungstests von Anthropic hervorragend bewährt und hat bei den Punkten viele Konkurrenten wie Gemini 3 Pro und GPT-5.1 übertroffen.
Abbildung: Leistungsfähigkeit von Claude Opus 4.5 im SWE Bench Softwareentwicklungstest
Die Unternehmensdaten zeigen, dass das Modell in SWE-bench Verified (einem Benchmarktest zur Bewertung der Softwareentwicklungskompetenz in der realen Welt) eine Genauigkeit von 80,9 % erreicht hat, was besser ist als OpenAIs GPT-5.1-Codex-Max (77,9 %), Anthropics eigenes Sonnet 4.5 (77,2 %) und Googles Gemini 3 Pro (76,2 %).
Zur gleichen Zeit hat Anthropic den Preis für dieses Modell stark gesenkt: Die Kosten für eingegebene Token liegen jetzt bei 5 US-Dollar pro Million, für ausgegebene Token bei 25 US-Dollar pro Million, was im Vergleich zum Vorgängermodell Claude Opus 4.1 (15 US-Dollar pro Million eingegebene Token und 75 US-Dollar pro Million ausgegebene Token) um etwa zwei Drittel gesunken ist.
Die Preisreduktion macht die Spitzen-KI-Technologie für viele Entwickler und Unternehmen leichter zugänglich und bringt gleichzeitig den Konkurrenten sowohl in Bezug auf Leistung als auch auf Preis Druck.
Bessere Urteilsfähigkeit in realen Aufgaben
Die Tester geben allgemein an, dass das neue Modell in verschiedenen Aufgaben eine stärkere Urteilsfähigkeit und Intuition zeigt. Sie beschreiben diesen Fortschritt wie folgt: Das Modell beginnt, das "Wesentliche" in realen Situationen zu verstehen.
"Dieses Modell scheint plötzlich 'klug' geworden zu sein", sagt Albert, Leiter der Entwicklerbeziehungen. "Die Intuition und Urteilsfähigkeit, die es bei der Bearbeitung vieler realer Probleme zeigt, lässt es wie ein qualitativer Sprung im Vergleich zu den Vorgängermodellen aussehen."
Albert erläutert dies weiter anhand seiner eigenen Arbeit: Früher nutzte er die KI nur zur Informationssammlung und war skeptisch gegenüber ihrer Fähigkeit, Informationen zu integrieren und zu priorisieren. Jetzt, mit Opus 4.5, beginnt er, ihm komplettere Aufgaben zu übertragen. Indem er Slack und interne Dokumente verbindet, kann das Modell kohärente Zusammenfassungen erstellen, die seinen Erwartungen sehr gut entsprechen.
Ethan Mollick, Professor an der Wharton School der Universität von Pennsylvania und Mitdirektor des Generative AI Lab, kommentiert nach dem Test, dass die Fähigkeiten des neuen Modells tatsächlich an der Spitze der Technologie liegen. Die deutlichste Verbesserung liegt in der praktischen Anwendung, beispielsweise im Betrieb über verschiedene Softwareanwendungen hinweg (z. B. das Erstellen einer Präsentation in Excel).
Übertrifft alle menschlichen Ingenieure in Kern-Engineering-Tests
Claude Opus 4.5 hat in einer anspruchsvollen internen Engineering-Bewertung von Anthropic einen neuen Rekord aufgestellt. Dieser Test wurde ursprünglich für die Stelle eines Leistungstechnikers konzipiert und erfordert von den Bewerbern, dass sie ihn innerhalb von zwei Stunden abschließen, um ihre technischen Fähigkeiten und Urteilsfähigkeit bei Problemen zu testen.
Anthropic gibt bekannt, dass durch die Verwendung der Technologie "Parallel-Testzeitberechnung", d. h. die Zusammenfassung mehrerer Lösungskonzepte des Modells und die Auswahl des besten Ergebnisses, die Endpunktzahl von Opus 4.5 alle menschlichen Ingenieure, die an diesem Test teilgenommen haben, übertrifft.
Ohne Zeitbeschränkung, wenn es in seiner speziellen Codierungsumgebung Claude Code läuft, ist die Problemlösungskapazität von Claude Opus 4.5 mit der des menschlichen Ingenieurs mit der bisher höchsten Punktzahl gleich.
Das Unternehmen gesteht jedoch auch ein, dass solche Tests andere wichtige Fachkompetenzen nicht messen können, wie Teamarbeit, effektive Kommunikation oder die über Jahre hinweg gewonnene fachliche Intuition.
Token-Verbrauch in Kern-Benchmark-Tests um 76 % stark reduziert
Außer den ursprünglichen Leistungserfolgen sieht Anthropic die Effizienzsteigerung als Kernkompetenz von Claude Opus 4.5. Das neue Modell benötigt bei Erreichen gleicher oder besserer Ergebnisse deutlich weniger zu verarbeitende Rechen-Token.
Die genauen Daten zeigen, dass Opus 4.5 bei einem "mittleren" Einsatzniveau in SWE-bench Verified den gleichen Höchstwert wie Sonnet 4.5 erreichen kann, während der Verbrauch an ausgegebenen Token um 76 % gesunken ist. Selbst bei einem "hohen" Einsatzniveau, wenn es um maximale Leistung geht, verbessert es die Leistung gegenüber Sonnet 4.5 um weitere 4,3 Prozentpunkte, und der Token-Verbrauch sinkt immer noch um fast die Hälfte (48 %).
Um den Entwicklern eine feinere Kontrolle zu ermöglichen, hat Anthropic einen neuen "Einsatz"-Parameter eingeführt. Mit diesem Parameter können die Benutzer die Rechenleistung, die das Modell für jede Aufgabe einsetzt, dynamisch einstellen, um so das optimale Gleichgewicht zwischen Leistung, Reaktionsgeschwindigkeit und Kosten zu finden.
Mario Rodriguez, Chief Product Officer von GitHub, bestätigt ähnliche Ergebnisse: "Frühe Tests zeigen, dass Opus 4.5 bei halbiertem Token-Verbrauch immer noch die internen Codierungsstandards übertrifft, insbesondere bei komplexen Aufgaben wie Code-Migration und -Refactoring."
Albert gibt eine technische Erklärung für dieses Phänomen: Claude Opus 4.5 aktualisiert nicht direkt seine zugrunde liegenden Parameter, sondern optimiert kontinuierlich die Werkzeuge und Methoden zur Problemlösung. "Wir sehen, dass es die Fähigkeiten für Aufgaben iterativ verbessert und die Endresultate durch die eigenständige Optimierung der Ausführungsweise verbessert", erklärt er.
Diese Fähigkeit zur Selbstentwicklung hat den Bereich der Programmierung überschritten. Albert gibt bekannt, dass das Modell in Szenarien wie der Erstellung von Fachdokumenten, der Bearbeitung von Tabellenkalkulationen und der Erstellung von Präsentationen deutlich verbessert ist.
Tiefe Integration in Office, Überwindung der Kontextlängenbeschränkung
Mit der Veröffentlichung des neuen Modells hat Anthropic auch eine Reihe wichtiger Updates für Unternehmensszenarien vorgestellt.
Die für Excel entwickelte Claude-Funktion ist jetzt für Max-, Team- und Enterprise-Benutzer vollständig verfügbar, und es wird nun vollständige Unterstützung für Pivot-Tabellen, Visualisierungsdiagramme und Dateiuploads angeboten. Gleichzeitig ist die Chrome-Browsererweiterung für alle Max-Benutzer nutzbar.
Das revolutionärste an diesem Update ist die "Unbegrenzte Chat"-Funktion - Diese Technologie überwindet effektiv die Beschränkung des traditionellen Kontextfensters, indem es die frühen Inhalte eines langen Gesprächs intelligent zusammenfasst. "In den Claude AI-Produkten erhalten die Benutzer dank unserer innovativen Inhaltskomprimierungs- und Speicherverwaltungstechnologie tatsächlich ein fast unbegrenztes Gesprächserlebnis", erklärt Albert.
Für die Entwicklergemeinschaft hat Anthropic die Fähigkeit zur "programmatischen Tool-Aufrufung" eingeführt, die es Claude ermöglicht, direkt Code zu schreiben und auszuführen, der externe Funktionen aufrufen kann. Gleichzeitig hat Claude Code nicht nur das "Planungsmodus" verbessert, sondern auch eine Desktop-Client-Version in Form einer Forschungs-Vorschau veröffentlicht, die erstmals die parallele Ausführung mehrerer KI-Intelligenzgespräche für Entwickler unterstützt.
Die KI tritt in eine neue Phase mit Selbstentwicklung und Gewinnchancen ein
Die Geschwindigkeit der Modelliteration wird zum Wettbewerbsschwerpunkt.
Zwischen der Veröffentlichung von Opus 4.5 und seinen Vorgängern Haiku 4.5 und Sonnet 4.5 liegen nur wenige Wochen, was die Beschleunigungstendenz der gesamten Branche widerspiegelt. Im Jahr 2025 hat OpenAI kontinuierlich mehrere GPT-5-Varianten herausgebracht und im November das autonom 24 Stunden laufende Codex Max-Modell veröffentlicht; Google hat ebenfalls nach Monaten der Arbeit im Mittelpunkt von November endgültig Gemini 3 vorgestellt.
Es ist bemerkenswert, dass Anthropic die KI-Technologie zur Unterstützung seiner eigenen Forschung und Entwicklung nutzt. Albert gibt bekannt: "Claude hilft uns sowohl bei der Produktentwicklung als auch bei der Modellforschung und beschleunigt die Entwicklungsarbeit erheblich."
Angesichts des möglichen Gewinnausfalls durch den Preiswettbewerb ist Albert optimistisch: "Die Preisreduktion wird dazu führen, dass mehr Start-ups unsere Technologie tiefer integrieren und als Haupttechnologie einsetzen, was die Marktbasis erweitern wird." Trotzdem, obwohl der KI-Markt in den nächsten zehn Jahren voraussichtlich auf über eine Billion US-Dollar anwachsen wird, haben die großen Labore zwar enorme Investitionen in Rechenkapazitäten und Fachkräfte getätigt, aber der Weg zum Gewinn ist noch lang, und noch kein Anbieter hat eine absolute Dominanz erreicht.
Für Unternehmen und Entwickler wird dieser Wettlauf in stetig steigende Leistung und sinkende Kosten umgesetzt. Aber da die KI in fachlichen technischen Aufgaben das menschliche Niveau annähert oder sogar übertrifft, hat die Umgestaltung der Arbeitsweisen in verschiedenen Branchen von einer theoretischen Diskussion zu einer realen Herausforderung geworden.
Bezüglich der Tatsache, dass die KI in Engineering-Tests die Menschen übertrifft, gesteht Albert: "Das ist zweifellos ein Signal, das sehr ernst genommen werden muss."
Dieser Artikel stammt aus dem WeChat-Account "Tencent Technology", Autor: Jin Lu. Veröffentlicht von 36Kr mit Genehmigung.