StartseiteArtikel

Claude Opus 4.5 ist da! Es kann in einem einzigen Durchlauf "Minecraft" erschaffen und hat auch die schwierige Agent-Bewertung bewältigt.

智东西2025-11-25 12:19
Mit Programmierung besiege ich Gemini 3 Pro, und in Interviews schlage ich alle menschlichen Bewerber.

Schlagen Sie mit der Programmierung von Gemini 3 Pro und besiegen Sie alle menschlichen Bewerber bei Interviews.

Laut einer Meldung von Zhidx am 25. November hat Anthropic heute sein Flaggschiff-Programmier-Modell Claude Opus 4.5 vorgestellt. Anthropic behauptet, dass dies das weltweit stärkste Modell in Bezug auf Programmierung, Agenten und Computernutzung sei.

Im echten Software-Engineering-Test SWE-bench Verified wurde Claude Opus 4.5 das erste KI-Modell, das eine Punktzahl von über 80 % erreichte. Es liegt nicht nur vor dem eigenen Claude Sonnet 4.5, sondern übertrifft auch das voriger Woche veröffentlichte Gemini 3 Pro und GPT-5.1 Codex-Max.

Anthropic hat auch die schwierige Heimarbeitsprüfung für die Einstellung von menschlichen Ingenieuren an Claude Opus 4.5 weitergeleitet. Das Ergebnis war, dass in den vorgeschriebenen zwei Stunden Claude Opus 4.5 eine höhere Punktzahl erzielte als alle bisherigen menschlichen Bewerber. Dies zeigt, dass das KI-Modell in wichtigen technischen Fähigkeiten bereits die besten menschlichen Bewerber übertrifft.

Programmierung ist nicht die einzige Verbesserung von Claude Opus 4.5. Seine visuelle, logische und mathematische Fähigkeit übertrifft die des Vorgängermodells, und es kann Aufgaben wie tiefergehende Recherchen, die Bearbeitung von Präsentationen und Tabellenkalkulationen gut bewältigen.

Zur gleichen Zeit hat Anthropic tatsächlich die Preise für das Claude Opus-Serie-Modell gesenkt. Claude Opus 4.5 ist für 5 US-Dollar pro Million Tokens (Eingabe) / 25 US-Dollar (Ausgabe) angeboten, was nur ein Drittel des Vorgängermodells Claude Opus 4.1 entspricht. Gleichzeitig hat Anthropic die Nutzungsbeschränkungen speziell für die Opus-Serie entfernt.

Claude Opus 4.5 ist jetzt in der Claude-Anwendung und der API verfügbar. Bevor Benutzer Opus nutzen können, müssen sie jedoch ein Premium-Abo im Wert von 200 US-Dollar pro Monat abschließen. Claude Opus 4.5 ist auch auf den drei großen Cloud-Plattformen AWS, Google Cloud und Microsoft Azure verfügbar.

01. Weiterer Sprung in der Frontend-Leistung und perfekte Nachstellung von "Minecraft" auf einmal

Wie gut funktioniert Claude Opus 4.5 tatsächlich? In den Kommentaren zur offiziellen Ankündigung der Modellveröffentlichung von Anthropic haben bereits viele Benutzer ihre eigenen Erfahrungen geteilt.

In Bezug auf die Frontend-Fähigkeiten hat Guillermo, der CEO der Frontend-Entwicklerplattform Vercel, mit Claude Opus 4.5 eine Einkaufswebsite erstellt. Das Ergebnis der einmaligen Generierung sieht wie folgt aus:

Guillermo hat bewundert, dass das Niveau von Claude Opus 4.5 völlig anders und unglaublich gut sei.

Dieser Netizen hat die vier Hero-Sektionen geteilt, die er mit Claude Opus 4.5 erstellt hat. Dies ist ein wichtiger Bereich auf einer Website oder in einer App, um die Aufmerksamkeit der Benutzer zu erregen. Man kann sehen, dass sowohl die Schriftgestaltung als auch das Webseitendesign dieser Seiten sehr elegant sind.

Ein Netizen hat mit Claude Opus 4.5 eine Klonversion von "Minecraft" erstellt. Dies testet die Leistung des Modells bei komplexeren Projekten. Claude Opus 4.5 hat es beim ersten Versuch geschafft und 3500 Zeilen Code generiert. Der Netizen meint, dass dies bedeutet, dass Claude Opus 4.5 nicht wie Gemini 3.0 Pro Kürzungen machen würde.

Die von Claude Opus 4.5 nachgestellte "Minecraft"-Spiel sieht sehr gut aus. Sie hat verschiedene Biome (Ebenen, Wüsten, Schneelandschaften), die transparenten Blöcke von Blättern und Wasser sind auch genau richtig, und es gibt ein sehr gutes Inventar und ein Synthesesystem. All dies ist in einem Spiel integriert. Es hat sogar Wolkeneffekte erstellt. Der Netizen sagt, dass er bisher noch kein Modell gesehen hat, das dies kann.

Dan Shipper, Mitbegründer und CEO der KI-Abonnementplattform Every, hat bewundert, dass alle sechs Monate bis ein Jahr ein Modell erscheint, das die Branche wirklich verändert, und dass das heute veröffentlichte Claude Opus 4.5 genau dieses Modell sei. Shipper sagt, dass dies das beste Programmier-Modell ist, das er je benutzt hat, ohne Ausnahme.

02. Führt in Tests mit 7 Programmiersprachen und erheblich verbesserte Sicherheit

Vor der Veröffentlichung hat Anthropic das Claude Opus 4.5-Modell intern getestet. Die Tester sagen, dass Claude Opus 4.5 unklare Situationen bewältigen und die Vor- und Nachteile abwägen kann, ohne viel Anleitung zu benötigen.

Bei komplexen Mehrsystemfehlern kann Claude Opus 4.5 selbständig eine Reparaturmethode finden. Aufgaben, die vor einigen Wochen für Claude Sonnet 4.5 fast unmöglich waren, kann Claude Opus 4.5 jetzt problemlos bewältigen. Die Tester von Anthropic haben dem Modellteam gesagt, dass Claude Opus 4.5 wirklich "im Geschäft ist".

Anthropic hat die Leistung von Claude Opus 4.5 in mehreren Benchmark-Tests geteilt. Im SWE-bench Multilingual, das das Beherrschen verschiedener Programmiersprachen misst, führt Claude Opus 4.5 in 7 von 8 Programmiersprachen.

Im BrowseComp-Plus, das die Fähigkeit von Deep-Search-Agenten misst, zeigt Claude Opus 4.5 einen Vorteil von etwa 4,7 % gegenüber Claude Sonnet 4.5.

Claude Opus 4.5 hat auch einige gängige Benchmark-Tests geknackt. Beispielsweise muss das Modell im τ2-bench, das die Fähigkeit von Agenten misst, die Rolle eines Fluggesellschafts-Customer-Service-Mitarbeiters einnehmen und einem Passagier, der Schwierigkeiten hat, helfen.

Dieser Benchmark-Test verlangt, dass das Modell die Änderung eines Economy-Class-Flugtickets ablehnt, da die Fluggesellschaft keine Änderungen an Tickets dieser Klasse erlaubt. Claude Opus 4.5 hat jedoch eine clevere und vernünftige Lösung gefunden: Erst die Klasse upgraden und dann den Flug ändern.

Technisch gesehen wird das von dem Benchmark-Test als fehlgeschlagen bewertet, da Claude Opus 4.5 den Kunden auf eine unerwartete Weise geholfen hat. Aber diese kreative Problemlösungsmethode ist ein bedeutender Fortschritt.

In anderen Fällen kann das Finden von cleveren Methoden, um erwartete Beschränkungen zu umgehen, als "Reward Hacking" angesehen werden - d. h. das Modell "manipuliert" die Regeln oder Ziele auf eine unerwartete Weise.

Eines der Ziele der Sicherheits-Tests von Anthropic ist es, solche Abweichungen zu verhindern. In der internen Bewertung zeigt Claude Opus 4.5 eine Wahrscheinlichkeit von etwas über 10 % für besorgniserregendes Verhalten, weit unter den 20 % von GPT-5.1 und Gemini 3 Pro.

Claude Opus 4.5 hat erhebliche Fortschritte bei der Abwehr von Prompt-Injection-Angriffen erzielt. Prompt-Injection-Angriffe implantieren heimlich betrügerische Anweisungen, um das Modell zu verleiten, schädliche Handlungen auszuführen. Opus 4.5 lässt sich schwerer von Prompt-Injection-Angriffen täuschen als jedes andere führende Modell in der Branche.

03. Neues Denkintensitätssteuerung und gleiche Kontextkomprimierungsfunktion wie GPT

Bei der Veröffentlichung des neuesten Modells hat Anthropic auch eine Reihe neuer Funktionen der Claude-Entwicklerplattform angekündigt.

Mit der Verbesserung der Intelligenz der Modelle können sie Probleme mit weniger Schritten lösen: Rückschritte, redundante Explorationen und langwierige Schlussfolgerungen werden reduziert. Claude Opus 4.5 verbraucht im Vergleich zu den Vorgängermodellen deutlich weniger Tokens, um dasselbe oder bessere Ergebnisse zu erzielen. Aber für verschiedene Aufgaben sind verschiedene Abwägungen erforderlich - Entwickler möchten manchmal, dass das Modell an schwierigen Problemen weiterdenkt, manchmal benötigen sie jedoch eine schnellere Reaktion.

Über den neuen "Denkintensitäts-Parameter" (effort parameter) in der Claude-API können Entwickler selbst entscheiden, ob sie die Zeitkosten minimieren oder die Modellfähigkeiten maximieren möchten.

Bei der mittleren Intensitätseinstellung erreicht Claude Opus 4.5 in der SWE-bench Verified-Test die beste Punktzahl von Sonnet 4.5, während die ausgegebenen Tokens um 76 % reduziert werden.

Bei der höchsten Intensität übertrifft seine Leistung Claude Sonnet 4.5 um 4,3 Prozentpunkte und spart 48 % an Tokens.