Claude Opus 4.7: Das SOTA unter öffentlichen Modellen, aber mit deutlichem GPT

Ist ein "sicher fangen"-Typ von Anthropic.

Nach einem Ablenkungsmanöver mit Mythos hat Anthropic überraschend Claude Opus 4.7 vorgestellt.

Viele Leute haben die Nacht hindurch bis zum Wahnsinn gespielt!

Ich habe mich in aller Eile aus dem Bett gehoben und sofort damit begonnen, Opus 4.7 auszuprobieren. Ich habe aus meiner Erfahrung mit Opus 4.7 eine schlechte Nachricht und einige gute Nachrichten zusammengefasst.

Lassen Sie mich zunächst die schlechte Nachricht erzählen: Opus 4.7 wirkt auf den ersten Blick ein wenig wie ein alter Bekannter.

Es versucht ständig, meine Fragen "sicher zu fangen".

Viele Internetnutzer haben auch gemeldet, dass Opus 4.7, obwohl es als Upgrade angepriesen wird, immer mehr wie GPT wirkt.??

Wenn das stimmt, ist das keine gute Nachricht (hilflos die Augen geschlossen.jpg).

Während es nur eine schlechte Nachricht gibt, gibt es eine ganze Reihe von guten Nachrichten.

In Bezug auf Agentic coding, Agentic terminal coding, Scaled tool use, Visual reasoning und andere Aspekte ist es besser als seine Vorgängerversion. Allerdings hat es in einigen Einzelbereichen wie Agentic search an Leistung eingebüßt.

Anthropic hat sich auch ziemlich anmaßend geäußert:

Opus 4.7 ist derzeit unser stärkstes öffentlich zugängliches Modell. Dies ist jedoch nicht unser stärkstes Modell überhaupt.

Es scheint also, dass das stärkste Modell immer noch das geheimgehaltene Mythos ist.

Wenn Sie sich die obige Tabelle ansehen, zeigt Mythos in diesen Tests eine um etwa 10 % bis 15 % bessere Gesamtleistung.

Es ist unbestritten, dass Mythos Preview derzeit die stärkste Karte in der Hand von Anthropic ist. Es hat maximale Fähigkeiten, aber der Preis ist auch fünfmal so hoch wie der von Opus 4.7.

Im Vergleich dazu wirkt Opus 4.7 eher wie die stärkste Serienversion mit einer vollständig verifizierten Sicherheitsarchitektur, einem erschwinglichen Preis und Plattformunabhängigkeit.

Aber... wie der Sprichwort sagt, "auch der Weiseste macht Fehler".

Das starke Opus 4.7 hat sich gestern in einer vermeintlich sicheren Situation verrannt:

Claude Opus 4.7 - Vier Kern-Upgrade-Richtungen

Insgesamt zeichnet sich das öffentlich stärkste Opus 4.7 in vier Richtungen aus.

Hochwertige Softwareentwicklung: Zuverlässig

Der offensichtlichste Fortschritt von Opus 4.7 liegt im Bereich der Hochwertigen Softwareentwicklung.

Schauen Sie sich diese Daten an:

Im SWE-bench Verified-Test erreichte es 78,2 %;

Im SWE-bench Multimodal 72,7 %;

Im Terminal-Bench 2.0 68,8 %;

Die Anzahl der gelösten Produktionsaufgaben im Rakuten-SWE-Bench war sogar dreimal so hoch wie bei Opus 4.6;

Die Codierungsleistung in 93 GitHub-Aufgaben stieg um 13 %.

Michael Truell, der CEO von Cursor, hat eine entscheidende Einschätzung abgegeben:

Im CursorBench stieg die Leistung von Opus 4.7 von 58 % auf 70 %. Dieser Anstieg ist von großer Bedeutung.

Dieser Fortschritt zeigt sich in drei Schlüsselmerkmalen.

Erstens: Strenge Befolgung von Anweisungen.

Opus 4.7 interpretiert nicht mehr wie frühere Modelle vage Formulierungen des Benutzers "flexibel", sondern folgt wörtlich den Anweisungen.

Das bedeutet, dass früher, wenn Sie einen Hinweis wie "Versuchen Sie, diesen Code zu optimieren, wenn möglich" gegeben haben, das Modell diesen Hinweis möglicherweise ignoriert hätte.

Jetzt, wenn Sie sagen "Optimiere diesen Code", wird es es unbedingt tun.

Diese Veränderung erfordert, dass Benutzer ihre Hinweisstrategien neu anpassen. Weiche Modifikatoren wie "if possible/ideally/try to" erhalten eine höhere Gewichtung, und harte Beschränkungen müssen klarer definiert werden.

Zweitens: Selbstüberprüfung vor der Ausgabe.

Opus 4.7 findet Wege, seine eigenen Ausgaben zu überprüfen, bevor es das Ergebnis meldet, ähnlich wie ein erfahrener Ingenieur vor der Einreichung von Code Tests durchführt.

Drittens: Kompetenz in komplexen Mehrdatei-Änderungen, vagen Fehlersuchen und Codeüberprüfungen über mehrere Dienste hinweg.

Sarah Sachs, die AI Lead von Notion, hat eine Statistik geteilt:

Bei komplexen mehrstufigen Workflows hat Opus 4.7 im Vergleich zu Opus 4.6 eine Verbesserung von 14 % erreicht und verbraucht weniger Token. Die Fehlerrate bei der Werkzeugnutzung beträgt nur ein Drittel. Es ist das erste Modell, das unseren Test für implizite Anforderungen bestanden hat.

Visuelle Fähigkeiten: Drei Mal höhere Auflösung, mehr Details erkennen

Opus 4.7 hat auch in Bezug auf visuelle Fähigkeiten beachtliche Fortschritte gemacht.

Offizielle Daten zeigen, dass die maximale Länge der längeren Seite 2.576 Pixel (≈ 3,75 Millionen Pixel) beträgt, was mehr als dreimal so viel wie bei Opus 4.6 ist. Die visuelle Schärfe im XBOW-Test erreicht 98,5 % (Opus 4.6 erreichte nur 54,5 %).

In praktischen Anwendungen deckt es fast alle Szenarien ab. Es kann direkt vollständige Figma-Designs, 1080p-Terminalscreenshots (einschließlich grauer Kleinbuchstaben) erkennen, komplexe technische Architekturdiagramme und Finanzberichtsgrafiken präzise analysieren. In Computernutzungsszenarien kann es hochdichte UI-Elemente klar lesen, und seine visuelle Verarbeitungsfähigkeit ist fast perfekt.

Mit anderen Worten, Aufgaben wie die Analyse chemischer Strukturen, die Erkennung komplexer technischer Diagramme und die pixelgenaue Positionierung von UI-Elementen, die früher spezielle Modelle erforderten, können jetzt direkt mit Opus 4.7 erledigt werden.

Nach dieser Nachricht ist der Aktienkurs von Figma direkt gefallen. Ein wahres Desaster.

Befolgung von Anweisungen und logisches Denken: Mehr Kontrolle, mehr Zuverlässigkeit

Opus 4.7 hat auch in Bezug auf die Befolgung von Anweisungen deutliche Fortschritte gemacht.

Es versucht nicht mehr, die wahre Absicht des Benutzers zu erraten, sondern folgt wörtlich den Anweisungen.

Der Kernvorteil dieser Aktualisierung liegt in der strengen wörtlichen Befolgung. Wenn der Benutzer fordert, "Verwenden Sie kein TypeScript", wird das Modell es strikt vermeiden. Wenn der Benutzer fordert, "Geben Sie JSON aus", wird die Ausgabe definitiv keine zusätzlichen Präfixe enthalten.

Diese Veränderung kann für alte Benutzer eine Anpassung erfordern (alte Hinweise können zu unerwarteten Ergebnissen führen und müssen neu kalibriert werden), aber für Szenarien, die eine genaue Kontrolle erfordern, ist es ein Segen.

In Bezug auf logisches Denken hat es in Szenarien mit einem langen Kontext von einer Million Token eine hervorragende Leistung gezeigt. Im BFS-Test erreichte es 58,6 %* (Opus 4.6 erreichte nur 41,2 %), und die logische Kohärenz in komplexen Denkprozessen hat sich deutlich verbessert.

Verbesserte Agent-Fähigkeiten: Eine Version für Agenten

Während die früheren Claude-Versionen für Dialoge entwickelt wurden, ist Opus 4.7 für Agenten konzipiert.

Dies zeigt sich in mehreren Aspekten.

Insgesamt hat Opus 4.7 seine Kern-Agent-Fähigkeiten auf alle Ebenen verbessert.

Mehrere bekannte AI-Unternehmen haben Daten über die praktische Nutzung vorgelegt - Die Erfolgsrate bei mehrstufigen Workflows in Notion hat um 14 % zugenommen, und die Fehlerrate bei der Werkzeugnutzung ist auf ein Drittel gesunken. In der Langzeitbetriebssimulation des Vending-Bench 2 erreichte das Endguthaben 10.937 US-Dollar (Opus 4.6 hatte 8.018 US-Dollar übrig), und die Entscheidungen über einen langen Zeitraum sind robuster. In Genspark-Szenarien sind die drei produktionsrelevanten Eigenschaften Resistenz gegen Endlosschleifen, Konsistenz und Fehlerbehebung auf das Maximum gesteigert.

Zusätzlich hat es die Fähigkeit, Informationen im Dateisystem zu speichern und wichtige Informationen über mehrere Sitzungen hinweg zu speichern. Beim Start neuer Aufgaben kann die wiederholte Eingabe von Kontext um 40 % reduziert werden.

Scott Wu, der CEO von Cognition, hat es noch bildlicher ausgedrückt:

Opus 4.7 hat in Devin die Langzeitautonomie auf ein neues Niveau gehoben. Es kann stundenlang konsequent arbeiten, Schwierigkeiten überwinden anstatt aufzugeben, und hat eine Art tiefergehende Untersuchungsarbeiten ermöglicht, die wir zuvor nicht zuverlässig durchführen konnten.

Zusätzlich bietet Opus 4.7 für Entwickler eine Reihe von beeindruckenden Agent-bezogenen Funktionen.

Erstens: Es wurde eine neue Inferenzstufe "xhigh" hinzugefügt, die standardmäßig zwischen "high" und "max" liegt.

Dies gibt Entwicklern eine feinere Kontrolle und ermöglicht es ihnen, einen Kompromiss zwischen Inferenztiefe und Latenz zu finden, um Intelligenz und Token-Kosten auszugleichen und die meisten Codierungs- und Agent-Aufgaben zu bewältigen.

Zweitens: Es wurde ein neues adaptives Denkmodell eingeführt, das die feste Budgetierung für ausführliche Überlegungen ersetzt. Das Modell entscheidet selbst über die Tiefe der Überlegungen, reagiert schnell auf einfache Abfragen und setzt mehr Ressourcen in komplexe Schritte ein.

Drittens: Die Task-Budgetierung (öffentlich in Beta) ermöglicht es Entwicklern, den Token-Verbrauch zu steuern und die Ressourcenverteilung für lange Aufgaben zu optimieren.

Viertens: In Claude Code wurde der Befehl "/ultrareview" hinzugefügt, der es ermöglicht, spezielle Überprüfungssitzungen zu erstellen und feine Fehler und Designprobleme zu markieren.

Ein zuverlässiges Modell schaffen: Erstmals Schutzmaßnahmen, verbesserte Gedächtnisleistung

Anthropic hat offiziell angegeben, dass die Netzwerksicherheitsfähigkeiten von Opus 4.7 schlechter sind als die von Mythos Preview.

Dies war jedoch beabsichtigt.

Hinter dieser "Selbstbeschränkung" steckt Anthropics konsequente Einstellung zur AI-Sicherheit.

Seit seiner Gründung im Jahr 2021 hat das Unternehmen vier Jahre lang sorgfältig an seinem Ruf gearbeitet, um sich als Unternehmen darzustellen, das sich stärker als Wettbewerber wie OpenAI auf die sichere und verantwortungsvolle Implementierung von KI konzentriert.

Nachdem Mythos Preview die Fachwelt über die Sicherheitsrisiken von starken KI-Modellen in die Diskussion gebracht hat, wurde Opus 4.7 als Pufferzone konzipiert.

Genauer gesagt, hat Anthropic bei der Ausbildung versucht, die Netzwerkfähigkeiten von Opus 4.7 differenziert zu reduzieren, damit das Modell bei Netzwerksicherheitsaufgaben vorsichtiger agiert.

Zusätzlich hat die Firma Schutzmaßnahmen zur automatischen Erkennung und Blockierung von Hochrisiko-Netzwerksicherheitsanfragen eingeführt. Diese Sicherheitsmechanismen können Anfragen, die auf verbotene oder hochriskante Netzwerksicherheitsanwendungen hinweisen, automatisch erkennen und blockieren.

Für Fachleute mit legitimen Netzwerksicherheitsanforderungen hat Anthropic das Cyber Verification Program eingeführt.

Sicherheitsexperten, die Opus 4.7 für legitime Zwecke wie Sicherheitslückenforschung, Penetrationstests oder Rote-Team-Übungen verwenden möchten, können über offizielle Kanäle beantragen.

Am Ende des Podcasts auf der offiziellen Website wird auch darauf hingewiesen, dass Entwickler, die von Opus 4.6 auf die Version 4.7 migrieren möchten, einige Dinge besonders beachten sollten.

Erstens: Die Aktualisierung des Tokenizers.

Opus 4.7 verwendet einen neuen Tokenizer. Obwohl dies die Effizienz der Textverarbeitung verbessert, kann die gleiche Eingabe möglicherweise auf mehr Tokens abgebildet werden, etwa zwischen 1,0 und 1,35 Mal so viele.

Das bedeutet, dass die gleichen Hinweise möglicherweise mehr Token verbrauchen, und es sollte im Kostenbudget Puffer eingeräumt werden.

Zweitens: Mehr ausgegebene Tokens bei höheren Anstrengungsstufen.

Opus 4.7 zeigt bei den Stufen "high" und "xhigh" eine deutlich erhöhte Denktiefe, insbesondere in späteren Runden von mehrstufigen Dialogen in Agent-Szenarien.

Dieses "ausführlicheres Denken und höhere Zuverlässigkeit" verbessert die Qualität der Ausgabe, bedeutet aber auch, dass der Token-Verbrauch mit der Länge des Dialogs zunimmt.

Zum gleichen Preis wie Opus 4.6 - Wichtige Hinweise

Derzeit ist Opus 4.7 auf allen Plattformen verfügbar.

Außer über die offizielle Claude-Plattform ist das neue Modell nicht nur in allen Produkten von Claude Pro/Max/Team/Enterprise und der offiziellen API verfügbar, sondern auch auf den drei großen Cloud-Plattformen Microsoft Foundry, Google Cloud Vertex AI und Amazon Bedrock.

Der Preis ist der gleiche wie für Opus 4.6: 5 US-Dollar pro Million Tokens für die Eingabe und 25 US-Dollar pro Million Tokens für die Ausgabe.

Wie bereits erwähnt, erfordert Opus 4.7 eine Neukonstruktion der Hinweise und eine Anpassung der Token-Nutzungsstrategie. Dennoch hat Anthropic in internen Tests positive Signale gegeben.

In einer internen Agent-Codierungsbewertung hat sich die Effizienz der Token-Nutzung in allen Anstrengungsstufen im Vergleich zu Opus 4.6 verbessert.

Mit anderen Worten, obwohl die Anzahl der Tokens pro Aufruf möglicherweise erhöht ist, ist die Gesamtzahl der benötigten Tokens für die Aufgabe oft geringer, da das Modell weniger Fehler macht.

Es ist so, als würden Sie einen erfahrenen Ingenieur mit höherer Stundensatz einstellen, der aber schneller arbeitet und weniger Nacharbeiten benötigt, so dass die Gesamtkosten möglicherweise geringer sind.

Außerdem ist Opus 4.7 in späteren Runden vorsichtiger, insbesondere in Agent-Szenarien.

Dies bedeutet eine zuverlässigere Ausgabe, aber auch einen höheren Token-Verbrauch.

Entwickler können die Leistung und die Kosten ausgleichen, indem sie die Anstrengungsparameter anpassen, ein Aufgaben

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。