Claude Opus 4.7: Sensation in der Späten Nacht - Bewältigt Längere Aufgaben, Prüft Selbstständig und Hat Maximale Visuelle Fähigkeiten

Sobald ich die Augen öffne, hat Claude wieder ein Update bekommen.

Zhidongxi berichtete am 17. April, dass Anthropic in der vergangenen Nacht das neue Flaggschiff-Großmodell Claude Opus 4.7 veröffentlicht hat.

▲Anthropic hat das neue Modell Claude Opus 4.7 veröffentlicht (Quelle: X)

Dieses Modell hat im Bereich der fortgeschrittenen Softwareentwicklung im Vergleich zu Opus 4.6 deutliche Verbesserungen erzielt, insbesondere bei der Bearbeitung der komplexesten Aufgaben. Die Fähigkeit zur Verarbeitung von Hochauflösungsbildern hat sich stark verbessert und ist mehr als dreimal so hoch wie bei den früheren Claude-Modellen. Darüber hinaus hat Claude Code auch den neuen Befehl /ultrareview für die Codeüberprüfung hinzugefügt. Nach der Eingabe wird eine Überprüfungssitzung gestartet, die die Codeänderungen zeilenweise überprüft.

Benutzer geben an, dass sie die schwierigsten Codierungsaufgaben vertrauensvoll an Opus 4.7 übergeben können. Opus 4.7 kann komplexe, langlaufende Aufgaben streng und konsequent bearbeiten, die Anweisungen exakt befolgen und die Ausgabe selbst überprüfen, bevor es das Ergebnis meldet.

Opus 4.7 wird ab heute in allen Claude-Produkten und -APIs, Amazon Bedrock, Google Cloud Vertex AI sowie Microsoft Foundry eingeführt. Die Preise sind die gleichen wie für Opus 4.6: Für die Eingabe von einer Million Token werden 5 US-Dollar (etwa 34 Yuan) berechnet, für die Ausgabe von einer Million Token 25 US-Dollar (etwa 170,5 Yuan). Entwickler können claude-opus-4-7 über die Claude-API nutzen.

Es muss gesagt werden, dass die Updates von Claude in letzter Zeit so schnell sind, dass man kaum mitkommt. Internetnutzer haben in den Kommentarbereichen von Claude Emojis gepostet und geschrieben: "Sobald man die Augen öffnet, hat Claude schon wieder ein Update bekommen."

▲Internetnutzer kommentieren Claude-Tweets (Quelle: X)

01. Strengere Befolgung von Anweisungen

Verbesserte Multimodal-Unterstützung

Beim Test hat Claude Opus 4.7 in folgenden Bereichen hervorragende Leistungen gezeigt und Opus 4.6 deutlich übertroffen:

1. Befolgung von Anweisungen. Opus 4.7 hat sich bei der Befolgung von Anweisungen deutlich verbessert. Frühere Modelle interpretierten die Anweisungen locker oder übersprangen teilweise Inhalte ganz, während Opus 4.7 die Anweisungen wörtlich ausführt. Benutzer sollten die Hinweise und Anwendungsrahmen entsprechend neu optimieren.

2. Verbesserte Multimodal-Unterstützung. Opus 4.7 hat eine stärkere visuelle Fähigkeit für Hochauflösungsbilder: Es kann Bilder mit einer maximalen Seitenlänge von 2.576 Pixeln (etwa 3,75 Millionen Pixeln) verarbeiten, was mehr als dreimal so viel wie bei den früheren Claude-Modellen ist. Dies eröffnet breite Möglichkeiten für multimodale Anwendungen, die auf feinen visuellen Details beruhen, wie z. B. die Erkennung von dichten Bildschirmfotos beim Betrieb eines Computers durch einen Agenten, die Extraktion von Daten aus komplexen Diagrammen sowie Designarbeiten, die pixelgenaue Genauigkeit erfordern.

3. Praktische Arbeit. Neben dem besten Ergebnis bei der Bewertung von Finanzagenten zeigt die interne Testung von Anthropic, dass Opus 4.7 ein effektiverer Finanzanalyst als Opus 4.6 ist. Es kann strengere Analysen und Modelle, professionellere Präsentationen erstellen und engere Integrationen zwischen Aufgaben vornehmen. Opus 4.7 hat auch auf der Drittanbieter-Bewertung GDPval-AA für wirtschaftliche Wertschöpfung in Wissensarbeit in Bereichen wie Finanzen und Recht das beste Ergebnis erzielt.

4. Gedächtnisfähigkeit. Opus 4.7 ist stärker in der Nutzung von Dateisystem-basiertem Gedächtnis. Es kann wichtige Notizen während langer, mehrsitziger Arbeiten behalten und diese Gedächtnisse nutzen, um neue Aufgaben voranzutreiben, wodurch der Bedarf an vorherigem Kontext verringert wird.

▲Leistung von Opus 4.7 im Modell-Benchmark-Test (Quelle: Anthropic)

Opus 4.7 hat positive Rückmeldungen von einigen frühen Testern erhalten. Clarence Huang, Technischer Vizepräsident der Finanzsoftwarefirma Intuit, sagt, dass das Modell in der Planungsphase selbst logische Fehler entdecken kann und auch viel schneller als seine Vorgänger arbeitet. Igor Ostrovsky, CTO der AI-Programmierwerkzeugfirma Augment Code, ist der Meinung, dass die Stärke von Opus 4.7 darin liegt, dass es praktische Automatisierungsabläufe, CI/CD (Kontinuierliche Integration und Bereitstellung) und lange Aufgabenabläufe gut handhaben kann und auch eigene Urteile fällen kann, anstatt einfach nur den Benutzern zuzustimmen.

02. Spitzenleistungen in mehreren Bewertungen

Deutliche Verbesserungen bei biologischer und Dokumentenlogik

Anthropic hat in Vorabtests Opus 4.7 in verschiedenen Bereichen bewertet und es mit Opus 4.6, GPT-5.4 und Gemini 3.1 Pro verglichen.

Die Verbesserung bei der biologischen Logik ist am deutlichsten. Opus 4.7 hat 74,0 % erreicht, während Opus 4.6 nur 30,9 % erzielte, was einer Verbesserung um 1,4 Mal entspricht.

Bei der Dokumentenlogik hat Opus 4.7 80,6 % erzielt, weit über Opus 4.6 mit 57,1 % und auch deutlich vor GPT-5.4 (51,1 %) und Gemini 3.1 Pro (42,9 %). Dies ist einer der Bereiche mit der größten Differenz in der Vergleichsbewertung.

Außerdem hat Opus 4.7 bei der Wissensarbeit mit 1.753 Elo-Punkten die Spitzenposition erreicht und liegt deutlich vor GPT-5.4 (1.674), Opus 4.6 (1.619) und Gemini 3.1 Pro (1.314).

Bei der Langkontextlogik hat Opus 4.7 bei der einfachen Aufgabe der Suche nach Elternknoten (Parents 1M) 75,1 % erreicht, während Opus 4.6 71,1 % erzielte, was nur eine geringe Differenz ist. Bei der schwierigeren Breitensuche (BFS 1M) hat Opus 4.7 58,6 % erreicht, während Opus 4.6 nur 41,2 % erzielte, was eine Differenz von 17 Prozentpunkten ergibt. Je schwieriger die Aufgabe, desto deutlicher ist die Verbesserung des Modells.

Bei der Sicherheit und Ausrichtung hat Anthropic auch die Bewertungen für fehlerhaftes Verhalten der Modelle veröffentlicht. Opus 4.7 hat einen Score von etwa 2,47 (auf einer Skala von 0 bis 10, je niedriger desto besser) für fehlerhaftes Verhalten erzielt, was etwas besser als der von Opus 4.6 mit 2,75 ist, aber immer noch deutlich hinter Mythos Preview mit 1,78 liegt.

Insgesamt ist die Sicherheit von Opus 4.7 ähnlich wie die von Opus 4.6. Die Wahrscheinlichkeit, dass es sich betrügerisch verhält, schmeichelt oder mit Missbrauchern kooperiert, ist gering. Anthropic sagt dazu: "Opus 4.7 ist insgesamt gut ausgerichtet und vertrauenswürdig, aber sein Verhalten ist nicht völlig ideal." Derzeit ist Mythos Preview, das die beste Ausrichtung zeigt, noch nicht vollständig verfügbar.

03. Weitere Updates: Neuer xhigh-Grad, Überprüfungsbefehl

Task-Budget in der öffentlichen Beta-Phase

Neben Opus 4.7 selbst hat Anthropic auch einige Funktionsupdates eingeführt.

Beim Inferenzgrad hat es einen neuen Grad xhigh (extra hoch) eingeführt, der zwischen den bestehenden Graden high und max liegt und den Benutzern eine feinere Einstellungsmöglichkeit zwischen Inferenztiefe und Reaktionsgeschwindigkeit bietet. Der Standard-Inferenzgrad von Claude Code wurde auf xhigh erhöht.

Beim API ist die Task-Budget-Funktion in die öffentliche Beta-Phase eingetreten. Entwickler können Claude so steuern, wie es die Token-Verwendung bei langen Aufgaben verteilt.

Beim Claude Code hat es den neuen Befehl /ultrareview hinzugefügt. Nach der Eingabe wird eine spezielle Überprüfungssitzung gestartet, die die Codeänderungen zeilenweise überprüft und Fehler und Designprobleme markiert. Pro- und Max-Benutzern werden jeweils drei kostenlose Testläufe gewährt. Darüber hinaus ist der Auto-Modus auf Max-Benutzer erweitert worden. In diesem Modus kann Claude selbstständig Entscheidungen treffen und die Anzahl der manuellen Bestätigungen reduzieren.

04. Achtung: Opus 4.7 verbraucht mehr Token

Aber die Generierungsqualität ist besser

Opus 4.7 ist eine direkte Weiterentwicklung von Opus 4.6, aber es gibt zwei Änderungen, die die Token-Verwendung beeinflussen und beachtet werden sollten.

Erstens hat sich die Textverarbeitungsweise geändert. Opus 4.7 verbraucht bei der gleichen Eingabe bis zu etwa 35 % mehr Token. Zweitens denkt das Modell bei höheren Inferenzgraden mehr nach, insbesondere in späteren Runden im Agenten-Szenario. Daher wird auch die Anzahl der ausgegebenen Token von Opus 4.7 entsprechend erhöht. Benutzer können die Token-Verwendung durch die Einstellung des Inferenzgrads, die Festlegung eines Task-Budgets oder die Anforderung nach kürzeren Antworten in den Hinweisen steuern.

Aus dem Diagramm der Agenten-Programmierbewertung geht hervor, dass Opus 4.7 bei jedem Inferenzgrad mit weniger Token eine höhere Punktzahl erreicht. Beispielsweise verbraucht Opus 4.7 im xhigh-Grad etwa 100.000 Token und erreicht eine Punktzahl von über 70 %, während Opus 4.6 im max-Grad etwa 130.000 Token verbraucht und erst knapp über 60 % erreicht. Allerdings arbeitete das Modell in dieser Bewertung autonom anhand einer einzigen Anweisung, und das Ergebnis stellt möglicherweise nicht den tatsächlichen Token-Verbrauch bei interaktiver Programmierung dar.

05. Fazit: Genauer und vielseitiger

Konkurrenz droht

Aus den von Anthropic veröffentlichten Daten geht hervor, dass Opus 4.7 in mehreren Benchmarks wie Programmierung, Dokumentenlogik und biologischer Logik tatsächlich Verbesserungen erzielt hat und auch die Token-Effizienz verbessert ist. Aber Bewertungen bleiben letztendlich Bewertungen, und die tatsächliche Leistung muss in realen Szenarien weiter überprüft werden.

Mit der Veröffentlichung von Opus 4.7 stellt sich die Frage, welche neuen Schritte OpenAI als N

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Claude Opus 4.7 hat in der späten Nacht eine Sensation gemacht. Es kann längere Aufgaben bewältigen, selbstständig prüfen und verfügt über maximale visuelle Fähigkeiten.

01.

Strengere Befolgung von Anweisungen

Verbesserte Multimodal-Unterstützung

02.

Spitzenleistungen in mehreren Bewertungen

Deutliche Verbesserungen bei biologischer und Dokumentenlogik

03.

Weitere Updates: Neuer xhigh-Grad, Überprüfungsbefehl

Task-Budget in der öffentlichen Beta-Phase

04.

Achtung: Opus 4.7 verbraucht mehr Token

Aber die Generierungsqualität ist besser

05.

Fazit: Genauer und vielseitiger

Konkurrenz droht