Claude Sonnet 4.5: Spätnachtliche Veröffentlichung sorgt für Furore - 30 Stunden autonomes Programmieren und Netizen-Tests mit Codebasis-Änderungen und Laufzeitfehler

Claude Sonnet 4.5 ist da

Der beinahe angebrochene Langwochenende der beiden Feiertage hat die großen KI - Modell - Unternehmen in China und im Ausland in Bewegung gebracht. Sie haben es geschafft, die Leute noch vor den offiziellen Feiertagen ein wenig in die Konkurrenz zu treiben. Nachdem DeepSeek gestern Abend DeepSeek V3.2 - Exp veröffentlicht hat, hat Anthropic heute die neueste Version von Claude Sonnet 4.5 vorgestellt, die als "das beste Codierungsmodell der Welt" angepriesen wird.

Das stärkste Codierungsmodell, Claude Sonnet 4.5, ist da: Kann 30 Stunden lang autonom laufen

Nach den offiziellen Testergebnissen hat Claude Sonnet 4.5 in der SWE - bench Verified - Bewertung die Spitzenleistung erzielt. Dieser Test misst hauptsächlich die Fähigkeit des Modells, Code in der realen Welt zu schreiben.

Bei den praktischen Tests konnte Claude Sonnet 4.5 über 30 Stunden lang konzentriert an komplexen, mehrstufigen Aufgaben arbeiten. Im Vergleich zu Opus 4, das etwa 7 Stunden lang lief, hat Claude Sonnet 4.5 eine deutliche Verbesserung erzielt. Dies ist für das von Anthropic angestrebte Agentensystem ein wichtiger Meilenstein.

Darüber hinaus hat Sonnet 4.5 auch in Bezug auf Computerbedienung deutliche Verbesserungen gezeigt. In der OSWorld - Bewertung, die speziell darauf abzielt, die Fähigkeit von KI - Systemen zu testen, reale Computeraufgaben zu erledigen, hat es 61,4 % erreicht. Vor nur vier Monaten hatte Sonnet 4 mit 42,2 % den ersten Platz belegt.

Jetzt sind diese verbesserten Fähigkeiten in die Chrome - Erweiterung von Claude integriert. Laut offizieller Demonstration kann man sehen, dass dieses große KI - Modell direkt im Browser agieren kann: Websites öffnen, Formulare ausfüllen, Aufgaben erledigen usw.

Außerdem hat Sonnet 4.5 in vielen Tests wie Inference und Mathematik erhebliche Verbesserungen gezeigt. Aus dem folgenden Bild kann man sehen, dass Claude Sonnet 4.5 in Tests wie Agentic Coding und Agentic Tool Use weit über konkurrierende Modelle wie das teurere GPT - 5 und Gemini 2.5 Pro liegt.

Darüber hinaus sind Experten aus den Bereichen Finanzen, Recht, Medizin und Naturwissenschaften einhellig darin übereingekommen, dass es in Bezug auf Fachwissen und Inferenzfähigkeiten weit über die früheren Modelle (einschließlich Opus 4.1) hinausgeht.

Effektive Verbesserung der Probleme wie "Halluzination", "Schmeichelei" und "Betrug"

Man muss bedenken, dass, wenn man die von KI autonom generierten Codes nicht prüft, diese, sobald sie in die Produktionsumgebung eingeführt werden, oft verschiedene potenzielle Risiken mit sich bringen können. Anthropic hat darauf hingewiesen, dass Claude Sonnet 4.5 nicht nur das derzeit stärkste Modell ist, sondern auch das am besten "ausgerichtete" führende Modell, das sie bisher herausgebracht haben.

Anthropic hat angegeben, dass ihr Modell "umfassend" an Sicherheit trainiert wurde und dass die Schutzmaßnahmen von Sonnet 4.5 gegen Sofort - Injektionsangriffe verbessert wurden. Die Daten zeigen, dass sie das Modell mit einem automatisierten Verhaltensprüfwerkzeug bewertet haben, wobei ein niedrigerer Wert für eine höhere Sicherheit steht. Die sogenannten "nicht ausgerichteten Verhaltensweisen" umfassen u. a. Betrug, Schmeichelei, Machtgrabung, Förderung von Wahnvorstellungen und Reaktion auf gefährliche Systembefehle.

Unter den großen KI - Modellen hat Sonnet 4.5 den niedrigsten Wert erhalten.

Darüber hinaus wurde Claude Sonnet 4.5 gemäß dem KI - Sicherheitsgrad 3 (ASL - 3) - Standard veröffentlicht, was bedeutet, dass es mit Schutzmaßnahmen ausgestattet ist, die seinem Fähigkeitsniveau entsprechen. Beispielsweise werden durch Classifier potenzielle gefährliche Eingaben und Ausgaben gefiltert, insbesondere Inhalte, die sich auf chemische, biologische, radioaktive und nukleare Waffen (CBRN) beziehen.

Allerdings hat Anthropic auch zugegeben, dass diese Classifier manchmal normale Inhalte fälschlicherweise blockieren können. Deshalb bieten sie eine einfache Umschaltoption an, damit die Benutzer stattdessen mit Sonnet 4, das ein geringeres CBRN - Risiko birgt, weiter dialogieren können. Bemerkenswerterweise hat das Team bei der Reduzierung von "Fehlalarmen" bemerkenswerte Ergebnisse erzielt: Im Vergleich zur ursprünglichen Version ist die Fehlalarmsrate um das 10 - fache gesunken; im Vergleich zu Claude Opus 4, das im Mai dieses Jahres veröffentlicht wurde, ist sie auch um die Hälfte gesunken.

Wichtige Aktualisierung von Claude Code

Für Entwickler ist die neueste Entwicklung von Claude Code am interessantesten.

Anthropic hat angegeben, dass sie mehr als sechs Monate Zeit in die Aktualisierung der Fähigkeiten von Claude Code investiert haben. Mit der Unterstützung von Sonnet 4.5 kann Claude Code jetzt längere und komplexere Entwicklungsaufgaben im Terminal und in der IDE bearbeiten.

Es gibt auch viele Aktualisierungen, die im Einzelnen Folgendes umfassen:

Native VS Code - Erweiterung: Anthropic wird bald eine Beta - Version einer nativen VS Code - Erweiterung veröffentlichen, die Claude Code direkt in die IDE integriert. Benutzer können über ein spezielles Seitenleistenpanel die von Claude vorgenommenen Codeänderungen in Echtzeit anzeigen und Inline - Differenzen sehen. Diese Erweiterung bietet Benutzern, die lieber in der IDE entwickeln, eine intuitivere und reichhaltigere Claude Code - Nutzungserfahrung.

Aktualisierung der Terminaloberfläche: Die Terminaloberfläche von Claude Code wurde ebenfalls aktualisiert. Es gibt nun eine klarere Statusanzeige und eine durchsuchbare Befehlshistorie (Ctrl + r), die es Benutzern erleichtert, frühere Befehle wiederzuverwenden oder zu bearbeiten.

Claude Agent SDK ist da: Für Teams, die ein benutzerdefiniertes Agentenerlebnis erstellen möchten hat Anthropic die Kernmodule, die für die Erstellung von Claude Code verwendet werden, an Entwickler freigegeben und es Claude Agent SDK benannt.

Diese unterliegende Infrastruktur unterstützt nicht nur Claude Code, sondern ist auch für verschiedene Aufgaben geeignet. Entwickler können damit ihre eigenen Agenten aufbauen. Es löst die Probleme bei der Verwaltung von Gedächtnis in langen Aufgaben, der Balance zwischen Autonomie und Benutzersteuerung sowie der Koordination mehrerer Sub - Agenten. Wie die Offizielle Mitteilung sagt, haben sie Claude Code entwickelt, weil es keine passenden Tools auf dem Markt gab. Jetzt können Entwickler mit Agent SDK ebenfalls auf der gleichen Grundlage leistungsstarke Tools erstellen, um ihre jeweiligen geschäftlichen Probleme zu lösen.

Checkpoint - Funktion: Claude Code hat die von den Benutzern lange erwartete Checkpoint - Funktion hinzugefügt, da komplexe Entwicklungen oft ständiges Experimentieren und Iterieren erfordern. Das neue System speichert automatisch den Codezustand vor jeder Änderung. Benutzer können durch Doppelklicken auf die Esc - Taste oder die Verwendung des Befehls /rewind sofort zu einer früheren Version zurückkehren. Die Checkpoint - Funktion ermöglicht es Entwicklern, sich an großen oder komplexen Aufgaben zu wagen, während gleichzeitig sichergestellt ist, dass sie jederzeit zum vorherigen Codezustand zurückkehren können. Beim Rückgängigmachen können Benutzer auswählen, ob sie den Code, das Gespräch oder beides wiederherstellen möchten. Die Checkpoint - Funktion gilt nur für von Claude vorgenommene Änderungen und hat keine Auswirkungen auf manuelle Benutzeredits oder Bash - Befehle. Die Offizielle Empfehlung ist, sie in Kombination mit der Versionskontrolle zu verwenden, um die besten Ergebnisse zu erzielen.

In der offiziellen Ankündigung hat Anthropic empfohlen, dass die Checkpoint - Funktion am besten in Kombination mit den neuesten Funktionen von Claude Code verwendet werden kann, wie beispielsweise:

Sub - Agenten können spezielle Aufgaben delegieren, z. B. kann ein Hintergrund - API gestartet werden, während der Haupt - Agent die Front - End - Entwicklung vornimmt, um parallele Entwicklung zu ermöglichen;

Hooks können bestimmte Aktionen automatisch auslösen, z. B. kann ein Testsuite nach Codeänderungen ausgeführt werden oder eine Lint - Prüfung vor dem Commit durchgeführt werden;

Hintergrundaufgaben können langlaufende Prozesse (z. B. einen Entwicklungsserver) aktiv halten, ohne dass Claude Code bei der Bearbeitung anderer Aufgaben blockiert wird.

Diese Fähigkeiten ermöglichen es Claude Code, für Aufgaben wie große Umstrukturierungen oder Funktionserkundungen verwendet zu werden.

Andere Funktionen

Darüber hinaus hat Anthropic auch mehrere Upgrades an seinem Produkt vorgenommen:

Die Claude API hat neue Kontextbearbeitungs - und Gedächtnistools hinzugefügt, damit der Agent länger laufen und komplexere Aufgaben bearbeiten kann;

In der Claude - App kann man jetzt direkt im Gespräch Code ausführen und Dateien (einschließlich Tabellen, Präsentationen und Dokumenten) generieren;

Die Chrome - Erweiterung ist jetzt für die Max - Benutzer, die im vergangenen Monat in der Warteschlange standen, freigegeben.

Anthropic hat auch eine zeitlich begrenzte Experimentierfunktion namens "Imagine with Claude" eingeführt. In diesem Experiment kann Claude Software in Echtzeit generieren: Es gibt keine vordefinierten Funktionen und keinen vorgefertigten Code. Es wird entsprechend den aktuellen Interaktionsanforderungen der Benutzer schaffen und anpassen. Derzeit ist "Imagine with Claude" für Max - Benutzer fünf Tage lang verfügbar und kann unter claude.ai/imagine getestet werden.

Claude Sonnet 4.5 kann ab heute verwendet werden. Wenn Sie ein Entwickler sind, können Sie über die Claude API claude - sonnet - 4.5 aufrufen. Die API - Preise für Sonnet 4.5 bleiben unverändert wie bei 4.0: 3 US - Dollar pro Million eingegebener Token und 15 US - Dollar pro Million ausgegebener Token.

Tests von Entwicklern

Mit der Veröffentlichung von Claude Sonnet 4.5 und dem neuen Claude Code haben viele Entwickler sofort getestet und ihre Überraschungen und Fragen geteilt.

Ein Entwickler namens This is Dmitry Zhomir hat versucht, Claude 4.5 Sonnet zu bitten, ein einfaches 3D - Shooter - Spiel mit Three.js zu erstellen. Das Ergebnis war erstaunlich:

„Ich musste nicht einmal Texturen und Soundeffekte zur Verfügung stellen. Es hat alles von sich aus generiert. Will Anthropic die Spieleentwickler ersetzen??“

Andere haben einen einfachen SVG - Test durchgeführt. Dies ist das von Claude Sonnet 4.5 generierte Werk:

Dies ist das von GPT - 5 generierte:

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Claude Sonnet 4.5 wird in der späten Nacht veröffentlicht und sorgt für Furore. Es kann 30 Stunden lang autonom programmieren. Netizens haben es getestet: Bei einem einzigen Aufruf wurde die Codebasis neu strukturiert, aber die zusätzlichen 3000 Codezeilen führten zu einem Laufzeitfehler.

Das stärkste Codierungsmodell, Claude Sonnet 4.5, ist da: Kann 30 Stunden lang autonom laufen

Effektive Verbesserung der Probleme wie "Halluzination", "Schmeichelei" und "Betrug"

Wichtige Aktualisierung von Claude Code

Andere Funktionen

Tests von Entwicklern