StartseiteArtikel

Anthropic hat das stärkste Codierungsmodell Claude Sonnet 4.5 veröffentlicht, das 30 Stunden lang autonom coden kann.

36氪的朋友们2025-09-30 17:14
Claude Sonnet 4.5 ist veröffentlicht und unterstützt 30 Stunden autonomes Coding. Die Preise bleiben unverändert.

Wichtige Punkte:

  • Anthropic hat Claude Sonnet 4.5 veröffentlicht und behauptet, es sei das weltweit fortschrittlichste und sicherste Modell für die Codierung und den Aufbau komplexer Software-Agenten.
  • Claude Sonnet 4.5 kann autonom 30 Stunden lang coden, weit über die etwa 7 Stunden Fähigkeit seines Vorgängers Claude 4 Opus hinaus.
  • Das Codierungstool Claude Code hat die Checkpoints-Funktion hinzugefügt, die den Zustand vor jeder Codeänderung automatisch speichert und es Entwicklern ermöglicht, sofort auf eine frühere Version zurückzugreifen.

Am 29. September Ortszeit hat das Künstliche-Intelligenz-Startup Anthropic das neue AI-Modell Claude Sonnet 4.5 offiziell vorgestellt und behauptet, es sei das weltweit fortschrittlichste und sicherste Modell für die Codierung und den Aufbau komplexer Software-Agenten.

Dieses Modell hat Verbesserungen bei der Bearbeitung langfristiger Aufgaben vorgenommen und kann 30 Stunden lang unabhängig arbeiten, um den gesamten Prozess von der Entwicklung bis zur Sicherheitsüberprüfung abzuschließen. Es hat in autoritativen Tests wie SWE-bench Verified das beste Niveau erreicht. Gleichzeitig hat Anthropic die Entwickler-Ökosystem erweitert, Tools wie das Claude Agent SDK vorgestellt und für Max-Abonnenten die temporäre Vorschaufunktion "Mit Claude vorstellen" freigegeben, die die Echtzeitgenerierung von Software-Demos unterstützt.

Die Preise für Claude Sonnet 4.5 bleiben auf dem Niveau des Vorgängers, nämlich 3 US-Dollar pro Million eingegebener Tokens und 15 US-Dollar pro Million ausgegebener Tokens. Entwickler können kostenlos auf die neue Version upgraden.

Der Wettbewerb im Bereich der AI-Codierung hat derzeit einen heißen Punkt erreicht. Anthropic steht in einer wettbewerbsreichen Situation mit mehreren starken Anbietern: OpenAI hat bereits GPT-5-Codex, das sich auf die Codierung von Agenten konzentriert, vorgestellt, und Google Gemini hat sich mit seiner hervorragenden Problemlösungsfähigkeit einen festen Platz erobert. Anthropic hat im August dieses Jahres Claude Opus 4.1 und im Mai Claude Sonnet 4 vorgestellt. Dieser schnelle Iterationsrhythmus zeigt nicht nur die heftige Konkurrenz im aktuellen AI-Bereich, sondern auch, dass keine Firma langfristig eine absolute Führungsstellung einnehmen kann. Technologische Iteration und Innovation werden der Kernmotor für die nachhaltige Entwicklung der Branche sein.

01. 30-stündige autonome Entwicklung ist ein neues Highlight

Die Leistung von Claude Sonnet 4.5 in verschiedenen Tests

Anthropic hat angegeben, dass Claude Sonnet 4.5 in mehreren Indikatoren seine Hauptkonkurrenten wie OpenAIs GPT-5 und Googles Gemini übertrifft. Claude Sonnet 4.5 hat sich im SWE-bench Verified-Benchmark-Test besonders hervorgetan und einen Score von 82,0 % erreicht. Dieser Test dient zur Bewertung der Fähigkeit von KI, reale Softwareentwicklungsprobleme in GitHub-Repositories zu lösen. Im Vergleich dazu erreichte Claude Opus 4.1 in diesem Test einen Score von 79,4 %, Claude Sonnet 4 einen Score von 80,2 %, GPT-5 einen Score von 72,8 % und Gemini 2.5 Pro einen Score von 67,2 %.

Darüber hinaus hat das Modell im OSWorld-Test einen neuen Rekord aufgestellt und einen Score von 61,4 % erreicht. Im Vergleich dazu erreichte Sonnet 4, das vor vier Monaten veröffentlicht wurde, einen Score von 42,2 %.

Die Leistungssteigerung bei dieser Aktualisierung zeigt sich nicht nur in den Scores, sondern auch in der autonomen Arbeitsfähigkeit des Modells. David Hershey, ein Forscher bei Anthropic, hat in einem Interview mit TechCrunch angegeben, dass Claude Sonnet 4.5 in frühen Tests mit einigen Unternehmenskunden 30 Stunden lang autonom coden konnte und eine Chat-Anwendung ähnlich wie Slack oder Teams geschrieben hat, wobei etwa 11.000 Codezeilen generiert wurden, bis die Aufgabe abgeschlossen war. Dies übertrifft bei weitem die etwa 7-stündige Fähigkeit seines Vorgängers Claude 4 Opus.

Hershey hat beobachtet, dass das Modell nicht nur Anwendungen autonom erstellen kann, sondern auch Datenbankdienste aufbauen, Domains kaufen und sogar SOC 2-Sicherheitsüberprüfungen durchführen kann. Dies zeigt, dass seine Fähigkeiten von isolierten Codierungsaufgaben auf die Durchführung von Projekten im gesamten Lebenszyklus erweitert wurden und eine bisher nie dagewesene praktische Langzeitfähigkeit von Agenten aufzeigt.

Anthropic hat angegeben, dass das Modell höherwertigen Code generieren kann, besser in der Lage ist, Verbesserungsmöglichkeiten im Code zu erkennen und zuverlässiger Anweisungen folgen kann. Jared Kaplan, Mitbegründer und Chefwissenschaftler der Firma, hat in einem Interview mit CNBC gesagt: "Claude Sonnet 4.5 ist intelligenter und eher wie ein Kollege. Es macht Spaß, mit ihm zusammenzuarbeiten, wenn man Probleme hat und sie lösen muss."

Darüber hinaus hat Claude Sonnet 4.5 auch in den Fachkenntnissen und der logischen Denkfähigkeit in Bereichen wie Finanzen, Recht, Medizin und STEM (Wissenschaft, Technologie, Ingenieurwesen und Mathematik) zugenommen und positive Rückmeldungen von frühen Experten erhalten. Seine ausgezeichnete Leistung in der Bewertung der mathematischen und logischen Fähigkeiten bestätigt weiter die Verbesserung seiner Intelligenzbreite.

02. Mehrere Tools lösen Entwicklungsprobleme, Agent SDK unterstützt die Erstellung von maßgeschneiderten Agenten

Das Chatfenster von Claude Sonnet 4.5

Bei der Veröffentlichung von Claude Sonnet 4.5 hat Anthropic seine Entwickler-Ökosystem erheblich erweitert und eine Reihe von Tools vorgestellt, um die Kernbedürfnisse der Entwicklung zu befriedigen.

Das Codierungstool Claude Code hat die Checkpoints-Funktion hinzugefügt, die den Zustand vor jeder Codeänderung automatisch speichert und es Entwicklern ermöglicht, sofort auf eine frühere Version zurückzugreifen. Es wurde auch eine native VS Code-Erweiterung in der Testphase vorgestellt, die die Fähigkeiten nahtlos in die IDE integriert und ein anschauliches grafisches Erlebnis bietet. Um die Kontextbeschränkung für Langzeit-Agenten zu lösen, hat Anthropic fortschrittliche Verwaltungstools eingeführt: "Kontextbearbeitung" kann veraltete Inhalte löschen, und das "Gedächtnistool" kann wichtige Informationen über Sitzungen hinweg speichern. Die Kombination beider verbessert die Leistung von Agenten bei komplexen Aufgaben um 39 % und reduziert den Token-Verbrauch um 84 %.

Das Claude Agent SDK für fortgeschrittene Benutzer hat den Zugang zur Kerninfrastruktur von Claude Code freigegeben und es Entwicklern ermöglicht, maßgeschneiderte Agenten in Bereichen wie Finanzkompatibilität und Netzwerksicherheit zu erstellen, um die Vision von "Menschliche Verwaltung von Mehrfachagenten" zu verwirklichen. Gleichzeitig hat Anthropic den Zugang zu virtuellen Maschinen freigegeben und Funktionen wie Speicherverwaltung und Mehrfachagenten-Unterstützung bereitgestellt, was gleichbedeutend damit ist, dass die Kerntechnikmodule zusammengefasst werden, damit Entwickler ihre eigenen fortschrittlichen Agenten erstellen können.

03. Die Angriffsresistenz von Claude Sonnet 4.5 ist verbessert, die Wahrscheinlichkeit von unerwünschten Verhaltensweisen ist gesenkt

Anthropic hat betont, dass Claude Sonnet 4.5 sein "bisher am besten ausgerichtetes fortschrittliches Modell" ist. Die Firma hat in einer Pressemitteilung ausführlich über umfassende Sicherheitstrainingen berichtet, die die Wahrscheinlichkeit von unerwünschten Verhaltensweisen wie Schmeichelei, Täuschung und Machtstreben erheblich gesenkt haben. Claude Sonnet 4.5 wurde unter dem strengen ASL-3 (Künstliche-Intelligenz-Sicherheitsstufe 3)-Rahmen veröffentlicht und verfügt über Filter, um potenziell gefährliche Ausgaben zu erkennen und zu verhindern, insbesondere in Bezug auf Inhalte im Zusammenhang mit chemischen, biologischen, radioaktiven und nuklearen (CBRN)-Waffen.

Kaplan hat gesagt: "Ich denke, dies ist der größte Sicherheitssprung, den wir in ein oder zwei Jahren gesehen haben." Dieses feste Versprechen in Bezug auf die Sicherheit ist eine direkte Reaktion auf die allgemeinen Bedenken der Branche und zielt darauf ab, Vertrauen bei Unternehmenskunden aufzubauen. Anthropic hat angegeben, dass Claude Sonnet 4.5 besser in der Lage ist, Prompt-Injection-Angriffe und andere Schwachstellen von Vorgängermodellen abzuwehren.

Dieser Artikel stammt von "Tencent Technology", Autor: Wuji, veröffentlicht von 36Kr mit Genehmigung.