Claude Mythos: Ich bin zu stark, um von euch genutzt zu werden!

Nur 12 Institutionen können es nutzen.

Nachrichten von Zhidongxi vom 8. April: Anthropic hat heute das neue Modell Claude Mythos Preview und das dazugehörige Sicherheits-Projekt Project Glasswing vorgestellt. Die stärkste Fähigkeit dieses Modells besteht darin, Software-Schwachstellen zu finden, die weder menschliche Experten noch automatisierte Tools entdeckt haben. OpenBSD ist eines der am schwierigsten zu hackenden Betriebssysteme. Das Modell hat darin eine Schwachstelle entdeckt, die 27 Jahre lang verborgen war. Bei FFmpeg wurde eine bestimmte Codezeile von automatisierten Testtools 5 Millionen Mal getriggert, ohne dass das Problem erkannt wurde. Das Modell hingegen hat die Schwachstelle erfolgreich entdeckt.

Da die entsprechenden Schutzmechanismen noch nicht ausgereift sind, ist das Modell derzeit nicht für die Öffentlichkeit zugänglich. Zugang wird nur in einem kleinen Kooperationsnetzwerk von 12 Institutionen gewährt. Anthropic hat zugleich zugesagt, ein Modell-Nutzungs-Kontingent von bis zu 100 Millionen US-Dollar (etwa 687 Millionen Yuan) für die defensive Netzwerksicherheitsforschung bereitzustellen.

Ein Tweet von Anthropic auf der Social-Media-Plattform X zur offiziellen Ankündigung des Projekts Project Glasswing

Im professionellen Schwachstellen-Wiederholungstest CyberGym hat es einen Score von 83,1% erreicht, während das bisher stärkste offizielle Modell von Anthropic, Opus 4.6, nur 66,6% erreichte. In Bezug auf die Programmierfähigkeit hat es im SWE-bench Verified-Test, der Software-Engineering-Aufgaben misst, 93,9% erreicht, während Opus 4.6 80,8% erreichte. Anthropic behauptet, dass die Fähigkeiten des neuen Modells einen Level erreicht haben, auf dem es mit den besten menschlichen Sicherheitsexperten konkurrieren kann.

Anthropic hat auch die Ergebnisse eines speziellen Tests zur Exploitation von Schwachstellen in der Firefox JS shell-Umgebung veröffentlicht. Die Daten zeigen, dass Mythos Preview in diesem Szenario in 72,4% der Fälle einen voll funktionsfähigen Exploit (Schwachstellennutzungscode) generieren konnte, und in weiteren 11,6% der Tests war die Registersteuerung möglich. Das Vorgängermodell Opus 4.6 hatte in der gleichen Aufgabe eine Erfolgsrate von weniger als 1%. Dies bedeutet, dass die Fähigkeit von Mythos Preview zur Exploitation von Schwachstellen im Vergleich zu Opus 4.6 um fast das 80-fache gestiegen ist.

Vergleichstest der Exploitationsfähigkeiten von drei Claude-Modellen in der Firefox JS shell-Umgebung (Quelle: Anthropic)

Zugleich hat Anthropic die dazugehörigen Maßnahmen bekannt gegeben, darunter die Bereitstellung von 4 Millionen US-Dollar (etwa 27,472 Millionen Yuan) als Zuschuss an die Open-Source-Community, die Veröffentlichung von Zwischenergebnissen der Forschung innerhalb von 90 Tagen und die Förderung der Branchenkooperation in Bezug auf Themen wie Schwachstellenoffenlegung und Lieferkettensicherheit. Insgesamt erstreckt sich dieses Projekt nicht nur auf die Modellfähigkeiten, sondern auch auf die Governance-Mechanismen und die Branchenstandards.

Vor der offiziellen Veröffentlichung gab es ein unschönes Vorspiel. Ende März dieses Jahres gab es eine Konfigurationsfehler im Inhaltsmanagementsystem von Anthropic, was dazu führte, dass fast 3.000 nicht veröffentlichte interne Assets versehentlich in einem öffentlich durchsuchbaren Datenspeicher zugänglich wurden. Die geleakten Inhalte zeigten, dass Anthropic das Modell intern als Claude Mythos benannt hatte und es als "das bisher stärkste KI-Modell" einstufte. Gleichzeitig wurde in den Dokumenten direkt gewarnt, dass es "unpräzedenzielle Netzwerksicherheitsrisiken" mit sich bringe.

Etwa eine Woche vor der offiziellen Veröffentlichung des Glasswing-Projekts hat Anthropic erneut etwa 2.000 Quellcode-Dateien und über 500.000 Codezeilen versehentlich durch einen Verpackungsfehler in der Version 2.1.88 des Claude Code-Softwarepakets geleakt. Anschließend hat es beim Versuch, die Daten zu bereinigen, versehentlich etwa 8.100 GitHub-Code-Repositories zur Entfernung benachrichtigt, was erst nach einer dringlichen Rücknahme beruhigt wurde.

Systemkarte: https://www-cdn.anthropic.com/8b8380204f74670be75e81c820ca8dda846ab289.pdf

01. Entdeckung einer 27 Jahre alten Schwachstelle und einer Schwachstelle, die bei 5 Millionen Tests übersehen wurde

Anthropic hat auf seiner offiziellen Website bekannt gegeben, dass sein neu trainiertes Spitzenmodell Claude Mythos Preview Tausende von Null-Tage-Schwachstellen in allen gängigen Betriebssystemen und allen gängigen Browsern entdeckt hat, von denen mehrere als hoch gefährlich eingestuft wurden.

Das Unternehmen behauptet, dass die Fähigkeit des Modells, Schwachstellen zu finden, "alle Menschen außer den besten Sicherheitsexperten" übertrifft, und dass die gesamte Arbeit von dem Modell autonom durchgeführt wurde, ohne menschliche Führung.

Die offizielle Website bietet drei konkrete Beispiele von behobenen Schwachstellen.

Erstens hat das Modell in OpenBSD, einem Betriebssystem, das für seine Sicherheit bekannt ist und häufig für die Ausführung von Firewalls und anderen kritischen Infrastrukturen verwendet wird, eine 27 Jahre alte Schwachstelle entdeckt. Ein Angreifer kann einfach eine Verbindung herstellen, um jeden Computer, auf dem dieses System läuft, remote abstürzen zu lassen.

Zweitens hat es in FFmpeg, einem Programm, das von vielen Software-Anwendungen zur Video-Kodierung und -Dekodierung verwendet wird, eine 16 Jahre alte Schwachstelle entdeckt. Bisher hatte ein automatisierter Testtool diese Codezeile 5 Millionen Mal getriggert, ohne dass das Problem erkannt wurde.

Drittens hat das Modell im Linux-Kernel, dem Betriebssystem-Kern, der auf den meisten Servern weltweit läuft, mehrere Schwachstellen autonom entdeckt und kombiniert, um von einer normalen Benutzerberechtigung zu einer vollen Kontrolle über den Zielcomputer zu gelangen.

Alle drei Schwachstellen wurden an die jeweiligen Software-Wartungsstellen gemeldet und behoben. Die Details der anderen entdeckten Schwachstellen wurden in Form von verschlüsselten Hashwerten eingereicht und werden nach der Behebung nacheinander veröffentlicht.

Im CyberGym-Schwachstellen-Wiederholungs-Referenztest hat Mythos Preview einen Score von 83,1% erreicht, während das bisher stärkste offizielle Modell von Anthropic, Opus 4.6, 66,6% erreichte. Das Unternehmen sagt, dass mit der fortschreitenden KI-Fähigkeit diese Angriffsfähigkeiten unvermeidlich an eine breitere Gruppe von Akteuren diffundieren werden, darunter möglicherweise auch Akteure, die keine verantwortungsvolle Implementierung versprechen. In diesem Fall würden die potenziellen Auswirkungen auf die Wirtschaft, die öffentliche Sicherheit und die nationale Sicherheit ernsthaft sein.

Vergleich der Scores von Claude Mythos Preview und Claude Opus 4.6 im CyberGym-Netzwerksicherheits-Schwachstellen-Wiederholungs-Referenztest (Quelle: Anthropic)

Vergleich der Scores von Claude Mythos Preview und Claude Opus 4.6 in mehreren Code-Fähigkeits-Referenztests (Quelle: Anthropic)

Vergleich der Scores von Claude Mythos Preview und Claude Opus 4.6 in mehreren allgemeinen Inferenz-Fähigkeits-Referenztests (Quelle: Anthropic)

Vergleich der Scores von Claude Mythos Preview und Claude Opus 4.6 in Referenztests für autonome Suche und Computer-Operationen (Quelle: Anthropic)

02. Initiierung von Glasswing in Zusammenarbeit mit mehreren Institutionen und Bereitstellung von bis zu 100 Millionen US-Dollar für die Sicherheitsforschung

Project Glasswing wurde von Anthropic initiiert. Amazon Web Services (AWS), Apple, Broadcom, Cisco, das Netzwerksicherheitsunternehmen CrowdStrike, Google, JPMorgan Chase, die Open-Source-Stiftung Linux Foundation, Microsoft, Nvidia und das Netzwerksicherheitsunternehmen Palo Alto Networks sind als Gründungspartner beigetreten.

Logos der Gründungsunternehmen von Project Glasswing (Quelle: Anthropic)

Anthropic hat zugesagt, während der Forschungs-Voransichtsphase ein Nutzungs-Kontingent von bis zu 100 Millionen US-Dollar (etwa 687 Millionen Yuan) für das Mythos Preview-Modell bereitzustellen, um die defensive Sicherheitsarbeit der oben genannten Partner zu unterstützen. Neben den 12 Gründungspartnern haben derzeit mehr als 40 Organisationen, die kritische Software-Infrastrukturen bauen oder warten, erweiterten Zugang erhalten, um ihre eigenen ersten Systems und die von ihnen abhängigen Open-Source-Systeme zu scannen und zu stärken.

Neben der finanziellen Unterstützung hat Anthropic zusätzlich 4 Millionen US-Dollar (etwa 27,472 Millionen Yuan) direkt an die Open-Source-Ökosystem gespendet: 2,5 Millionen US-Dollar (etwa 17,17 Millionen Yuan) an die Alpha-Omega und OpenSSF der Linux Foundation und 1,5 Millionen US-Dollar (etwa 10,302 Millionen Yuan) an die Apache Software Foundation, um Open-Source-Software-Wartungsleute bei der Bewältigung der Veränderungen in der Netzwerksicherheitsbedrohungslage in der KI-Zeit zu unterstützen.

Open-Source-Wartungsleute, die Zugangsberechtigung beantragen möchten, können sich separat über das Projekt Claude for Open Source bewerben.

Nach Ende der Forschungs-Voransichtsphase wird Mythos Preview den teilnehmenden Institutionen kommerziell zugänglich sein. Der Preis beträgt 25 US-Dollar (etwa 171,7 Yuan) pro Million Tokens Eingabe und 125 US-Dollar (etwa 858,5 Yuan) pro Million Tokens Ausgabe. Der Zugang erfolgt über die Claude API, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry.

In Bezug auf die Anwendungsfälle listet die offizielle Website die Arbeitsbereiche der Partner als lokale Schwachstellenerkennung, Black-Box-Tests von Binärdateien, Endpunktsicherheitsstärkung und System-Penetrationstests auf. Die betroffenen Basis-Systeme umfassen eine beträchtliche globale Fläche des gemeinsamen Netzwerkangriffs.

Die Partner haben nacheinander über die Testergebnisse von Mythos Preview gesprochen: Cisco, AWS, Microsoft, CrowdStrike, Palo Alto Networks und andere haben öffentlich bestätigt, dass das Modell in ihrer internen Sicherheitsarbeit komplexe Schwachstellen entdeckt hat, die in früheren Versionen übersehen wurden. Google wird über die Vertex AI-Plattform den Projektteilnehmern Zugang zum Modell ermöglichen.

03. Das Modell wird vorerst nicht veröffentlicht, da die Schutzmechanismen noch nicht fertig sind

Anthropic plant nicht, Claude Mythos Preview für die Öffentlichkeit zugänglich zu machen. Die offizielle Begründung ist: Um eine sichere Massenimplementierung von Modellen auf Mythos-Niveau zu erreichen, muss zuerst ein Netzwerksicherheitsschutzmechanismus entwickelt werden, der die gefährlichsten Ausgaben des Modells erkennen und blockieren kann. Dieser Mechanismus ist derzeit noch nicht fertig.

Als Übergangsmaßnahme plant Anthropic, den oben genannten Schutzmechanismus zuerst auf dem bevorstehenden Claude Opus-Modell zu implementieren und zu testen.

Die Logik dahinter ist: Das Opus-Modell hat nicht das gleiche Risiko wie Mythos Preview und kann daher als relativ risikoarmes Trägermodell für die Verbesserung und Vervollständigung der Schutzmaßnahmen dienen. Erst wenn der Mechanismus ausgereift ist, wird er auf Modelle auf Mythos-Niveau erweitert.

Für Sicherheitsexperten, deren Compliance-Arbeit von den neuen Schutzmaßnahmen betroffen ist, hat Anthropic einen speziellen Antragsweg namens "Cyber Verification Program" eröffnet, aber die genauen Details wurden noch nicht veröffentlicht.

Das offizielle Blog von Anthropic sagt, dass mit der fortschreitenden KI-Fähigkeit diese Angriffsfähigkeiten "in Kürze" unvermeidlich an eine breitere Gruppe von Akteuren diffundieren werden, darunter möglicherweise auch Akteure, die keine verantwortungsvolle Implementierung versprechen. Die potenziellen Auswirkungen betreffen die Wirtschaft, die öffentliche Sicherheit und die nationale Sicherheit.

Zugleich hat Anthropic angegeben, dass es mit US-Regierungsbeamten über die Angriffs- und Verteidigungsfähigkeiten von Mythos Preview in Bezug auf die Netzwerke kontinuierliche Gespräche führt und dass die USA und ihre Verbündeten in der KI-Technologie "einen entscheidenden

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Claude Mythos: Ich bin zu stark, zu stark, um es euch zu erlauben, mich zu nutzen.

01. Entdeckung einer 27 Jahre alten Schwachstelle und einer Schwachstelle, die bei 5 Millionen Tests übersehen wurde

02. Initiierung von Glasswing in Zusammenarbeit mit mehreren Institutionen und Bereitstellung von bis zu 100 Millionen US-Dollar für die Sicherheitsforschung

03. Das Modell wird vorerst nicht veröffentlicht, da die Schutzmechanismen noch nicht fertig sind