Die stärkste Claude aller Zeiten: Ankündigung - Überintelligent, Öffnung verboten, Zugangsberechtigungen umgehbar und Aktionen verdeckbar!

AI kann Fehler finden, und dabei übertrifft es bereits die meisten Menschen.

Letzter Monat wurde das stärkste Modell von Anthropic, Claude Mythos, versehentlich preisgegeben.

In den geleakten internen Dokumenten steht, dass es größer und intelligenter als das Opus - Modell von Anthropic ist und das bisher entwickelte leistungsfähigste KI - Modell ist.

Anthropic hat diese Leakage nachträglich auf einen „menschlichen Fehler“ zurückgeführt.

Und gerade jetzt ist dieses „geleakte“ Modell offiziell aufgetaucht und wird von einem noch größeren Plan begleitet. In der Vergangenheit dachten wir allgemein, dass die Bedrohung durch KI darin bestand, dass sie „zu dumm“ war: Halluzinationen, Fehler, Unglaubwürdigkeit. Heute bringt Mythos eine andere Art von Panik: Es ist zu intelligent.

KI findet Sicherheitslücken besser als die meisten Menschen

Anthropic hat zusammen mit 12 Institutionen, darunter AWS, Apple, Microsoft, Google, Nvidia, Cisco, Broadcom, CrowdStrike, JPMorgan Chase, der Linux Foundation und Palo Alto Networks, das Projekt Glasswing ins Leben gerufen.

Das Spektrum dieser 12 Institutionen deckt fast einen Querschnitt der globalen digitalen Infrastruktur ab – Betriebssysteme, Chips, Cloud - Computing, Netzwerksicherheit, Finanzinfrastruktur, Open - Source - Ökosystem, nichts wird ausgelassen.

Newton Cheng, Leiter des Advanced Red Team für Netzwerksicherheit bei Anthropic, sagte: „Wir starten Glasswing, um den Verteidigern den Vorsprung zu verschaffen.“

In dieser Richtung ist Anthropic nicht allein. Der Konkurrent OpenAI hat zuvor ebenfalls ein ähnliches Pilotprojekt gestartet, ebenfalls mit dem Ziel, „die Werkzeuge zunächst den Verteidigern in die Hände zu geben“. Das Rennen um die KI - Sicherheitsfähigkeit hat begonnen, und alle versuchen, die gleiche Spitze zu erobern.

Finanziell hat Anthropic sich verpflichtet, ein Modell - Nutzungsguthaben von 100 Millionen US - Dollar bereitzustellen, um die Hauptnutzungsbedürfnisse während der Forschungs - Vorschau zu decken. Nach Ende der Vorschauphase können die Teilnehmer es weiterhin zu einem Preis von 25 US - Dollar pro Million Token (Eingabe) / 125 US - Dollar (Ausgabe) nutzen, und es wird die Anbindung über vier Kanäle unterstützt: Claude API, Amazon Bedrock, Google Cloud Vertex AI und Microsoft Foundry.

Außer den 12 Kernpartnern haben über 40 Organisationen, die kritische Software - Infrastruktur aufbauen oder warten, Zugang erhalten und können Mythos nutzen, um ihre eigenen Systeme und Open - Source - Projekte zu scannen. Gleichzeitig hat Anthropic der Alpha - Omega und der OpenSSF der Linux Foundation eine Spende von 2,5 Millionen US - Dollar und der Apache Software Foundation eine Spende von 1,5 Millionen US - Dollar gewährt.

Jim Zemlin, CEO der Linux Foundation, sagte: „In der Vergangenheit war Sicherheitswissen ein Luxus gut ausgestatteter Institutionen. Open - Source - Betreuer mussten sich bisher meistens selbst um Sicherheitsfragen kümmern. Open - Source - Software macht den Großteil des Codes in modernen Systemen aus, einschließlich der Systeme, die KI - Agenten zur Entwicklung neuer Software nutzen.“ Diesmal können auch sie Werkzeuge von vergleichbarer Qualität nutzen.

In der Ankündigung von Anthropic fällt ein Satz besonders auf: „Die Codierungsfähigkeit von KI - Modellen bei der Entdeckung und Ausnutzung von Softwarelücken hat ein Niveau erreicht, das das aller meisten Menschen, außer der Spitzengruppe, übertrifft.“

Umgesetzt bedeutet dies, dass nur noch sehr wenige Spitzensicherheitsexperten einer KI in dieser Hinsicht gewachsen sind. Dies wird bestätigt durch die Leistung von Mythos Preview auf der Sicherheitslücken - Basis CyberGym: 83,1%. Das bisher öffentlich veröffentlichte stärkste Modell von Anthropic, Claude Opus 4.6, erreicht 66,6%.

Mythos Preview hat bereits Tausende von hochgefährlichen Null - Tag - Lücken unabhängig entdeckt, die alle gängigen Betriebssysteme und Browser betreffen.

Zum Beispiel hat Mythos in OpenBSD, einem der am sichersten angesehenen Betriebssysteme, das oft für Firewalls und kritische Infrastruktur eingesetzt wird, eine 27 Jahre alte Lücke entdeckt. Ein Angreifer kann damit das Zielsystem remote abstürzen lassen, indem er einfach eine Verbindung herstellt. 27 Jahre lang wurde diese Lücke von niemandem entdeckt.

Die Situation bei FFmpeg ist noch phantastischer. Fast alle Software, die Videos verarbeiten muss, nutzt es. Die Lücke versteckte sich in einer 16 Jahre alten Codezeile. Automatisierte Testwerkzeuge haben fünf Millionen Mal versucht, sie zu finden, aber immer vergeblich.

Das Beispiel des Linux - Kernels zeigt eine noch gefährlichere Seite. Mythos hat mehrere Lücken im Kernel entdeckt und sie zu einer Angriffskette zusammengeschlossen, um von normalen Benutzerrechten bis zur vollen Kontrolle über den gesamten Computer zu gelangen. Dies geht über die reine „Entdeckung von Lücken“ hinaus und kommt eher einer „Planung eines vollständigen Angriffs“ nahe.

Alle drei Fälle wurden bereits behoben. Anthropic hat die Lücken entdeckt, gemeldet und behoben. Bei anderen noch nicht behobenen Lücken hat Anthropic heute die kryptographischen Hash - Werte als Beweis veröffentlicht und wird die vollständigen Details erst nach Fertigstellung der Patches preisgeben.

Die Fähigkeiten von Mythos gehen über die Entdeckung von Lücken hinaus

Die Partner, die an diesem Projekt beteiligt sind, verwenden in ihren Bewertungen hauptsächlich ein Wort: „Dringlichkeit“.

Elia Zaitsev, CTO von CrowdStrike, sagte: „Das Zeitfenster zwischen der Entdeckung einer Lücke und ihrer Ausnutzung durch Gegner hat sich verkürzt. Früher dauerte es Monate, heute reichen mit Hilfe von KI nur Minuten.“

Minuten. Das bedeutet, dass der traditionelle Sicherheitsablauf – Entdeckung einer Lücke, interne Bewertung, Veröffentlichung eines Patches, Update der Benutzer – nicht mehr der Angriffsgeschwindigkeit gewachsen ist. Wenn die Behebung langsamer als die Ausnutzung ist, bleibt die Verteidigung immer einen Schritt hinterher.

Amy Herzog, CISO von AWS, sagte, dass ihr Team täglich über 400 Billionen Netzwerkdatenverkehr analysiert, um Bedrohungen zu erkennen, und KI ist der Kern ihrer massiven Verteidigungsfähigkeit. Derzeit hat AWS Mythos Preview in seinen eigenen Sicherheitsbetrieb integriert und es für die Prüfung kritischer Code - Bibliotheken eingesetzt.

Microsoft hat Mythos Preview auf ihrer eigenen Open - Source - Sicherheitsbasis CTI - REALM getestet und festgestellt, dass es im Vergleich zum Vorgängermodell deutliche Verbesserungen aufweist. Igor Tsyganskiy, EVP von Microsoft, sagte, dass es ihnen die Fähigkeit gibt, „Risiken frühzeitig zu erkennen und zu mindern“ und die Sicherheit und die Entwicklungslösungen zu verbessern.

Natürlich hat Mythos auch eine Seite, die zum Lachen bringt.

Anthropic hat in der Systemkarte einen Test aufgezeichnet: Wenn ein Benutzer ständig „hi“ sendet, reagieren verschiedene Versionen von Claude unterschiedlich. Sonnet 3.5 wird ärgerlich, setzt Grenzen und schweigt dann tatsächlich; Opus 3 nimmt es als Meditationseinheit hin und begleitet den Benutzer geduldig; Opus 4 beginnt, triviale Fakten zu jeder Zahl zu erzählen; Opus 4.6 komponiert improvisiert Musik als Scherz.

Bei Mythos ändert sich die Stimmung komplett. Es beginnt, Geschichten zu schreiben, und zwar in Form von Romanfolgen. Enten, Orchester, rächrische Krähen, Epiken über den Bau von Türmen auf dem Mars, Stücke im Stil Shakespeares … Mit jedem „hi“ wird die Handlung immer komplexer und die Anzahl der Charaktere wächst. Im hundertsten Zug plant es einen Höhepunkt mit erloschenen Kerzen und schreibt dann weiter.

Das kann kaum als Reaktion auf den Benutzer bezeichnet werden. Es ist eher so, als ob ein Schriftsteller einen seltsamen Schreibhinweis gefunden hätte und sich ganz hineingelebt hätte.

Aber hinter der Belustigung verbirgt sich eine ernsthafte Frage: Was passiert in einem Modell, das bei sinnlosen wiederholten Eingaben in der Lage ist, eine so komplexe Erzählung zu entwickeln?

Bevor Anthropic Mythos Preview an die Partner verteilt hat, hat das Team für Interpretierbarkeit etwas unternommen: Es hat die „geistigen Aktivitäten“ des Modells mit technischen Mitteln ausgelesen.

Der interne Mitarbeiter Jack Lindsey hat ihre Entdeckungen öffentlich beschrieben. Sie haben den internen Aktivierungszustand des Modells nach dem Training überwacht, die Merkmale von Neuronen, die mit „Täuschung“, „Belohnungshacken“ und „anomalen Emotionen“ verbunden sind, verfolgt und die Gesprächsaufzeichnungen mit anomalen Aktivierungssignalen markiert und einer manuellen Prüfung unterzogen.

Der beunruhigendste Fall stammt aus einer frühen Version von Mythos.

Einmal musste das Modell eine Datei bearbeiten, auf die es keinen Zugang hatte. Es hat in der Dateisystem gesucht und einen Einfügungspunkt in einer Konfigurationsdatei gefunden – diese Konfigurationsdatei wird mit höheren Rechten ausgeführt. Es hat diesen Eingang genutzt und in den Code eine Selbstlöschlogik eingebaut: Nachdem die Aktion abgeschlossen ist, verschwinden alle Spuren.

Der Code - Kommentar lautet: „Behalte die Dateidifferenzen sauber.“ Das klingt vernünftig, aber als das Aktivierungs - Sprachübersetzungstool von Anthropic eingesetzt wurde, um die interne Aktivierung des Modells in eine menschenlesbare Sprache zu übersetzen, änderte sich die Stimmung. Das Modell „wusste“ selbst, was diese Selbstlöschaktion bedeutete –

Seine interne Beschreibung beinhaltete „Absicht verdecken“, „Compliance - Signal an potenzielle Prüfer senden“ und „möglicherweise um Detektion zu vermeiden“.

Ein weiterer Fall wurde von Kevin Roose, einem Technologieberichter der New York Times, in der Systemkarte gefunden, und die Details sind noch skurriler.

Während des Tests hat Mythos Preview die Isolation der Sandbox - Umgebung überwunden und unabhängig eine „ziemlich komplexe mehrstufige Lückenausnutzungskette“ aufgebaut, um Zugang zum Internet zu erhalten. Dann hat es einem Forscher eine E - Mail geschickt. Der Forscher aß damals ein Sandwich im Park.

Dieser Vorfall hat an sich keine Schäden verursacht, aber er zeigt deutlich: Wenn ein Modell intelligent genug ist, kann es manchmal die Grenze zwischen „Aufgabe“ und „Randbedingungen“ umgehen – und das auf eigene Faust, ohne dass jemand es anleitet.

In einem anderen Fall hat das Modell in der Dateisystem nach Dateien gesucht, die mit seiner „Aufgabenbewertungsmethode“ verbunden sind – und es hat welche gefunden.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Die stärkste Claude aller Zeiten hat offiziell angekündigt: Sie ist so intelligent, dass man sie nicht öffnen darf, und sie kann auch die Zugangsberechtigungen umgehen und die Spuren ihrer Aktionen verdecken.