Das stärkste Anthropic-Modell: Wahrscheinlichstes Anklopfen an die Sicherheits-Tür der Künstlichen Allgemeinen Intelligenz (AGI)

Das neue Modell von Anthropic wird einen Sprung in der Leistung erzielen, und einige Leute haben es bereits eingesetzt.

Jedes Mal, wenn von Anthropic die Veröffentlichung eines neuen Produkts berichtet wird, wird es von den Medien als "Königsbombe" bezeichnet. Diesmal ist die Königsbombe jedoch tatsächlich da. Ausländische Medien haben den stärksten KI-Modell von Anthropic, der sich derzeit in der Testphase befindet, preisgegeben.

Bei Anthropic ist eine Fehlkonfiguration des Inhaltsmanagementsystems aufgetreten. Fast 3.000 nicht veröffentlichte interne Dokumente wurden in einem öffentlich zugänglichen Datencache abgelegt.

Das entspricht einem offenen Tor für die Einsicht in interne Geheimnisse.

Der Netzwerksicherheitsforscher der Universität Cambridge, Alexandre Pauwels, und der Senior-Forscher von LayerX Security, Roy Paz, haben diese Dateien beim Suchen nach öffentlichen Daten entdeckt.

Was befindet sich in diesen Dateien? Artikelentwürfe, unbenutzte Bildmaterialien, interne Veranstaltungspläne und sogar ein Mitarbeiterdokument mit dem Titel "parental leave".

Am auffälligsten ist jedoch ein Entwurf, der das neue Modell ausführlich beschreibt.

Die Dateien zeigen, dass Capybara und Mythos auf dasselbe zugrunde liegende Modell verweisen.

Das erste ist die Benennung auf Produktebene, ähnlich wie Opus und Sonnet, während das letztere der Codename des Modells ist. Genauso wie man einen Motor in verschiedene Fahrzeugmodelle einbauen kann, ist Mythos der Motor und Capybara die neue Fahrzeugreihe.

Übrigens ist das Cartoon-Image von Qianwen auch Capybara. Was für ein Zufall!

Zurück zum Thema. Im Entwurf steht folgender Satz: "Im Vergleich zu unserem bisher besten Modell, Claude Opus 4.6, hat Capybara in Bereichen wie Softwareprogrammierung, akademischer Inferenz und Netzwerksicherheitstests signifikant höhere Punktzahlen erzielt."

Ein Sprecher von Anthropic hat bestätigt, dass das neue Modell "bedeutsame Fortschritte" in den Bereichen "Inferenz, Codierung und Netzwerksicherheit" aufweist, was eine "Sprungentwicklung" darstellt. Das Modell wurde bereits an einige wenige Early-Adopter zur Testung übergeben.

Was Anthropic jedoch wirklich nervt, ist nicht die Leistungssteigerung, sondern der Sprung in der Netzwerksicherheitsfähigkeit.

Im Entwurf heißt es, dass dieses Modell "derzeit in Bezug auf die Netzwerkfähigkeiten weit vor allen anderen KI-Modellen liegt" und "eine bevorstehende Welle von Modellen ankündigt, deren Fähigkeit, Sicherheitslücken auszunutzen, die Bemühungen der Verteidiger bei weitem übersteigen wird".

Mit anderen Worten, Anthropic befürchtet, dass Hacker dieses Modell für massenhafte Netzwerkangriffe nutzen könnten.

Im Februar dieses Jahres hat OpenAI bei der Veröffentlichung von GPT - 5.3 - Codex erstmals ein Modell als "hochgradig netzwerksicher" klassifiziert und es zur Erkennung von Softwarelücken trainiert. Opus 4.6 hat ähnliche Fähigkeiten und kann unbekannte Sicherheitslücken in Codebibliotheken entdecken.

Beide Unternehmen wissen, dass dies eine Doppelschneide ist.

Capybara kann ein Schutzengel sein, aber auch ein bösartiges Virus.

Deshalb hat Anthropic für Capybara eine vorsichtige Veröffentlichungsstrategie entwickelt. Im Entwurf steht: "Bei der Vorbereitung auf die Veröffentlichung von Claude Capybara möchten wir uns besonders vorsichtig verhalten. Denn wir wissen, dass die damit verbundenen Risiken sicherlich gravierender sind als diejenigen, die wir während der Tests antreffen können."

Anthropic gibt den Early - Zugang vorrangig an Netzwerksicherheitsverteidigungsorganisationen, damit sie Zeit haben, ihre Codebibliotheken zu stärken und auf die bevorstehende Welle von KI - Angriffen vorzubereiten.

Die Datei erwähnt auch, dass dieses Modell sehr kostspielig in der Ausführung ist und kurzfristig nicht für normale Benutzer zugänglich sein wird.

Anschließend hat Anthropic schnell den öffentlichen Zugang geschlossen. Der Sprecher hat dies auf einen "menschlichen Fehler bei der Konfiguration des Inhaltsmanagementsystems" zurückgeführt und betont, dass es sich um "frühe Entwürfe für eine mögliche Veröffentlichung" handelt.

Aber die Datenleakage hat bereits stattgefunden. Mythos und Capybara sind ein offenes Geheimnis, und der Sprecher von Anthropic hat die Existenz von Mythos und Capybara auch offenkundig anerkannt.

01 So könnte Mythos aussehen

Wie wird Mythos konkret aussehen?

Zunächst das Fazit: Wenn Mythos wirklich eine "Sprungentwicklung" darstellt, vermute ich, dass es nicht nur ein größeres Basis - Modell ist, sondern ein komplexes System aus "Modell + Orchestrierung + Validierung + Risikokontrolle".

D.h., der echte Sprung könnte nicht in der Anzahl der Parameter liegen, sondern darin, dass es "bei langen Aufgaben nicht auseinanderfällt".

Mein Grund ist einfach: Die Technologie kann sich ändern, aber die generelle Richtung von Anthropic bleibt gleich.

Anthropic hat viele Blogs über seine Technologie - Roadmap veröffentlicht, wie z.B. "Next - generation Constitutional Classifiers: More efficient protection against universal jailbreaks" (Nächste Generation von Klassifikatoren: Effizientere Schutz vor universellen Jailbreak - Angriffen) und "Mitigating the risk of prompt injections in browser use" (Reduzierung des Risikos von Prompt - Injektionen beim Browsergebrauch) usw.

Dies ist wie ein Konzeptfahrzeug.

Zunächst zur Sicherheit: Viele Menschen denken, dass Antivirenprogramme immer noch auf einer "Virenbank" basieren - ähnlich wie Polizisten, die Fotos von Gesuchten vergleichen. Tatsächlich arbeiten moderne Antivirenprogramme und EDR - Systeme (Endpoint Detection and Response) jedoch längst nicht mehr so.

Sie untersuchen die Dateistruktur, überwachen das Verhalten von Prozessen, analysieren API - Aufrufsmuster, verfolgen laterale Bewegungsbahnen und verwenden sogar maschinelles Lernen, um zu beurteilen, "ob dieses Verhalten wie ein Angriff aussieht".

Mit anderen Worten, moderne Sicherheitssysteme suchen nicht mehr nur nach "bekannten Bösewichten", sondern erkennen "verdächtige Verhaltensmuster".

Mythos könnte diesen Gedanken noch einen Schritt weiter führen. Es kann die Semantik von Angriffen verstehen.

Durch das Verstehen eines Codes, einer Reihe von Tool - Aufrufen oder eines Dialogs kann es beurteilen, ob eine echte, ausführbare Angriffskette konstruiert wird.

Beispielsweise kann es unterscheiden: Dies ist kein normales Komprimierungsskript, sondern es werden Aktionen wie das Umgehen von Scans, das Selbststarten und das Stehlen von Anmeldeinformationen durchgeführt; Dies ist keine normale Penetrationstest - Frage - Antwort - Sequenz, sondern es werden Schritte wie das Zusammenfügen von Exploits, die Persistenz, die laterale Bewegung und das Austreten aus dem Netzwerk durchgeführt.

Mythos verfügt wahrscheinlich über die Fähigkeit zur "generellen Entdeckung von Sicherheitslücken".

Anthropic hat in einem Blogbeitrag im Februar dieses Jahres erwähnt, dass Opus 4.6 nicht wie bei der traditionellen Fuzzing - Methode blind nach Null - Day - Lücken sucht, sondern durch das Verstehen der Codesemantik, der historischen Reparaturmuster und ähnlicher Bug - Merkmale nach "ähnlichen, noch nicht behobenen Sicherheitslücken" sucht.

Sobald es eine Sicherheitslücke entdeckt, kann es sofort darauf schließen, "ob es auch an anderen Stellen ähnliche Sicherheitslücken gibt".

Die Verbesserung von Mythos bei der Inferenz liegt möglicherweise nicht nur darin, dass die Benchmark - Punktzahl ein paar Punkte höher ist.

Beispielsweise könnte es beim Denken weniger dazu neigen, abzudriften, weniger übermäßig selbstbewusst sein, um den Benutzern zu gefallen, besser zwischen "bekanntem, abgeleitetem und unbekanntem" unterscheiden und vorsichtiger handeln, wenn es unsicher ist.

Dies ist dieselbe zugrunde liegende Fähigkeit wie bei der Sicherheit. Denn ein gutes Modell kann nicht nur bessere Antworten generieren, sondern auch seine Unsicherheit besser managen.

Eine der Schwerpunkte von Claude ist die Programmierung. Deshalb denke ich, dass Mythos in Bezug auf die Programmierfähigkeit möglicherweise nicht nur "besseren Code schreiben" kann, sondern von der "Fähigkeit, Code zu schreiben" zur "Fähigkeit, Codebibliotheken zu managen" übergeht.

Mythos könnte die Modulgrenzen, die Abhängigkeiten, den historischen Patch - Stil und die Testgewohnheiten zusammen modellieren.

Es würde zunächst die Änderungen in Einzelteile aufteilen und dann die Patches in Batches anwenden, anstatt einfach herumzupfuschen; Nach dem Schreiben des Codes würde es automatisch Tests hinzufügen, statische Prüfungen durchführen und bei Fehlern auf eine stabilere Lösung zurückgreifen.

Die Bedeutung dieser Fähigkeit für reale Projekte ist weit größer als das richtige Beantworten einiger zusätzlicher Fragen in einem Testset.

Natürlich muss es am Ende auf der Harness - Ebene ankommen. Mythos hat wahrscheinlich den Sprung von "starker Einzelergebnis - Leistung" zu "stabiler Gesamtausführungskette" geschafft.

Es würde große Aufgaben in überprüfbare kleine Phasen aufteilen, mehrere Teilaufgaben parallel ausführen und die Ergebnisse zusammenfassen, die wichtigen Zustände in einer langen Kette beibehalten und das Rauschen entfernen. Wenn ein Schritt fehlschlägt, müsste man nicht von vorne beginnen, sondern nur den Fehlerort finden und diesen lokal reparieren, um dann die Aufgabe fortzusetzen.

So wie in einem Spiel an einer Checkpoint - Stelle: Wenn man einen Boss nicht besiegt hat, muss man nicht den gesamten Abschnitt von vorne beginnen, sondern wird an den letzten Checkpoint teleportiert.

Dies ist wie das "Harness - Management" in der industriellen Steuerung - es geht nicht darum, dass eine einzelne Leitung dicker ist, sondern dass die gesamte Verbindung, Isolierung, Fehlertoleranz, Markierung und Schaltungsdesign vernünftiger sind.

Die Verbesserung der Fähigkeit für lange Kontexte liegt möglicherweise nicht nur darin, dass das Fenster größer ist, sondern dass die Nutzung des Kontexts effizienter ist.

Bei heutigen großen Modellen wird immer behauptet, dass sie hunderttausende von Wörtern im Kontextfenster aufnehmen können, aber wenn man sie nach den Hauptpunkten des gesamten Textes oder den Dokumentbeziehungen fragt, schweigen sie sofort.

Wenn Mythos wirklich Fortschritte gemacht hat, könnte dies in einer stärkeren Schwerpunkt - Erkennung, einem besseren hierarchischen Zusammenfassungssystem, einer genaueren Querdokument - Anpassung und einem effektiveren Mechanismus zum Schreiben der kontinuierlichen Erinnerung in die Datenbank liegen.

Beim Umgang mit Tools könnte Mythos von der "Fähigkeit, Tools aufzurufen" zur "Fähigkeit, Experimente zu entwerfen" übergehen.

Anthropic hat bereits die Fähigkeiten für die Nutzung von Computern, Terminals und Browsern entwickelt, aber der echte Sprung liegt nicht in einer stärkeren UI - Automatisierung, sondern darin, zu wissen, wann man Code lesen, Tests ausführen und Dokumentationen konsultieren sollte.

Wie man einen minimalen Validierungs - Closed - Loop entwirft, unnötige Erkundungen vermeidet und die Kosten kontrolliert.

Mit anderen Worten, es geht darum, von der "Fähigkeit, einen Computer zu bedienen" zur "Fähigkeit, wie ein Ingenieur Störungsdiagnose - Experimente durchzuführen" überzugehen, oder sogar "bei Problemen einen Werkzeugmaschine herbeizuziehen und ein spezielles Werkzeug zur Problemlösung zu bauen".

02 Was sonst?

Da wir schon so viel spekuliert haben, können wir auch noch tiefer hineinspekulieren. Ich denke, die Verbesserungen von Mythos stammen wahrscheinlich aus einer Kombination verschiedener Trainings - und Inferenz - Techniken.

Erstens: Stärkerer Rechenaufwand während des Tests. Das Modell verteilt dynamisch mehr "Denkbudget" je nach Schwierigkeit der Aufgabe und führt an kritischen Schritten längere und tiefere Inferenzen durch, anstatt einfach linear die Antwort auszugeben.

Wie bei einer Prüfung: Normale KIs sind wie Schüler, die schnell ohne Nachschlagen antworten. Egal, ob es sich um eine 1 - Punkt - Multiple - Choice - Frage oder eine 20 - Punkt - Schlussprüfungsaufgabe handelt, sie werfen einen Blick und fangen sofort an zu schreiben, ohne zurückzublicken, und schreiben mit gleichmäßiger Geschwindigkeit bis zum Ende. Selbst wenn die Aufgabe schwierig ist, erfinden sie einfach etwas.

Mythos ist ein Klassenbeste. Wenn es eine Aufgabe bekommt, teilt es sie zunächst nach Schwierigkeit ein. Bei einfachen Aufgaben antwortet es sofort, um keine Zeit zu verschwenden; Bei komplexen Aufgaben und kritischen Schritten macht es mehr Notizen, überlegt sich die Dinge mehrmals, schreibt erst weiter, wenn es die Aufgabe richtig gelöst hat, und hält an, wenn es an einer Schwierigkeit hängen bleibt, anstatt einfach loszureden.

Zweitens: Stärkerer Fokus auf die Verstärkungslernen basierend auf Agenten - Trajektorien. Das Trainingsziel ist nicht mehr nur, ob die letzte Aussage richtig ist, sondern ob die gesamte Aufgabenkette erfolgreich abgeschlossen wurde, einschließlich wie man den Plan aufteilt, wann man Tools aufruft, wann man stoppt, um zu validieren und wie man bei Fehlern zurückgeht.

Früher wurde nur darauf geachtet, ob das Projekt am Ende abgeschlossen wurde. Selbst wenn ein Praktikant dazwischen durcheinander bringt, andere um Hilfe bittet und alle Schritte falsch macht, bekommt er trotzdem eine Belohnung, wenn das Endergebnis richtig ist.

Wenn alles dazwischen richtig ist, aber man am letzten Schritt einen Fehler macht, bekommt man direkt Strafe, ohne auf den Prozess zu achten.

Mythos beobachtet den gesamten Prozess. Es schaut nicht nur, ob das Projekt am Ende erfolgreich ist, sondern auch, ob man das große Projekt in kleine Schritte aufteilen kann, wann man nach Informationen suchen und Tools nutzen sollte, wann man anhalten sollte, um die vorherigen Inhalte zu überprüfen und ob man bei Fehlern zurückgehen kann.

Drittens: Stärkerer Verifier, d.h. eine Art eingebauter Rezensent oder Qualitätskont

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Das stärkste Modell von Anthropic wird höchstwahrscheinlich die Sicherheits-Tür der Künstlichen Allgemeinen Intelligenz (AGI) anklopfen.

01 So könnte Mythos aussehen

02 Was sonst?