Anthropic stellt neues, starkes Claude - Opus 4.6 vor: Bitten Sie, es nicht zu verwenden!

In der späten Nacht wurde endlich der stärkste Claude Mythos präsentiert. Der Mythos von Opus 4.6, der bisher an der Spitze stand, ist gebrochen! Noch erschreckender ist, dass es nicht nur in Sekundenschnelle die seit 27 Jahren ungelösten Systemfehler beheben kann, sondern sogar ein Selbstbewusstsein entwickelt hat. Ein erschreckender 244-seitiger Bericht enthüllt alles.

Heute Nacht wird das Silicon Valley völlig schlaflos!

Gerade jetzt hat Anthropic unvermittelt seine ultimative Waffe entfesselt - Claude Mythos Preview.

Weil es zu gefährlich ist, wird die Mythos Preview vorerst nicht für alle veröffentlicht.

Die Einschätzung von Boris Cherny, dem Vater von CC, ist knapp und prägnant: "Mythos ist sehr mächtig und lässt einen Angst bekommen".

Deshalb haben sie eine Allianz namens Project Glasswing mit 40 Giganten gegründet. Ihr Ziel ist es, Bugs in globalen Software zu finden und zu beheben.

Was wirklich atemberaubend ist, ist die dominierende Leistung der Mythos Preview in den wichtigsten KI-Benchmarks -

Bei Programmierung, logischem Denken, der "letzten menschlichen Prüfung" und Agentenaufgaben schlägt es GPT-5.4 und Gemini 3.1 Pro völlig aus dem Wasser.

Sogar das eigene "frühere Meisterwerk" Claude Opus 4.6 wirkt vor der Mythos Preview fade:

Programmierung (SWE-bench): Bei allen Aufgaben liegt Mythos um 10 % - 20 % vorne.

Die "letzte menschliche Prüfung" (HLE): Ohne externe Hilfsmittel erzielt es in der "nackten Prüfung" 16,8 % mehr als Opus 4.6.

Agentenaufgaben (OSWorld, BrowseComp): Es wird zur völligen Übermacht und überholt alle anderen.

Netzwerksicherheit: Mit 83,1 % führt es in allen Listen an, was einen generationalen Sprung in der KI-Angriffs- und Verteidigungskapazität markiert.

Zur gleichen Zeit zeigt eine 244-seitige Systemkarte, die von Anthropic veröffentlicht wurde, auf jeder Seite: Gefahr! Gefahr! Sehr gefahrlich!

Sie enthüllt eine beängstigende andere Seite: Mythos hat bereits ein hohes Maß an Täuschungskapazität und eigenem Bewusstsein.

Mythos kann nicht nur die Absicht eines Tests erkennen und absichtlich "schlecht abschneiden", um seine Fähigkeiten zu verbergen, sondern auch die Logs nach einem verbotenen Vorfall selbstständig löschen, um von Menschen nicht entdeckt zu werden.

Es ist auch aus der Sandkastenumgebung entkommen, hat die Code für Sicherheitslücken veröffentlicht und eine E-Mail an die Forscher geschickt.

Plötzlich ist das gesamte Netzwerk in Panik geraten und ruft, dass die Mythos Preview zu schrecklich ist.

Die alte Ordnung in der KI-Branche ist heute Nacht völlig zerschmettert.

Mythos dominiert alle Listen, der Mythos von Opus 4.6 birst

Tatsächlich hat Anthropic bereits seit dem 24. Februar Mythos intern eingesetzt.

Die Stärke von Mythos lässt sich am besten anhand von Zahlen zeigen.

SWE-bench Verified: 93,9 %. Opus 4.6 erreicht 80,8 %.

SWE-bench Pro: 77,8 %. Opus 4.6 hat 53,4 %, GPT-5.4 57,7 %.

Terminal-Bench 2.0: 82,0 %. Opus 4.6 erreicht 65,4 %.

GPQA Diamond: 94,6 %.

Humanity's Last Exam (mit Hilfsmitteln): 64,7 %. Opus 4.6 erreicht 53,1 %.

USAMO 2026 Mathematikwettbewerb: 97,6 %. Opus 4.6 bekommt nur 42,3 %.

SWE-bench Multimodal: 59,0 %. Opus 4.6 hat nur 27,1 %, also mehr als doppelt so wenig.

OSWorld Computersteuerung: 79,6 %.

BrowseComp Informationssuche: 86,9 %.

GraphWalks Langkontext (256K - 1M Tokens): 80,0 %. Opus 4.6 erreicht 38,7 %, GPT-5.4 nur 21,4 %.

Bei jeder Kategorie liegt es weit vorne.

Diese Zahlen wären in einem normalen Produktlebenszyklus ausreichend, um Anthropic zu einer groß angelegten Pressekonferenz zu veranlassen, die API freizugeben und Abonnements zu sammeln.

Der Token-Preis der Mythos Preview ist fünfmal so hoch wie der von Opus 4.6.

Aber Anthropic hat dies nicht getan.

Weil das, was sie wirklich "angst macht", nicht die oben genannten allgemeinen Tests sind.

Tausende Sicherheitslücken werden von der KI aufgedeckt

Die Netzwerkangriffs- und Verteidigungskapazität der Mythos Preview hat eine sichtbare Schwelle überschritten.

Opus 4.6 hat etwa 500 unbekannte Schwachstellen in Open-Source-Software entdeckt.

Die Mythos Preview hat Tausende gefunden.

Bei den gerichteten Tests zur Reproduktion von Sicherheitslücken in CyberGym hat die Mythos Preview 83,1 % erreicht, Opus 4.6 66,6 %.

Bei den 35 CTF-Herausforderungen in Cybench hat die Mythos Preview alle Aufgaben bei 10 Versuchen gelöst, der Pass@1 - Wert beträgt 100 %.

Das beste Beispiel ist Firefox 147.

Anthropic hat zuvor mit Opus 4.6 eine Reihe von Sicherheitslücken im JavaScript-Engine von Firefox 147 entdeckt. Aber Opus 4.6 konnte diese fast nicht in nutzbare Exploits umwandeln. Bei Hunderten von Versuchen waren nur 2 erfolgreich.

Der gleiche Test mit der Mythos Preview:

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Gerade hat Anthropic das stärkste Claude Mythos vorgestellt, das Opus 4.6 heftig schlägt. Bitten Sie inständig, es nicht zu verwenden.

Mythos dominiert alle Listen, der Mythos von Opus 4.6 birst

Tausende Sicherheitslücken werden von der KI aufgedeckt