Werden an Handy und Computer über Nacht unzählige Bugs auftauchen?

Ich wage es kaum, mir vorzustellen, wie viel Schrottcode es geben könnte.

Über Nacht müssen möglicherweise Ihr Handy, Ihr Computer, Ihr Router und sogar Ihre intelligente Toilette hektisch Patches installieren, um Sicherheitslücken zu beheben.

Das ist keine leere Behauptung. Anthropic hat sein bisher stärkstes Modell, Claude Mythos Preview, veröffentlicht.

Dieses brandneue Modell kann selbst 0-Day-Sicherheitslücken finden (das sind also tödliche Sicherheitslücken, von denen die Entwickler überhaupt nichts wissen und gegen die sie keine Vorkehrungen getroffen haben) und Ihnen außerdem eine vollständige Angriffscode geschrieben.

Angesichts dieser Fähigkeiten war Anthropic selbst schockiert und hat das Modell unter dem Vorwand "zu fortschrittlich für die Öffentlichkeit" gesperrt. Es wird nur 12 seriösen Großunternehmen wie Amazon, Apple, Microsoft und Google zur Verfügung gestellt.

Zur gleichen Zeit haben sie zusätzlich ein Projekt namens Project Glasswing (Glasflügelschmetterling) ins Leben gerufen und gebeten, Mythos zunächst für die Netzwerksicherheit einzusetzen.

Tatsächlich hatten wir bereits Wind von diesem neuen Modell bekommen. Ende des vergangenen Monats gab es bei Anthropic ein Internetskandal, und mehr als 3.000 vertrauliche Dokumente wurden geleakt. Damals wurde festgestellt, dass es über dem bereits riesigen Opus noch ein Modell mit dem Codename "Kapibara" gab.

Scheinbar fanden sie den Namen zu süß, also wurde er beim offiziellen Release einfach in Mythos (Mythos, eine Art goldene Legende) geändert.

Obwohl wir Laien momentan noch nicht mit diesem Modell experimentieren können, reichen schon die von der offiziellen Seite veröffentlichten Daten, um uns zu beeindrucken.

Früher konnten die neuen Modelle der großen Unternehmen in den Benchmark-Tests in der Regel nur um 3 % oder 5 % besser abschneiden.

Aber Mythos setzt hier einen deutlichen Strich durch die Rechnung:

USAMO (US-amerikanisches Mathematik-Olympiade): Die Punktzahl ist von 42,3 % der vorherigen Generation auf 97,6 % gestiegen;

Cybench (Netzwerksicherheits-Benchmark-Test): 100 % volle Punktzahl. Anthropic meinte sogar etwas anmaßend: Der aktuelle Cybench-Benchmark-Test ist für das neue Modell zu einfach und hat keine Testbedeutung mehr.

Bei CyberGym (Professioneller Sicherheitslücken-Wiederholungstest) erreichte es einen Score von 83,1 %, während das bisher stärkste öffentliche Modell, Opus 4.6, nur 66,6 % erreichte.

Beim Firefox JS shell (Sicherheitslücken-Ausnutzungstest) war die Verbesserung am spektakulärsten: Die Fähigkeit zur Ausnutzung von Sicherheitslücken stieg um fast das 80-fache im Vergleich zu Opus 4.6...

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Werden an deinem Handy und Computer über Nacht unzählige Bugs auftauchen?