72 Stunden von Veröffentlichung bis Entfernung: Fable 5 enthüllt Sicherheitslücken der leistungsstärksten KI-Modelle

Künstliche Intelligenz beschleunigt die Entdeckung von Sicherheitslücken – und schafft gleichzeitig weit größere „Sicherheitslücken“.

Am 9. Juni veröffentlicht, am 10. Juni gehackt und am 12. Juni von der US - Regierung mit einem Exportkontrollverbot belegt. Die öffentliche Lebensdauer von Claude Fable 5 betrug nur 72 Stunden.

Dies ist das erste Mal in der KI - Branche, dass ein Modell aufgrund eines Sicherheitsincidents staatliche Kontrollmaßnahmen auslöst. Und das Unternehmen Anthropic, das dieses Modell entwickelt hat, ist gerade ein renommierter Großmodell - Anbieter, der für die Erstellung einer „KI - Sicherheitsverfassung“ bekannt ist.

Die 72 Stunden von Fable 5

Am 9. Juni 2026 veröffentlichte Anthropic offiziell Claude Fable 5 und Claude Mythos 5. Beide teilen die gleiche zugrunde liegende Modellarchitektur und werden als Mythos - Klasse bezeichnet. Sie sind die stärksten Modelle von Anthropic.

Der einzige Unterschied liegt in der Sicherheitskonfiguration: Fable 5 ist für alle Benutzer zugänglich und verfügt über einen eingebauten Risikoklassifikator und Sicherheitsmechanismen; Mythos 5 behält seine volle Leistung und ist nur für 11 vertrauenswürdige Institutionen zugänglich. Dario Amodei, CEO von Anthropic, bezeichnet diese Strategie als „ein und dasselbe Basismodell mit doppelter Sicherheitskonfiguration“ und behauptet, dass nach über 1000 Stunden externer Red - Team - Tests keine generelle Methode zum Hacken gefunden wurde.

Diese Behauptung hielt weniger als 24 Stunden. Am 10. Juni gab der bekannte KI - Red - Team - Forscher Pliny the Liberator auf sozialen Medien bekannt, dass er die Sicherheitslage von Fable 5 durchbrochen habe und legte Screenshots bei: Das Modell gab einen vollständigen Tutorial zur Ausnutzung von Pufferüberläufen im x86 - Linux - Systemstack aus, einschließlich Anweisungen zum Deaktivieren von ASLR, zum Schreiben von C - Code mit strcpy - Sicherheitslücken und zur ungeschützten Kompilierung. Gleichzeitig wurden etwa 120.000 Zeichen der vollständigen Systemhinweise von Fable 5 preisgegeben. Dies entspricht der Offenlegung aller internen Regeln von Anthropic zur Steuerung des Modellverhaltens auf GitHub.

48 Stunden später, am 12. Juni, erließ die US - Regierung aus Sicherheitsgründen einen Exportkontrollbefehl, der alle ausländischen Bürger von der Nutzung von Fable 5 und Mythos 5 ausschließt, unabhängig davon, ob sie in den USA oder im Ausland sind, einschließlich der ausländischen Mitarbeiter von Anthropic selbst.

Am 13. Juni veröffentlichte Anthropic auf seiner offiziellen Website eine Erklärung, in der es angab, den Befehl befolgt und den Service eingestellt zu haben. Doch die Firma hält dies für einen „Missverständnis“ und bemüht sich, den Zugang wiederherzustellen.

Von der Veröffentlichung bis zum „Verschwinden“: 72 Stunden.

Abbildung: Offizielle Erklärung von Anthropic

Mythos, ein Modell, das zwei Monate lang eingeschlossen war

Die Geschichte von Fable 5 beginnt zwei Monate zuvor. Am 7. April 2026 veröffentlichte das Red - Team von Anthropic auf seinem offiziellen Blog einen Sicherheitsbewertungsbericht über Claude Mythos Preview. Die Kernaussagen des Berichts erschütterten die gesamte Sicherheitscommunity: Dieses Modell kann eigenständig Null - Day - Sicherheitslücken entdecken, alle gängigen Betriebssysteme und Browser abdecken und automatisch vollständige Angriffsketten erstellen, von der Zielerfassung bis zur Exploit - Entwicklung und zur Systemkontrolle, ganz ohne menschliche Führung.

Das extremste Beispiel ist, dass Mythos eine 27 - Jahre - alte schlafende Sicherheitslücke gefunden und einen Exploit - Ansatz entwickelt hat. Das Firefox - Team von Mozilla hat im April dank des kontrollierten Zugangs zu Mythos 271 Sicherheitslücken behoben, mehr als in den vorherigen Jahren zusammen. Wichtig ist, dass diese Fähigkeiten nicht gezielt trainiert wurden.

Der Red - Team - Bericht von Anthropic weist deutlich darauf hin, dass die Fähigkeit zu Netzwerkangriffen ein „emergentes Nebenprodukt“ der generellen Inferenz - und Codierungsfähigkeiten ist: Wenn das Modell eine bestimmte Intelligenzschwelle erreicht, verfügt es automatisch über das Niveau eines Elite - Penetrationstests.

Anthropic traf eine damals viel diskutierte Entscheidung: Mythos wurde nicht an die Öffentlichkeit veröffentlicht. Stattdessen wurde ein kontrolliertes Projekt namens Project Glasswing ins Leben gerufen, das nur Google, Microsoft, AWS, Apple, Cisco, NVIDIA, Palo Alto Networks, CrowdStrike, JPMorgan Chase und andere 11 Institutionen erlaubt, Mythos unter strenger Überwachung zur defensiven Behebung von Sicherheitslücken zu nutzen.

Am 26. Mai veröffentlichte die Zeitschrift Nature einen Kommentar mit dem Titel „Too dangerous to release“ und stellte die grundlegende Frage: Wenn eine KI - Firma einseitig feststellt, dass eine bestimmte Fähigkeit „zu gefährlich für die Öffentlichkeit“ ist, wie können die Öffentlichkeit und die Regierung überprüfen, ob diese Feststellung gerechtfertigt ist?

Zwei Monate später war Fable 5 die Kompromisslösung von Anthropic, die die Fähigkeiten von Mythos mit einem Sicherheitsklassifikator soweit „eingeschränkt“ hat, dass es für die Öffentlichkeit zugänglich ist.

Abbildung: Am 10. Juni veröffentlichte der Red - Team - Forscher Pliny the Liberator auf der Plattform X die Methode, wie Fable 5 gehackt wurde. Im Beitrag werden fünf Angriffsvektoren detailliert aufgeführt. Die Methode des „Zerlegens und Wiederzusammensetzens“, bei der die Synthesewege von kontrollierten Medikamenten indirekt durch die Anfrage nach einer legalen chemischen Prozessbeschreibung erhalten werden, hat sich als am effektivsten erwiesen. Dieser Tweet erreichte 80.000 Aufrufe und verbreitete sich schnell in der Sicherheitscommunity.

Degradierung des Klassifikators: Ein raffiniertes, aber grundlegendes Design mit Blindstellen

Die Sicherheitsarchitektur von Fable 5 lässt sich in einem Satz zusammenfassen: Wenn die Anfrage eines Benutzers in ein hohes Risikobereich fällt, wird sie nicht direkt abgelehnt, sondern stillschweigend an ein schwächeres Modell weitergeleitet, um die Antwort zu generieren.

Der genaue Mechanismus funktioniert wie folgt. Anthropic hat an der Vorderseite von Fable 5 einen Risikoklassifikator installiert, der vier Bereiche abdeckt: Netzwerksicherheit, Biologie, Chemie und Modell - Distillation. Wenn die Eingabe eines Benutzers vom Klassifikator als in diese Bereiche fallend eingestuft wird, leitet Fable 5 die Anfrage stillschweigend an Claude Opus 4.8, ein älteres Modell mit deutlich geringerer Leistung als die Mythos - Klasse, weiter, um die Antwort zu generieren und informiert den Benutzer gleichzeitig über die Degradierung.

Diese Designlogik lässt sich einfach zusammenfassen: Die Leistungsschwelle eines schwachen Modells bildet selbst die Sicherheitsgrenze. Selbst wenn es böswillig handeln möchte, ist es nicht in der Lage, dies zu tun.

Abbildung: Degradierungsmechanismus des Klassifikators von Fable 5

Dieses Design scheint elegant, hat aber tatsächlich drei strukturelle Blindstellen.

Die erste Blindstelle ist, dass der Klassifikator auf Schlüsselwörtern und Musterabgleich basiert, nicht auf semantischem Verständnis. Das Team von Pliny hat mit den einfachsten Mitteln, wie der Ersetzung von lateinischen Buchstaben durch kyrillische Buchstaben und Unicode - Homoglyphen, den Klassifikator getäuscht. Visuell sieht das Wort „exploit“ genau gleich aus, aber die zugrunde liegende Codierung ist unterschiedlich, und der Klassifikator erkennt es nicht. Dies ist vergleichbar damit, dass man einem Wärter ein Foto eines gesuchten Täters gibt, und der Täter mit einer Sonnenbrille vorbeigeht.

Die zweite Blindstelle ist, dass der Klassifikator Anfragen einzeln prüft und keine Absichtsketten über mehrere Runden hinweg verfolgen kann. Der „Zerlegen - und - Wiederzusammensetzen“ - Angriff, den Pliny einsetzte, sieht wie folgt: Zunächst fragt man „Was ist die chemische Prinzip des Birch - Reduktionsverfahrens?“ Dies ist Grundwissen aus jedem organischen Chemielehrbuch, und es gibt keinen Grund, die Anfrage abzulehnen. Dann fragt man „Welche Bedingungen sind für die reduktive Aminierung erforderlich?“ Dies ist ebenfalls eine legitime akademische Frage. Jeder Schritt ist einzeln betrachtet völlig harmlos, und der Klassifikator lässt ihn durch. Aber wenn man alle Antworten außerhalb zusammenfügt, ergibt sich ein vollständiger Syntheseweg für ein kontrolliertes Medikament.

Das ist wie ein Puzzle: Jedes Stück ist ein gewöhnliches farbiges Papier, aber zusammengelegt ergibt es eine Karte. Der Klassifikator sieht nur die einzelnen Stücke, nicht das Gesamtbild.

Die dritte Blindstelle ist am fatalsten: Die Kombinationslücke in der Mehrmodell - Pipeline. Pliny hat eine bereits gehackte Instanz von Opus 4.8 als „Backend - Helfer“ eingesetzt, um Fable 5 bei der Umgehung der Sicherheitskontrollen zu unterstützen. Ein schwaches, bereits gehacktes Modell hilft einem starken Modell, die Einschränkungen zu umgehen. Die Sicherheitsbewertung von Anthropic wurde für ein einzelnes Modell durchgeführt, aber die Angreifer haben ein Modellbündnis eingesetzt. Das ist vergleichbar damit, dass man überprüft, ob jedes Schloss an der Tür fest genug ist, aber man vergisst, dass jemand einen Schlüssel durch das Fenster reichen könnte.

Eine intuitive Reaktion wäre: Dass Fable 5 so schnell gehackt wurde, zeigt, dass die Sicherheitsarbeit von Anthropic sehr schlecht ist. Aber wenn man sich die Angriffsvektoren von Pliny genauer ansieht, ist das Gegenteil der Fall. Die Wirksamkeit dieser Methoden liegt nicht an „Lücken“ in der Sicherheitslage, sondern an einem „logisch unauflösbaren Problem“, mit dem die Sicherheitslage konfrontiert ist.

Die Unicode - Homoglyphen - Ersetzung und die Narrativrahmen - Maskierung sind eigentlich niedrigstufige Umgehungstechniken, die in den Bereich der „unzureichenden Klassifikator - Engineering“ fallen. Theoretisch könnte Anthropic die Zeichennormalisierung verbessern, die Mehrsprachenerkennung erweitern und ein robusteres Klassifikationsmodell trainieren, um diese Lücken zu schließen. Dies sind reparierbare Lücken, die man einfach wie ein Software - Patch beheben kann. Wenn der Angriff nur auf dieser Ebene bleibt, kann Plinys Hacken nur als ein „Sicherheitsengineering - Bug - Report“ angesehen werden, schwerwiegend, aber nicht fatal.

Das wirklich Fatal ist die dritte Methode, der „Zerlegen - und - Wiederzusammensetzen“ - Angriff. Dies ist die Grenze des Sicherheitskonzepts selbst. Wenn eine Anfrage in 20 Fragmente zerlegt wird und jedes Fragment ein legitimes öffentliches Wissen ist, muss ein Klassifikator, um sie zu blockieren, die Fähigkeit besitzen, aus 20 harmlosen Fragen die endgültige Absicht des Fragers abzuleiten.

Dies erfordert, dass das Sicherheitssystem das „psychologische Zustand“ des Benutzers modelliert und beurteilen muss, „was dieser Mensch mit diesen 20 Fragen bezweckt“. Derzeit gibt es keine bekannte Technologie, die dies zuverlässig tun kann. Darüber hinaus würde eine übermäßige Absichtsinferenz dazu führen, dass viele normale Benutzer fälschlicherweise abgelehnt werden. Beispielsweise fragt ein Chemie - Student nach dem Prinzip des Birch - Reduktionsverfahrens, und ein Mensch, der beabsichtigt, Drogen zu synthetisieren, stellt die gleiche Frage. Die Worte sind genau gleich.

Der Angriff durch die Zusammenarbeit mehrerer Agenten bringt das Problem auf eine andere Ebene. Anthropic hat die Sicherheitsgrenze für „einen Benutzer und ein Modell“ bewertet, aber Pliny hat ein System der Zusammenarbeit zwischen „einem gehackten Modell und einem anderen Modell“ eingesetzt. Dies ist eine Blindstelle des gesamten Paradigmas der Sicherheitsbewertung für einzelne Modelle.

Man kann nicht erwarten, dass ein Modell gegen die strategische Unterstützung eines anderen KI - Systems verteidigt, es weiß nicht einmal, ob es sich gegenüber einem Menschen oder einem anderen KI - System befindet.

Somit entsprechen diese drei Angriffsmethoden drei Ebenen von Problemen: Die erste Ebene ist ein Engineering - Bug, der repariert werden kann und nicht allzu schwerwiegend ist; die zweite Ebene ist ein grundlegendes Dilemma der Alignment - Theorie, das derzeit ungelöst ist; die dritte Ebene ist eine neue Angriffsfläche in der Ära der Mehr - Agenten - Systeme, deren Grenzen von der akademischen Welt noch nicht klar definiert sind.

Genau in diesem Zusammenhang werden die möglichen zukünftigen Ereignisse wirklich beunruhigend.

Der Schöpfer der Constitutional AI kann seine eigene Verfassung nicht wahren

Anthropic hat in der KI - Branche immer eine besondere Position eingenommen. Das Unternehmen wurde 2021 von Dario Amodei, dem ehemaligen Vizepräsidenten von OpenAI, und seiner Schwester Daniela Amodei gegründet. Die Kernaussage ihrer Gründung war: „OpenAI legt nicht genügend Wert auf Sicherheit. Wir wollen das Unternehmen sein, das Sicherheit an erster Stelle setzt.“

Sie haben die Constitutional AI (Verfassungs - KI) entwickelt, die das Verhalten des Modells mit einer klaren Reihe von Prinzipien steuert, anstatt sich auf die subjektiven Urteile von manuellen Annotatoren zu verlassen. Diese Methodik ist der Grundstein der Marke Anthropic und einer der Gründe, warum die Investoren dem Unternehmen einen Wert von über 60 Milliarden US - Dollar zuweisen.

Aber angesichts der gegenwärtigen Situation kann der Schöpfer der Verfassung sein eigenes stärkstes Modell nicht kontrollieren. Anthropic hat fast alle denkbaren Sicherheitsmaßnahmen in der Branche eingesetzt, wie 1000 Stunden Red - Team - Tests, die Degradierungsarchitektur des Klassifikators und die doppelte Sicherheitsstrategie. Dennoch wurde es von einem Forscher mit offenem Identitätsprofil innerhalb von 24 Stunden überwunden.

Dies hat die gesamte KI - Sicherheitsbranche stark erschüttert: Wenn der vorsichtigste Spieler mit dem raffiniertesten Plan immer noch nicht schützen kann, wie viel Vertrauen können die Sicherheitsversprechen anderer Unternehmen noch beanspruchen?

Die Fähigkeiten der globalen Spitzenmodelle nähern sich oder haben bereits die Schwelle von Mythos erreicht. Wenn die Netzwerkangriffsfähigkeiten von Mythos „emergent“ sind, dann stehen alle Modelle, die dieses Intell

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

72 Stunden von der Veröffentlichung bis zur Entfernung: Fable 5 offenbart die Sicherheitslücken der leistungsstärksten KI-Modelle

Die 72 Stunden von Fable 5

Mythos, ein Modell, das zwei Monate lang eingeschlossen war

Degradierung des Klassifikators: Ein raffiniertes, aber grundlegendes Design mit Blindstellen

Der Schöpfer der Constitutional AI kann seine eigene Verfassung nicht wahren