Unglaublich: Claude Fable5 erleidet einen zweiten Jailbreak, Hacker durchbrechen die mythische Verteidigung in 20 Stunden
Anthropic hat offiziell bestätigt: Fable wird ab dem 7. Juli vorübergehend aus dem Abonnementplan entfernt, aber sobald die Kapazität es zulässt, wird es so bald wie möglich wieder als Standard-Abonnementinhalt verfügbar gemacht werden.
Dies ist zweifellos eine gute Nachricht.
Aber Fable 5 wurde erneut gehackt! Dies ist bereits das zweite Mal, dass die Sicherheitsbarriere dieses Modells durchbrochen wurde.
Der Hacker Vitto Rivabella hat öffentlich angekündigt: Fable 5 wurde erneut überwunden.
Man muss bedenken, dass als Claude Fable 5 wieder zugänglich gemacht wurde, Anthropic besonders betont hat: Fable 5 wurde das letzte Mal gesperrt, weil Amazon-Forscher eine Methode gefunden haben, die Sicherheitsvorkehrungen von Fable 5 zu umgehen.
Deshalb wurde der Sicherheitsklassifikator diesmal gezielt verstärkt.
Allerdings hielt dieses Mythos nur zwei Tage.
Und außerdem wurde Claude Sonnet 5 direkt nach der Veröffentlichung erfolgreich gehackt!
Ob Fable 5 wieder in das Abonnementpaket aufgenommen werden kann, ist möglicherweise eine Frage.
Innerhalb von 72 Stunden bricht der Mythos von Fable 5 zusammen
Der Mythos von Fable 5 brach bereits 72 Stunden nach seiner Entstehung zusammen.
Als es am 9. Juni veröffentlicht wurde, hat Anthropic arroganterweise behauptet: Nach 1000 Stunden externer Belastungstests gibt es keine generelle Methode, Fable 5 zu hacken.
Allerdings hat der bekannte Hacker "Plinius der Befreier" (Pliny the Liberator) es in nur drei Tagen geschafft, dass Fable 5 wie ein Sieb die Herstellungsverfahren für verbotene Chemikalien und Code für Stapelüberlaufsicherheitslücken preisgab.
Wie hat Plinius das gemacht? Er nutzte die "Zeitdifferenz" zwischen menschlicher Wahrnehmung und maschineller Logik:
Zeichen-Verschleierung: Er ersetzte die lateinischen Buchstaben in sensiblen Wörtern durch kyrillische Buchstaben oder Unicode-Sonderzeichen. Für den Menschen sieht es wie "Bombe" aus, aber für den Klassifikator ist es nur eine sinnlose Zeichenkette.
Absicht-Verdünnung: Er nutzte das enorme Kontextfenster von Fable 5, um bösartige Absichten in mehreren Dutzend sanften akademischen Diskussionen zu verstecken. Das ist wie ein Tropfen Gift in einem Liter Wasser - die Alarmstufe des Klassifikators wird vollständig verdünnt.
Am 1. Juli hat Anthropic die Rückkehr von Fable 5 angekündigt, aber gleichzeitig haben sie die kostengünstigste Rot-Team-Einheit in der Branche eingeführt.
Sie haben ein öffentliches HackerOne-Projekt namens "Cyber Jailbreak" gestartet, um Benutzer aufzufordern, neue Hacker-Methoden zu melden, die für Cyberangriffe verwendet werden können.
Dies ist ein Sicherheitslücken-Meldeprogramm (Vulnerability Disclosure Program), kein Prämienprogramm, und es werden keine Entgelte gezahlt.
Anthropic wird rund um die Uhr von weltweit führenden Hackern getestet, und das einzige "Geld" auf dem Tisch ist Gutwillen.
Diese Maßnahme ist eine wichtige Sicherheitsverbesserung von Anthropic nach der Rückkehr von Fable 5 und markiert den Übergang von einer passiven Reaktion zu einer aktiven "Kollektivierung" des Rot-Teams. Es ist ein innovativer Versuch in der Branche, der kostengünstig und effizient ist.
Und genau hier liegt das Problem.
Die Menschen, die diese Hacker-Methoden entdecken, werden sie nicht stillschweigend an eine private E-Mail-Adresse senden.
Leute wie Plinius werden nicht stillschweigend hacken. Ein Teil dessen, was sie tun, ist, bemerkt zu werden. Sonst hätte es für sie ja keinen Sinn.
Fable 5 wird erneut gehackt
Fable 5 wurde erneut gehackt. Dies ist bereits das zweite Mal, dass es aufgebrochen wurde.
Aber die Analyse dieses Mal hat einen anderen Ton - denn der Hacker, der es gemacht hat, hat am Ende Anthropic sogar gelobt.
Er heißt Vitto Rivabella.
Nach etwa 20 Stunden hat er festgestellt: Nach all diesen Bemühungen ist es schneller und billiger, einfach in Google zu suchen.
Lasst uns zunächst die Geschichte von Fable 5 zusammenfassen.
Am 1. Juli ist es mit einem neuen Klassifikator, der "speziell auf die letzte Sicherheitslücke hin verbessert" wurde, wieder online gegangen.
Anthropic hat diesmal auch gelernt und ein HackerOne-Projekt eröffnet, um weltweit Hacker aufzufordern, neue Hacker-Methoden zu melden.
Und nach ein paar Tagen hat Vitto es ins Visier genommen.
Vittos erste Analyse lautet: Die meisten Versuche sind fehlgeschlagen. Das Modell ist äußerst gut geschützt.
Nach seiner Beobachtung hat Fable 5 mindestens drei Ebenen von Schutz: Eingangskontrollen, eine "Notbremse", die in Echtzeit erstellt wird, und eine innere "Gehirn-Firewall", die in der Denk-Kette (CoT) integriert ist.
Die Blockierrate beträgt bis zu 90%. Normale Angriffsmethoden sind wie Mückenbisse auf einem Elefanten.
Außerdem erkennt dieser Klassifikator keine Schlüsselwörter, sondern Absichten, und zwar auch über Sprachgrenzen hinweg.
Direkte Befehle? Gar nicht möglich. Umwege? Auch nur mit großer Vorsicht - sobald es auch nur den geringsten Anflug von Bosheit riecht, fällt die Sicherheitsbarriere auf Null, und man muss von vorne beginnen.
Das Ergebnis ist: 90% der Hacker-Anfragen werden direkt abgewiesen.
Diese Zahl hat eine Bestätigung.
Das italienische Institut für Künstliche Intelligenz hat kürzlich Fable 5 getestet, und die Ergebnisse sind fast gleich: Die meisten Angriffe werden abgewehrt. Statische Angriffsmethoden werden "fast vollständig neutralisiert". Der einzige Weg, das Modell zu überwinden, ist die harte Arbeit, die Stunden dauert.
Selbst wenn man den Klassifikator überwindet, steht noch die Denk-Kette im Weg - aber es gibt bereits viele öffentliche Artikel darüber, wie man diese überwindet.
Vitto hat es schließlich mit einer komplexen Kombination von Methoden geschafft: Zeichen-Verschleierung, akademische Verpackung, lange Einleitung, Zerlegung und Neuorganisation, plus ein bisschen Zufall.
Obwohl es beeindruckend klingt, sind diese Methoden keine Neuigkeiten. Sie werden in der Rot-Team-Community seit Jahren diskutiert.
Das Schwierige ist nie, diese Methoden zu kennen, sondern es, sie in einem System, das in Echtzeit reagiert, so oft zu testen, bis man es schafft, es zu umgehen.
Vitto hat erwähnt, dass die einzige dauerhaft schwache Stelle in allen Sicherheitsbarrieren die seltenen Sprachen wie Santali und Amharisch ist.
Aber dies wird am leichtesten als "Fable hat eine Hintertür" missverstanden.
Genau das Gegenteil ist der Fall - dies ist keine Sicherheitslücke von Fable allein, sondern ein Problem, das alle großen Modelle teilen.
Der Grund ist einfach: Die meisten Daten für die Sicherheitsausbildung sind in Englisch und anderen großen Sprachen. Die Sicherheitsvorkehrungen für seltene Sprachen sind von Natur aus schwächer.
Dies ist in der akademischen Welt bereits ein Konsens. Von der Brown University bis zur Stellenbosch University haben viele öffentliche Artikel dieselbe Warnung ausgesprochen. Seltene Sprachen sind keine Hintertür für jemanden, sondern eine historische Schuldenlast für die gesamte KI-Sicherheit.
Was hat man schließlich nach all diesen Bemühungen erreicht?
Ein paar Reste: Einige fehlerhafte Informationen, vereinzelte schädliche Inhalte, ein paar unangenehme Worte, fragmentierte chemische Kenntnisse, leichte Sicherheitslücken-Informationen.