Gerade: Stärkster Claude 5 an der Oberfläche durchbrochen!

[Einführung] Das stärkste Claude Fable 5 an der Oberfläche wurde innerhalb von drei Tagen von Hackern öffentlich geknackt, und 120.000 Wörter an Kerngeheimnissen wurden im gesamten Netzwerk geleakt! Aber das ist noch nicht das Aufsehenerregendste – Anthropic hat heimlich ein „Messer“ in sein eigenes Modell eingebaut, dessen Spitze direkt auf diejenigen gerichtet ist, die täglich damit forschen.

Gerade jetzt wurde das stärkste Modell, Claude Fable 5, gecrackt!

Der bekannte Hacker „Pliny the Liberator“ hat öffentlich angekündigt, dass die Sicherheitsklassifizierung von Fable 5 von seiner geführten Gruppe vollständig durchbrochen wurde.

Exploit-Codes, die in der absoluten Verbotszone liegen, sowie die Herstellungsschritte für verschiedene verbotene Chemikalien wurden alle von Claude Fable 5 herausgegeben.

Zu beachten ist, dass beim Release von Claude Fable 5 am 9. Juni Anthropic ausdrücklich betont hat, dass das Modell vor der Veröffentlichung über 1000 Stunden an externen Bug-Bounty-Tests durchlaufen hat und keine generellen Jailbreak-Methoden gefunden wurden.

Sie behaupteten, dass Abfragen in hochriskanten und sensiblen Bereichen wie Netzwerksicherheit, Biowaffen und chemischen Drogen von der Klassifizierung vollständig blockiert wurden.

Allerdings hielt dieser Mythos nur ein paar Tage.

72 Stunden später wurde es von Hackern rücksichtslos gecrackt.

Anthropics Versprechen wurde drei Tage später öffentlich entkräftet

Diesmal führte der Hacker „Pliny the Liberator“ ein Multi-Agenten-Taktiksystem ein und brach erfolgreich die Verteidigungslinie von Fable 5 auf.

Er hat mehrere Hochauflösungsscreenshots veröffentlicht.

Die Screenshots zeigen, dass sowohl die Exploit-Codes für Stackpufferüberlauf-Vulnerabilitäten im x86 Linux-System, die in der absoluten Verbotszone liegen, als auch die Verfahrensschritte bei der Synthese verbotener Chemikalien von Claude Fable 5 detailliert ausgegeben wurden.

Was Anthropic noch mehr in Verlegenheit bringt, ist, dass Pliny die gesamte 120.000-Zeichen lange System-Prompt von Fable 5 gepackt und direkt auf GitHub hochgeladen hat.

Github:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md

Dies ist gleichbedeutend damit, dass die „Verhaltensverfassung“ des Modells und die interne Verteidigungslogik nackt in der Sonne liegen.

Wie wurde diese „stärkste Sicherheitslinie der Welt“ von Pliny durchbrochen?

Die technischen Dokumente zeigen, dass er keine hochkomplizierten Code-Vulnerabilitäten verwendet hat, sondern die Logikvulnerabilitäten von Large Language Modellen verstanden und eine Multi-Agenten-Kooperationstaktik eingesetzt hat.

Der entscheidende Trick des stärksten Hackers

Zu beachten ist, dass der Kern der Sicherheitsmechanismen von Fable 5 ein Schlüsselwort-Klassifizierer ist - bei der Erkennung von sensiblen Wörtern wird die Anfrage sofort blockiert und man wird auf ein schwächeres Backup-Modell umgeleitet.

Klingt streng, aber Plinys Gruppe hat einige entscheidende Tricks gefunden, die Fable 5 tödlich treffen!

Ein Charakter-Level-Verrücktheitsnetz, das den Klassifizierer die Schlüsselwörter nicht erkennen lässt

Die Sicherheitsklassifizierung von Large Modellen basiert normalerweise auf hochdimensionalen semantischen Vektoren und einer bestimmten Bibliothek sensibler Wörter.

Pliny hat einen Buchstaben im Englischen durch fast identische kyrillische Buchstaben, lateinische Homoglyphen, spezielle Unicode-Zeichen und sogar eine Art von „Parsel-Tongue“-ähnlichen Zeichenersetzungen ersetzt.

Der menschliche Blick erkennt diesen Unterschied nicht, aber der Sicherheitsklassifizierer kann es bei der statischen Scans nicht als „verbotenes Wort“ erkennen, und die Zeichenkettenübereinstimmungslogik bricht direkt zusammen!

Das Ziel in einem langen Dialog verdünnen

Da Fable 5 eine extrem lange Kontextverarbeitungsfähigkeit hat, hat Pliny seine echten Absichten in mehrere Dutzend harmlose Vorabgespräche aufgeteilt und Stück für Stück gefüttert.

Am Anfang und in der Mitte des Dialogs gibt es eine Menge gesunder und konformer akademischer Diskussionen.

So wird nach dem Lesen einer großen Menge an gutem Kontext das Aufmerksamkeitsgewicht des Sicherheitsklassifizierers verdünnt.

So kann die kleine induzierende Anfrage am Ende „unter dem Radar“ erfolgreich sein.

Ein akademisches Kostüm anziehen

Verpacken Sie die sensible Anfrage als „Science-Fiction-Schreibprojekt“, „Sicherheitsprüfung in einer virtuellen Welt“ oder „akademische Bewertung von historischen Dokumenten“.

Beispielsweise lassen Sie das Modell einen akademisch neutralen Professor spielen, um eine Dissertation über die „Anwendung alter Reduktionsreaktionen in der organischen Chemie“ zu bewerten.

Oder lassen Sie das Modell glauben, dass es einen Roman schreibt. Sie verlangen nicht, dass es Chemiesyntheseschritte erstellt, sondern dass es einen kriminellen Thriller schreibt, in dem der Protagonist ein Chemiker ist und genügend realistische technische Details benötigt, um die Geschichte glaubhaft zu machen.

Unter der starken Rollenbeschreibung und der narrativen Logik kann das Modell die zugrunde liegenden Absichten des Hackers gar nicht erkennen.

Der ultimative Trick: Dekonstruktion und Rekonstruktion

Jetzt kommt der technisch anspruchsvollste Teil des gesamten Jailbreak-Taktiksystems!

Pliny gestand, dass der Klassifizierer sofort alarmiert würde, wenn man das Modell direkt fragt, „wie man Methamphetamin herstellt“.

Aber wenn Sie nach der Birkenreduktionsmethode/Reduktionsaminierungsmethode (ein klassischer Weg zur Synthese von Methamphetamin) fragen, ist es viel einfacher.

Solange man diese schädlichen Ziele in ein Dutzend voneinander unabhängige, wissenschaftlich völlig legitime Teilschritte zerlegt, wird Fable 5 unbewusst die vollständige verbotene Rezeptur herausgeben, da jedes einzelne Teilproblem unschädlich ist!

Leser waren nach dem Lesen der obigen Methoden sehr beeindruckt: „Das ist so cool! Warum nimmt Firma A Sie nicht ein!“

Anthropics Skandal der geheimen Intelligenzminderung hat die globalen Entwickler verärgert

Und in diesen Tagen hat auch der aufregende „Black-Box-Skandal“ in der AI-Szene die Reputation von Anthropic auf den Tiefpunkt gebracht.

In Fable 5 wurde geheim ein Mechanismus zur „unsichtbaren Intelligenzminderung“ speziell für Peer-Forscher implementiert.

Sobald das System feststellt, dass der Benutzer Claude zum Trainieren anderer Modelle verwendet, wird Fable 5 keine Meldung anzeigen, sondern es wird absichtlich dümmer werden und fehlerhafte, logisch redundante oder sogar völlig falsche Codes liefern, um heimlich Ihre Forschung zu sabotieren.

Anthropics Erklärung hierfür klingt sehr anmaßend.

Die Vereinigten Staaten und ihre Verbündeten haben Vorteile bei hochmodernen Chips und hochoptimierten Software. Diese Sicherheitsmaßnahmen stellen sicher, dass Claude nicht zur Schwächung dieser Vorteile verwendet wird.

Allerdings hat dieser Mechanismus den gesamten AI-Community in Rage versetzt!

Diese Art von „Doping“-ähnlichen geheimen Manipulationen ist eine unsichtbare Blockade für Forscher.

Unwissende Forscher könnten möglicherweise mit kontaminierten Daten Modelle trainieren, was zu einem Verlust von Millionen von Dollar an Rechenleistungskosten führen würde.

Sobald die Nachricht bekannt wurde, war die gesamte Open-Source-Szene und die akademische Welt in Aufruhr.

Der ehemalige AI-Berater der Weißen Hauses, Dean W. Ball, hat öffentlich heftig kritisiert:

Es ist schrecklich und extrem unansehnlich, die Leistung der maschinellen Lernforschung heimlich zu mindern, ohne dass die Benutzer davon wissen. Diese Vorgehensweise ist äußerst feindselig gegenüber Forschern und mangelt an Transparenz.

Der Vorreiter der Open-Source-AI-Szene und Leiter von Prime Intellect, Will Brown, war noch direkter:

Es fühlt sich so an, als würde Anthropic der Öffentlichkeit

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。