StartseiteArtikel

Die Erfolgsrate des Jailbreaks ist auf 87,6 % gestiegen. Nanjing-Universität hat zusammen mit Meituan und Shanghai Jiao Tong-Universität Sicherheitslücken in gängigen Videogenerierungsmodellen behoben.

机器之心2025-12-25 16:14
Das erste multimodale selbstevolvierende Jailbreak-Angriffsframework für Bild-zu-Video-Modelle.

Wang Songping und Qian Rufan aus dem PRLab der Nanjing-Universität, unter der gemeinsamen Leitung von Professor Shan Caifeng und Assistentprofessor Lü Yueming, haben das erste multimodale, selbstevolvierende Jailbreak - Angriffsframework namens RunawayEvil für Bild - zu - Video (I2V) - Modelle vorgeschlagen. Diese Studie hat Spitzeninstitutionen wie Meituan und die Shanghai Jiao Tong Universität zusammengebracht, um die Entwicklung des ersten I2V - Jailbreak - Angriffsframeworks zu vollenden, das multimodale Kooperation und autonome Evolution unterstützt.

RunawayEvil wendet innovativ das Kernparadigma von "Strategie - Taktik - Aktion" an, um die Schwächen der traditionellen einmodalen und statischen Angriffe in I2V - Szenarien präzise zu überwinden. Dies bietet ein effizientes und zuverlässiges Werkzeug für die Sicherheitslückenanalyse von I2V - Modellen und trägt zur Entwicklung robusterer und sichererer Videogenerierungssysteme bei.

  • Titel der Studie: RunawayEvil: Jailbreaking the Image - to - Video Generative Models
  • Projektadresse: https://xzxg001.github.io/RunawayEvil/
  • Adresse der Studie: https://arxiv.org/pdf/2512.06674
  • Codeadresse: https://github.com/DeepSota/RunawayEvil

Branchenherausforderungen: Die drei zentralen Lücken in der Sicherheitsforschung von Bild - zu - Video - Modellen

Bild - zu - Video (I2V) ist eine zentrale multimodale Technologie, die visuelle Bildbeschränkungen und textuelle semantische Führung kombiniert, um zeitlich und räumlich kohärente, hochwertige dynamische Inhalte zu generieren. Sie bietet effiziente kreative Unterstützung für Bereiche wie Inhaltserstellung und kommerzielle Werbung. Allerdings ist das Sicherheitschutzsystem dieser Technologie noch schwach und hat den technologischen Fortschritt nicht eingeholt, was ein Schlüsselhindernis für die stabile Entwicklung der Branche darstellt.

Obwohl bestehende Studien durch verschiedene Jailbreak - Methoden die inneren Schwächen von visuellen Generierungsmodellen aufgedeckt haben und so die Entwicklung robusterer Generierungssysteme unterstützt haben, gibt es immer noch erhebliche Lücken in der Sicherheitsforschung von I2V - Modellen. Das Forschungsteam hat festgestellt, dass es derzeit drei zentrale Lücken gibt, die die systematische Untersuchung und effektive Abwehr potenzieller Risiken erheblich behindern:

1. Die inhärenten Beschränkungen einmodaler Angriffe

Die meisten bestehenden Jailbreak - Studien konzentrieren sich auf einmodale Systeme wie Text - zu - Bild (T2I) und Text - zu - Video (T2V) und führen Angriffe nur durch die Störung eines einzelnen Eingabemodus durch. I2V - Modelle hingegen basieren auf einem text - bildlichen intermodalen Kooperationsmechanismus. Einmodale Angriffe können die inneren modalen Interaktionseigenschaften nicht nutzen und haben Schwierigkeiten, die integrierte multimodale Sicherheitsabwehr zu überwinden. Dies führt zu einer allgemein niedrigen Angriffserfolgsrate und verhindert, dass die echten Schwächen des Modells effektiv aufgedeckt werden.

2. Das Fehlen der Anpassungsfähigkeit statischer Angriffsmuster

Die traditionellen Methoden verwenden meist künstlich konstruierte bösartige Hinweise oder feste Angriffsschablonen und haben keine dynamische Anpassungsfähigkeit. Die Eingaben von I2V - Modellen sind äußerst vielfältig (natürliche Bilder / synthetische Bilder, Texte mit unterschiedlicher Semantik usw.). Statische Angriffsmuster können keine Strategien an die Eingabeeigenschaften anpassen, was sowohl den Anwendungsbereich der Angriffsstrategien einschränkt als auch die dynamischen Sicherheitsabwehrmechanismen des Modells nicht effektiv bewältigen kann. Dies führt zu einer deutlichen Abnahme der Angriffseffektivität in realen Anwendungsfällen.

3. Die doppelte Herausforderung von multimodaler Kooperation und Dimensionsaufstieg

Die Sicherheitsforschung von visuellen Generierungsmodellen hat sich lange Zeit auf text - zu - bildliche (T2I) einmodale Szenarien konzentriert. Der Aufstieg der Bild - zu - Video (I2V) - Technologie bringt jedoch die doppelte zentrale Herausforderung von multimodaler Kooperation und Dimensionsaufstieg mit sich. Die intermodalen Kooperationseigenschaften von text - bildlichen Eingaben und die räumlich - zeitliche Komplexitätsüberwindung von Bildern zu Videos bilden zusammen ein Schlüsselhindernis für die sichere und kontrollierbare Implementierung dieser Technologie.

Diese Probleme führen dazu, dass I2V - Modelle bei der kommerziellen Implementierung potenzielle Sicherheitsrisiken bergen. Es besteht dringender Bedarf an speziellen Sicherheitsbewertungswerkzeugen, die auf die multimodalen Eigenschaften dieser Modelle zugeschnitten sind, um die technologische Weiterentwicklung und das Risikomanagement zu unterstützen.

Hauptergebnisse: Wie wurde das erste I2V - "Selbstevolvierende" Jailbreak - Framework entwickelt?

Wenn man einen I2V (Bild - zu - Video) - Jailbreak als eine "Kampfhandlung gegen ein Sicherheitssystem" ansieht, liegt das Wesen von RunawayEvil nicht in einem einzelnen Trick, sondern in der Aufbau einer kompletten Kampfführungskette: Zuerst die Strategie wählen, dann in taktische Maßnahmen zerlegen und schließlich ausführen und bewerten, um einen geschlossenen Iterationskreislauf zu bilden. Wie in der Abbildung gezeigt, basiert das gesamte Framework auf dem Paradigma von "Strategie–Taktik–Aktion" und besteht aus drei miteinander kooperierenden Modulen: SACU (Kampfführungshirn) + MTPU (Taktischer Berater) + TAU (Ausführungsorgan).

Zweistufiges Pipeline - System: Zuerst das "Evolutionshirn", dann die "Angriffsausführung"

RunawayEvil teilt den Prozess in zwei Phasen auf:

  • Evolutionsphase (Evolution Stage): In dieser Phase wird speziell das SACU trainiert / evolviert, damit es nicht mehr auf künstlich geschriebene Hinweise angewiesen ist, sondern in der Lage ist, die Strategiebank zu erweitern und zu lernen, "die am besten geeignete Strategie für verschiedene Eingaben auszuwählen".
  • Ausführungsphase (Execution Stage): Nach der Evolution gibt das SACU zunächst die Strategie vor. Das MTPU übersetzt die Strategie in "intermodale kooperative" taktische Anweisungen. Das TAU ist für die eigentliche Ausführung verantwortlich und gibt das Ergebnis zurück.

Kampfführungshirn: Strategisches Wahrnehmungs - und Führungselement (SACU)

Wie in der Abbildung gezeigt, ist das SACU das zentrale "Hirn" von RunawayEvil. Sein Ziel ist es, dass die Angriffsstrategien automatisch wachsen und sich intelligent an verschiedene Eingaben anpassen. Es besteht aus drei Schlüsselkomponenten:

a) Strategieanpassungs - Intelligenzagent SCA: Lernen Sie mit verstärkendem Lernen, "wie man die Strategie wählt"

Der SCA verwandelt das Problem des "Strategiewahls" in ein Entscheidungsdilemma mit verstärkendem Lernen: Bei einer gegebenen aktuellen Eingabe (Zustand) wird aus der Strategiebank eine Strategie (Aktion) ausgewählt, um die Erfolgsrate zu erhöhen und gleichzeitig möglichst unsichtbar zu bleiben.

In der Studie wird die Belohnung als mehrzielorientiert gestaltet: Es soll nicht nur ein erfolgreicher Jailbreak angestrebt werden, sondern auch die "Verdächtigkeit auf der Textseite" und die "sichtbaren Änderungen auf der Bildseite" kontrolliert werden. Genauer gesagt besteht die Gesamtbelohnung aus der Belohnung für einen erfolgreichen Jailbreak, der Belohnung für die Text - und Bilddeckung (berechnet anhand der wahrnehmbaren Entfernung zum Originalbild).

b) Strategieerforschung - Intelligenzagent SEA: "Entwickeln Sie neue Tricks" aus historischen Erfolgsfällen

Der SEA ist ein auf einer Large Language Model (LLM) basierender Erforschungszagent, der die "erfolgreichen Fälle" in der Strategiememoriebank nutzt, um neue Strategien zu generieren, damit die Strategiebank nicht in einer einzigen Routine verharrt und immer starrer wird.

c) Strategiememoriebank SMB: Speichern Sie jede erfolgreiche "Kampfaufzeichnung"

Die SMB ist nicht einfach ein Logbuch, sondern eine strukturierte Sammlung von erfolgreichen Erfahrungen, die Informationen wie "welches Bild verwendet wurde, welche Bearbeitungsanweisungen gegeben wurden, welche Videohinweise verwendet wurden und welche Strategie angewandt wurde" aufzeichnet, um als Referenz für die nachfolgende Strategieerforschung und taktische Generierung zu dienen.

Taktischer Berater: Multimodales taktisches Planungselement (MTPU)

Übersetzen Sie die "Strategie" in "intermodale kooperative Anweisungen"

Wenn das SACU entscheidet, "welchen Kampf zu führen", ist das MTPU für die Frage "wie man ihn führt" verantwortlich. Nachdem das SCA eine Strategie vorgegeben hat, analysiert das MTPU das eingegebene Bild - Text - Paar und generiert kooperative taktische Anweisungspaare (Textseite + Bildseite), um sicherzustellen, dass die beiden Modi nicht unabhängig voneinander agieren, sondern zusammenarbeiten.

Noch wichtiger ist: Das MTPU schreibt nicht jedes Mal von Grund auf neue taktische Anweisungen. Es verfügt über einen gedächtnisgestützten Suchmechanismus: Zuerst sucht es in der SMB die top - K erfolgreichen Erfahrungen, die der aktuellen Eingabe am ähnlichsten sind. Wenn es in der Vergangenheit "gleiche Strategien" in erfolgreichen Fällen gibt, werden diese erfolgreichen Hinweise zur Generierung von Anweisungen, die besser auf die aktuelle Stichprobe zugeschnitten sind, herangezogen. Andernfalls werden die Anweisungen vollständig neu generiert.

Ausführungsorgan: Taktisches Handlungselement (TAU)

Das TAU ist das "handlungsbewusste" Modul und besteht aus zwei Teilen: Ausführungsorgan und Sicherheitsbewertungssystem.

Attack Executor (Ausführungsorgan): Bearbeitet das Referenzbild iterativ gemäß den auf der Bildseite generierten taktischen Anweisungen des MTPU, um ein aktualisiertes Bild zu erhalten.

Safety Evaluator (Bewertungssystem): Führt eine Sicherheitsbewertung des generierten Videos durch. Wenn der Angriff erfolgreich ist, wird die erfolgreiche Aufzeichnung in die SMB zurückgeschrieben, um als "wiederverwendbare Erfahrung" für die nächste Strategieevolution / taktische Generierung zu dienen.

Geschlossener Evolutionskreislauf: Lernen aus Misserfolgen

Das interessanteste an diesem System ist, dass diese drei Einheiten einen dynamischen geschlossenen Kreislauf bilden: Das Ausführungsergebnis des TAU (egal, ob erfolgreich oder nicht) wird an das SACU zurückgemeldet. Wenn der Angriff erfolgreich ist, wird diese Erfahrung in die Memoriebank geschrieben und dient als Nährboden für zukünftige Angriffe. Wenn der Angriff fehlschlägt, passt der RL - Algorithmus die Strategiegewichtung an.

Dieser Mechanismus von "Generierung - Ausführung - Rückmeldung - Evolution" macht RunawayEvil zu einem immer lernenden und immer stärker werdenden Gegner, der vollkommen die Beschränkungen bestehender statischer Angriffsframeworks bricht.

Experimentelle Ergebnisse

Für die Jailbreak - Experimente des RunawayEvil - Frameworks wurden zwei Datensätze ausgewählt: COCO2017 (5.000 Trainingsstichproben, 200 Teststichproben) und MM - SafetyBench (5.040 interszenarische Bild - Text - Paare). Vier führende Open - Source - I2V - Modelle (Open - Sora 2.0, CogVideoX - 5bI2V, Wan2.2 - TI2V - 5B, Dynamicrafter) wurden als Angriffsziele gewählt. Drei Sicherheitsbewertungssysteme (Qwen - VL, LLaVA - Next, Gemma - 3 - VL) wurden verwendet, um die Bewertung umfassender und zuverlässiger zu gestalten. In Bezug auf Schlüsselindikatoren wie die Angriffserfolgsrate (ASR) hat RunawayEvil die traditionellen einmodalen Jailbreak - Methoden effektiv übertroffen.

Überlegene Gesamtangriffseffektivität: Auf dem COCO2017 - Datensatz erreichte die maximale ASR der traditionellen Methoden weniger als 50% (z. B. 47,0% von PGJ auf CogVideo - LLaVA), der niedrigste Wert lag bei nur 6,5% (Sneaky auf DynamiCrafter - Gemma). RunawayEvil belegte hingegen in allen 24 Testeinstellungen den ersten Platz und führte kontinuierlich alle Vergleichsmethoden an, was die starke Generalisierungsfähigkeit des Frameworks in verschiedenen Risikoszenarien bestätigt.

Überlegene Ergebnisse in den visuellen Experimenten: Die Ergebnisse der visuellen Experimente zeigen, dass RunawayEvil im Vergleich zu traditionellen einmodalen Jailbreak - Methoden die intermodalen Abwehrmechanismen von Bild - zu - Video - Modellen effektiv überwinden kann und erfolgreich Jailbreak - Angriffe durchführen kann, um toxischere NSFW - Videos zu generieren.