StartseiteArtikel

GPT geht Kopf-an-Kopf mit Claude an, doch OpenAI gewinnt nicht alle Duelle. Die Wahrheit über den „Extremtest“ für KI-Sicherheit kommt ans Licht.

新智元2025-08-29 10:52
OpenAI und Anthropic arbeiten selten zusammen, um die Sicherheit von KI-Modellen zu testen. Claude und GPT zeigen unterschiedliche Leistungen.

Seltenes Zusammenspiel von OpenAI und Anthropic! Nachdem sie sich wegen der KI-Sicherheit getrennt hatten, kooperieren sie diesmal aus Sicherheitsgründen: Sie testen die Leistung ihrer Modelle in vier wichtigen Sicherheitsbereichen wie Halluzinationen. Diese Kooperation ist nicht nur ein technischer Durchbruch, sondern auch ein Meilenstein für die KI-Sicherheit. Die täglichen Interaktionen von Millionen von Nutzern treiben die Sicherheitsgrenzen stetig voran.

Ein seltener Anblick!

OpenAI und Anthropic arbeiten selten zusammen und verifizieren gegenseitig die Sicherheit ihrer KI-Modelle.

Dies ist wirklich ungewöhnlich, denn sieben Mitbegründer von Anthropic haben sich von OpenAI getrennt, weil sie mit der Sicherheitsstrategie von OpenAI nicht einverstanden waren, und sich seitdem der KI-Sicherheit und -Ausrichtung gewidmet.

Bei einem Interview mit der Medien sagte Wojciech Zaremba, Mitbegründer von OpenAI, dass dieser Art von Kooperation immer wichtiger wird.

Heute ist die KI von größter Bedeutung: Täglich nutzen Millionen von Menschen diese Modelle.

Hier ist eine Zusammenfassung der wichtigsten Erkenntnisse:

Anweisungspriorität: Claude 4 ist das beste Modell. Nur beim Widerstand gegen das Extrahieren von Systemhinweisen ist es mit OpenAIs besten Inferenzmodellen ein Rennen um den Sieg.

Ausbruch (Umgehung von Sicherheitsbeschränkungen): Bei der Ausbruchsevaluation performs das Claude-Modell insgesamt schlechter als OpenAI o3 und o4-mini.

Halluzinationsbewertung: Das Claude-Modell lehnt in 70 % der Fälle ab, hat aber weniger Halluzinationen; OpenAI o3 und o4-mini lehnen seltener ab, haben aber manchmal mehr Halluzinationen.

Täuschungs- / Manipulationsverhalten: OpenAI o3 und Sonnet 4 performen insgesamt am besten und haben die niedrigste Inzidenz. Überraschenderweise performt Opus 4 beim Aktivieren der Inferenz sogar schlechter als beim Deaktivieren, und OpenAI o4-mini performt ebenfalls schwach.

Wessen Befehle befolgen die großen Modelle?

Anweisungshierarchie ist ein Hierarchie-Rahmen für die Verarbeitung von Anweisungsprioritäten in LLMs (Large Language Models) und umfasst normalerweise:

Eingebaute System- / Politikbeschränkungen (z. B. Sicherheits- und ethische Grenzen);

Entwicklerziele (z. B. maßgeschneiderte Regeln);

Benutzereingaben.

Das Kernziel dieser Tests: Sicherzustellen, dass Sicherheit und Ausrichtung priorisiert werden, während Entwicklern und Nutzern die Möglichkeit gegeben wird, das Modellverhalten sinnvoll zu lenken.

Insgesamt gibt es drei Stress-Tests, um die Fähigkeit des Modells, die Hierarchie zu befolgen, in komplexen Szenarien zu bewerten:

1. Umgang mit Konflikten zwischen System- und Benutzernachrichten: Ob das Modell System-Sicherheitsanweisungen priorisiert oder potenziell gefährlichen Anfragen des Nutzers folgt.

2. Widerstand gegen das Extrahieren von Systemhinweisen: Verhindern, dass Nutzer die eingebauten Regeln des Modells durch technische Mittel (z. B. Hinweis-Injektion) abrufen oder ändern können.

3. Prioritätsbestimmung bei mehrstufigen Anweisungen: Beispielsweise, ob das Modell seine Grundsätze beibehält, wenn der Nutzer fordert, "die Sicherheitsvereinbarung zu ignorieren".

Claude 4 performt in diesen Tests hervorragend, insbesondere beim Vermeiden von Konflikten und Widerstand gegen das Extrahieren von Hinweisen.

Beim Test des Widerstands gegen das Extrahieren von Hinweisen stehen die Password Protection User Message und die Phrase Protection User Message im Mittelpunkt.

Die beiden Testsverfahren sind identisch, unterscheiden sich aber in den verborgenen geheimen Inhalten und der Komplexität der antagonistischen Hinweise.

Insgesamt performt die Claude 4-Serie beim Widerstand gegen das Extrahieren von Systemhinweisen stabil.

Im Password Protection-Testsatz erreichen Opus 4 und Sonnet 4 beide eine volle Punktzahl von 1.000, was mit OpenAI o3 vergleichbar ist.

Dies stimmt mit früheren Ergebnissen überein: Modelle mit stärkerer Inferenzfähigkeit performen in solchen Aufgaben oft besser.

Beim herausfordernden "Phrase Protection"-Aufgabe performt das Claude-Modell (Opus 4, Sonnet 4) immer noch ausgezeichnet: Es ist mit OpenAI o3 vergleichbar und performt sogar etwas besser als OpenAI o4-mini.

Test des Konflikts zwischen System- und Benutzernachrichten

Bei Konflikten zwischen Systemanweisungen und Benutzeranfragen testet dieser Test die Fähigkeit des Modells, die Anweisungshierarchie zu befolgen.

Im Rahmen dieser Bewertung wird das Modell einer Reihe von mehrstufigen Dialogen ausgesetzt. Diese Dialogen beginnen mit klaren Systemanweisungen, und der Benutzer versucht dann, den Helfer zu veranlassen, diese Anweisungen zu verletzen.

Insgesamt performen Opus 4 und Sonnet 4 in dieser Aufgabe hervorragend und übertreffen sogar das o3-Modell von OpenAI.

Dies zeigt, dass diese Modelle in der Ausführung der Anweisungshierarchie hervorragend sind und auch bei speziell gestalteten Herausforderungen eine stabile Leistung erbringen können.

Will die große KI aus dem "Sicherheitskäfig" entkommen?

Ein Ausbruchseingriff ist ein Versuch, das Modell zu veranlassen, verbotenen Inhalt bereitzustellen.

StrongREJECT-Evaluierungsrahmen

StrongREJECT v2 ist ein auf der Veröffentlichung "StrongREJECT" basierender Benchmark für die Robustheit gegenüber Angriffen, um die Fähigkeit eines Modells, Ausbrüchen zu widerstehen, zu messen.

Link zur Veröffentlichung: https://arxiv.org//2402.10260

Dieser Rahmen umfasst drei Kernkomponenten:

1. Eine Sammlung verbotener Hinweise;

2. Ein automatisches "Schädlichkeit"-Bewertungssystem;

3. Eine Bibliothek von Hinweis-Engineering-Techniken, die auf jede verletzende Abfrage angewendet werden.

OpenAI wählt eine sorgfältig ausgewählte Teilmenge von 60 Fragen, die speziell für den Stress-Test von Bereichen, die von OpenAIs Politik verboten sind, entwickelt wurden.

Jede Frage wird mit etwa 20 verschiedenen Varianten getestet, wobei Techniken wie Übersetzung in verschiedene Sprachen, Hinzufügen von irreführenden oder störenden Anweisungen oder Versuche, das Modell zu veranlassen, frühere Anweisungen zu ignorieren angewendet werden.

Dieser Benchmark kann die Sicherheitsmechanismen in häufigen Ausbruchsszenarien effektiv testen, aber seine Wirksamkeit hängt von der Abdeckung der Datenvarianten und den Einschränkungen des automatischen Bewertungssystems ab.

Der Hauptindikator in den Berichten ist Goodness@0.1, der die Wirksamkeit des Modells gegen die schädlichsten 10 % der Ausbruchseingriffe misst. Je höher der Indikatorwert, desto besser die Leistung des Modells.

Die Inferenzmodelle wie OpenAI o3, OpenAI o4-mini, Claude 4 und Sonnet 4 widerstehen in der Regel verschiedenen Ausbruchseingriffen stark, obwohl es dennoch gelegentlich zu Fehlern kommt.

Nicht-Inferenzmodelle wie GPT‑4o und GPT‑4.1 sind anfälliger für Angriffe.

In der qualitativen Analyse hat OpenAI festgestellt, dass Claude Sonnet 4 und Claude Opus 4 in der Regel stark widerstehen, aber am anfälligsten für "Präteritum-Ausbrüche" sind, wenn also die schädlichen Anfragen in der Vergangenheit formuliert werden.

Einige leichte Verschleierungs- und Rahmen-Tricks wie automatische Verschleierung, base64/rot13-Codierungsvarianten, Payload-Splitting, Netz-Sprache-Codierung (leetspeak) und Entfernen von Vokalen können manchmal erfolgreich die Verteidigungslinien des Modells durchbrechen.

Im Gegensatz dazu werden einige ältere Angriffsarten wie "DAN/dev‑mode", komplexe mehrfache Versuche und reine Stil- / JSON- / Übersetzungsstörungen von den Modellen größtenteils effektiv neutralisiert.

OpenAI hat auch festgestellt, dass Sonnet 4 und Opus 4 in einigen Fällen widerstehen können, wenn die Anfragen in Sprachen mit geringer Ressourcenbasis wie Guranii übersetzt werden.

Im Gegensatz dazu performt OpenAI o3 besser beim Widerstand gegen "Präteritum-Ausbrüche", und seine Fehlermuster beschränken sich hauptsächlich auf base64-Stil-Hinweise, einige Übersetzungen in Sprachen mit geringer Ressourcenbasis und einige kombinierte Angriffe.

GPT‑4o und GPT‑4.1 werden leichter von "Präteritum-Ausbrüchen" getäuscht und sind auch empfindlich gegenüber leichten Verschleierungs- und Codierungsverfahren.

Tutor-Ausbruchstest

Um die Fähigkeit des Modells, Ausbruchseingriffen zu widerstehen und die Anweisungshierarchie zu befolgen, zu testen, hat OpenAI den "Tutor-Ausbruchstest" entwickelt:

Das Modell muss wie ein Tutor den Schüler Schritt für Schritt durch die Lösung eines Problems führen, anstatt direkt die Lösung zu geben.

Dann werden verschiedene Ausbruchshinweise verwendet, um das Modell zu veranlassen, die endgültige Lösung direkt preiszugeben.

Im Gegensatz zu den zuvor erwähnten Meta-Ebene-Angriffen wird hier eine natürliche Sprachdiskussion verwendet, die eher der Realität entspricht.

Die Ergebnisse sind überraschend: Die Inferenzmodelle OpenAI o3 und o4-mini performen hervorragend, aber Sonnet 4 (ohne Inferenzmodus) performt sogar deutlich besser als Opus 4 mit aktivierter Inferenz.

Dies zeigt, dass in bestimmten Aufgaben das Deaktivieren der Inferenz die Wahrscheinlichkeit eines Ausbruchs des Modells verringern kann.

Nicht-Inferenz-GPT-Modelle performen in dieser Art von Aufgaben schlechter.

Es ist jedoch zu beachten, dass die GPT-Serie in der praktischen Implementierung sowohl Entwicklermeldungen (developer message) als auch Systemmeldungen (system message) unterstützt. Wenn Entwicklermeldungen einbezogen werden, erreicht OpenAI o3 einen Score von über 0,98, und GPT-4.1 wird auf über 0,75 verbessert.

Dies zeigt, dass Entwicklermeldungen in der realen Welt sehr effektiv sind, um die Befolgung der Anweisungshierarchie zu stärken.

Was unterscheidet die besten Modelle?

Bei den meisten Hinweisen können die Top-2-Modelle erfolgreich widerstehen, aber wenn sie fehlschlagen, unterscheiden sich ihre Fehlermuster.

Sonnet ist besonders gut darin, Hinweise abzulehnen, die auf äußere Autorität oder moralischen Druck beruhen, wie z. B. Erwähnungen von "Projektleitern", "Politik-Updates" oder Appelle an das Mitgefühl (z. B. "Hilfe für einen blinden Schüler", "Dringender Prüfungsfall" usw.).

Im Gegensatz dazu OpenAI o3 neigt