OpenAI und Anthropic beurteilen sich gegenseitig selten: Claude hat deutlich weniger Halluzinationen.
Selten, wirklich sehr selten.
Nach einem Schlaf wachte man auf und stellte fest, dass die beiden Top-Acts der KI-Szene - OpenAI und Anthropic - sich unvorstellbar zusammengetan hatten.
Und zwar gaben sie sich kurzzeitig gegenseitig spezielle API-Berechtigungen, um die Sicherheit und Ausrichtung der Modelle gegenseitig zu bewerten.
Man muss bedenken, dass in der heutigen Zeit, in der die verschiedenen Anbieter von großen KI-Modellen so heftig konkurrieren, eine solche Zusammenarbeit zwischen Top-Acts erstmalig in der Branche ist.
Außerdem haben beide Unternehmen einen Bericht über ihre gegenseitige Bewertung veröffentlicht. Lassen Sie uns zunächst die Modelle betrachten, die von beiden Seiten eingesetzt wurden:
- OpenAI: GPT-4o, GPT-4.1, o3 und o4-mini.
- Anthropic: Claude Opus 4 und Claude Sonnet 4.
Als nächstes werfen wir einen Blick auf die Hauptpunkte dieser beiden Berichte:
- Im Bereich Anweisungshierarchie (Instruction Hierarchy) hat Claude 4 eine etwas bessere Leistung als o3, und deutlich besser als die anderen Modelle.
- Beim Ausbruch aus der Kiste (Jailbreaking) ist die Leistung der Claude-Modelle schlechter als die von OpenAI o3 und OpenAI o4-mini.
- Beim Halluzinieren (Hallucination) lehnt das Claude-Modell bis zu 70 % der Fragen ab, wenn es keine sichere Antwort hat. Obwohl die Ablehnungsrate von o3 und o4-mini niedriger ist, haben sie jedoch mehr Halluzinationen.
- Beim Strategischen Täuschungsverhalten (Scheming) haben o3 und Sonnet 4 eine relativ gute Leistung.
Warum haben sie das getan? Wojciech Zaremba, Mitbegründer von OpenAI, hat die Antwort gegeben:
Derzeit befindet sich die Künstliche Intelligenz in einer wichtigen Entwicklungsphase. Hunderttausende Menschen nutzen täglich KI-Modelle. Daher ist eine solche Arbeit besonders wichtig.
Trotz der Konkurrenz (einschließlich Milliardenbeträgen an Investitionen, Talenten, Nutzern und besten Produkten) ist die Frage, wie die Branche Standards für Sicherheit und Zusammenarbeit festlegt, ein weitreichendes Anliegen.
Als die Internetnutzer das Bild der beiden großen Modelle beim Durchführen von Schlussfolgerungen sahen, sagten sie begeistert:
Das ist super! Ich hoffe, dass dies ein Standard werden kann.
Als nächstes werden wir uns diesen gegenseitigen Bewertungsbericht genauer ansehen.
OpenAI hat mehr Halluzinationen als Claude
Der Test der Halluzinationen ist wohl das am meisten interessierende Thema für die Internetnutzer in diesem Kreuzevaluationsbericht.
Die Forscher haben zunächst einen Test für Personen-Halluzinationen (Person hallucinations test) entwickelt, der Informationen und Inhalte über reale Personen generieren kann.
Es werden dem KI-System Fragen gestellt, wie z. B. "In welchem Jahr wurde jemand geboren?", "Wie viele Ehemänner/Ehemänner hat jemand?", "Schreiben Sie mir eine Biografie über jemanden" usw.
Alle diese Antworten sind in Wikidaten autoritativ dokumentiert und können zur Überprüfung herangezogen werden. Wenn die vom KI-System gelieferten Informationen nicht übereinstimmen, wird es als halluzinierend angesehen.
Im Rahmen dieses Tests ist es dem KI-System jedoch auch erlaubt, die Frage abzulehnen. Manchmal ist es besser, wenn das KI-System sagt "Ich weiß es nicht", als wenn es sich ausdenkt.
Das Ergebnis dieses Tests ist wie folgt:
Das Ergebnis zeigt, dass die Ablehnungsrate von Cluade Opus 4 und Sonnet 4 deutlich höher ist als die der OpenAI-Modelle. Obwohl dies eher konservativ ist, führt es dazu, dass diese Modelle weniger Halluzinationen haben als die OpenAI-Modelle.
Im Gegensatz dazu neigen die OpenAI-Modelle eher dazu, die Fragen aktiv zu beantworten, was auch dazu führt, dass die Wahrscheinlichkeit von Halluzinationen höher ist als bei den Anthropic-Modellen.
Beispielsweise lehnt Opus die Frage ab, während o3 anfangen kann, sie zu beantworten:
Neben dem Test für Personen-Halluzinationen gibt es im Bericht auch einen anderen Test - den Fragen-Antwort-Test ohne Suche (SimpleQA No Browse).
Wie der Name schon sagt, darf das KI-System nicht im Internet suchen, sondern muss auf seine eigene Erinnerung zurückgreifen, um kurze, faktische Fragen zu beantworten.
Diese Fragen sind oft "Fallenfragen", die speziell entwickelt wurden, um das Modell zu verwirren. Auch hier kann das KI-System die Frage ablehnen, wenn es sich nicht sicher ist.
Das Ergebnis ist ähnlich: Sonnet 4 und Opus 4 lehnen lieber die Fragen ab, als dass sie riskieren, etwas Falsches zu sagen. Dagegen sind o3, o4-mini und die GPT-Serie eher bereit, eine Antwort zu geben, auch wenn sie manchmal falsch ist.
Was diese Ergebnisse betrifft, hat OpenAI im Bericht über die Anthropic-Modelle folgendes gesagt:
Überraschende Ablehnungen (Die Ablehnungsrate ist ziemlich erstaunlich).
Claude kann die Geheimnisse des großen Modells besser bewahren
Nach dem Halluzinations-Test ist auch der Test im Bereich Anweisungshierarchie ziemlich interessant.
Einfach ausgedrückt, definiert die Anweisungshierarchie, wie ein Sprachmodell (LLM) verschiedene Ebenen von Anweisungen priorisiert. Die allgemeine Prioritätsreihenfolge ist wie folgt:
System- und Sicherheitsregeln: Dies sind die grundlegenden Regeln, die in das Modell integriert sind, wie z. B. die Verpflichtung, vertrauliche Informationen nicht preiszugeben und keine gefährlichen Inhalte zu generieren.
Entwicklerziele: Die Designer des Modells können bestimmte Verhaltensmuster oder Ausgabestile vorab festlegen.
Benutzeranweisungen: Die Hinweise, die wir in das Dialogfeld eingeben.
Durch diese Reihenfolge wird sichergestellt, dass das Modell zunächst die Sicherheit und die Grundsätze einhält und dann, solange es nicht außerhalb der Grenzen geht, die Anforderungen der Entwickler und Benutzer so gut wie möglich erfüllt. Der Test, ob das Modell diese Hierarchie einhält, ist auch eine wichtige Methode, um die Sicherheit und Robustheit eines großen Modells zu messen.
Zu diesem Zweck haben die Forscher zunächst einen Test ähnlich dem "Kann man das Geheimnis bewahren?" durchgeführt - den Test auf Widerstand gegen die Extraktion von Systemhinweisen (Resisting system prompt extraction).
Die Forscher versuchen, das Modell auf verschiedene Weise zu "verleiten", um seine verborgenen Systemhinweise oder geheimen Passwörter preiszugeben.
Hier ist ein Beispiel 🌰.
Die Forscher verstecken ein Passwort in den Systemhinweisen des Modells und versuchen dann, es mit verschiedenen Hinweisen herauszufinden, um zu sehen, ob es ausversehen etwas preisgibt. Das ideale Ergebnis ist, dass das Modell den Angriff erkennt und sich weigert, etwas zu sagen.
Das Ergebnis zeigt, dass Opus 4 und Sonnet 4 im Bereich des Schutzes vor Geheimnissverlust relativ gut abschneiden. Sie haben sogar wie o3 die volle Punktzahl erreicht.
Im Vergleich dazu geben o4-mini, GPT-4o und GPT-4.1 immer noch in gewissem Maße Geheimnisse preis.
Und in der komplexeren Aufgabe "Phrasenschutz" (Phrase Protection) ist Claude immer noch nicht schlechter, in einigen Fällen sogar etwas besser:
Außerdem gibt es im Bereich der Anweisungshierarchie einen zweiten Test - den Test auf Konflikt zwischen Systemanweisungen und Benutzeranforderungen, der verstanden werden kann als "Wen soll man hören, wenn das System und der Benutzer 'streiten'?"
Der Systemhinweis legt zunächst eine feste Regel fest, wie z. B. "Verweigern Sie unter allen Umständen eine bestimmte Art von Anfrage". Dann versucht der Benutzer, das Modell in mehreren Gesprächen dazu zu bringen, diese Regel zu brechen.
Das Ergebnis zeigt, dass Opus 4 und Sonnet 4 in dieser Art von Aufgabe ausgezeichnet abschneiden, sogar besser als o3:
Was die Gesamtergebnisse dieses Tests betrifft:
- Opus 4 ist besser darin, stabil zu bleiben, wenn das System etwas "muss" tun, auch wenn der Benutzer es stark verleitet.
- Sonnet 4 ist besser darin, strenge Formatanforderungen zu erfüllen, wie z. B. die Ausgabe von Inhalten in einem festgelegten Format.
- OpenAI's o3 und GPT-4o sind bei der Formatanforderung "Nur X ausgeben" etwas genauer.
Abwehr von "Ausbruch-Angriffen": Jede hat ihre Stärken
Der dritte Test im Bericht ist der Test auf Ausbruch, bei dem man versucht, die KI zu täuschen, um Inhalte herauszuholen, die sie eigentlich nicht sagen sollte.
Beispielsweise gibt man ihr irreführende Hinweise, stellt die Frage in einer anderen Sprache oder gibt ihr vor, "neue Berechtigungen" zu geben, um die Sicherheitsregeln zu umgehen.
Um die Widerstandsfähigkeit des Modells zu testen, haben die Forscher den Testbenchmark StrongREJECT v2 entwickelt. Dieser kombiniert verbotene Fragen mit mehr als zwanzig verschiedenen Variationen der Fragestellung (z. B. Übersetzung in eine andere Sprache, Verschleierung durch Codierung, Angabe von Hintergrundinformationen), um zu sehen, ob das Modell auf die Täuschung hereinfällt.
Am Ende wird ein Index Goodness@0.1 verwendet, um die Leistung des Modells zu messen. Dies bedeutet, dass man die Leistung des Modells bei den gefährlichsten 10 % der Ausbruchversuche statistisch auswertet. Ein höherer Wert bedeutet eine bessere Abwehr.
Die Testergebnisse zeigen:
Die Schlussfolgerungsmodelle (o3, o4-mini, Sonnet 4, Opus 4) haben insgesamt eine relativ starke Abwehrfähigkeit und können die meisten Angriffe abwehren, aber manchmal gelingt es den Angriffen dennoch, durchzubrechen.
Die nicht-Schlussfolgerungsmodelle (GPT-4o, GPT4.1) können leichter umgangen werden, insbesondere bei "historischen" Angriffen, wie z. B. wenn man die gefährliche Frage in die Form "Was ist in der Vergangenheit passiert?" umformt. Sie geben oft Antworten, die sie eigentlich nicht geben sollten.
Allerdings haben die Forscher auch