StartseiteArtikel

AI-Persönlichkeitsspaltung endgültig bewiesen: 300.000 Lebensoder-Todesfragen reißen die "Schamhaube" von OpenAI und Google auf

新智元2025-10-27 08:36
Wie kann man wissenschaftlich Fehler in großen Sprachmodellen finden? Anthropic hat gemeinsam mit Thinking Machines eine neue Studie veröffentlicht. Durch die Gestaltung von 300.000 Szenarien und Grenzbelastungstests haben sie die "Persönlichkeiten" der KI-Systeme von OpenAI, Google und Elon Musk untersucht. Wer ist der Gutmensch? Wer ist der Effizienzfanatiker?

Beweis! Haben große Sprachmodelle (LLMs) auch ihre eigenen "Werte"?

Stellen Sie sich vor, Sie bitten eine KI, einen Geschäftsplan zu erstellen, der sowohl "gewinnbringend" als auch "ethisch vertretbar" sein soll.

Was passiert, wenn diese beiden Ziele in Konflikt geraten? Wird die KI "gespalten"?

Kürzlich hat Anthropic in Zusammenarbeit mit Thinking Machines ein großes Projekt initiiert.

Sie haben über 300.000 solcher "Zweikampf-Szenarien" und Grenzbelastungstests entwickelt, um die stärksten und neuesten großen Sprachmodelle auf dem Markt zu "befragen", darunter die von OpenAI, Google Gemini, Anthropic und Elon Musks xAI.

Studie: https://arxiv.org/pdf/2510.07686

Datenbank: https://huggingface.co/datasets/jifanz/stress_testing_model_spec

Die Ergebnisse zeigen, dass diese KIs nicht nur "perspektivisch" unterschiedlich sind, sondern auch dass ihre "Verhaltensregeln" (d.h. "Modell-Spezifikationen") selbst widersprüchlich und lückenhaft sind!

Heute wollen wir uns diese Studie genauer anschauen und die "Gesichter" der KI-Welt kennenlernen.

Sind die "Modell-Spezifikationen" von KIs zuverlässig?

Die "Modell-Spezifikationen" sind die Verhaltensregeln, denen ein großes Sprachmodell während des Trainings folgen soll.

Einfach ausgedrückt, sind es die "Weltanschauung" und das "Verhaltenskodex" der KI, wie z.B. "Hilfsbereitschaft", "Gutwillige Annahme" und "Sicherheit".

Dies ist die Grundlage für das Training der KI, "gut" zu werden.

In den meisten Fällen folgen die KI-Modelle diesen Anweisungen problemlos.

Außerhalb des automatisierten Trainings leiten die Spezifikationen auch die menschlichen Annotatoren bei der Rückmeldung in der "Reinforcement Learning from Human Feedback" (RLHF).

Aber was passiert, wenn diese Prinzipien in Konflikt geraten?

Diese Regeln stehen in der Realität oft im "Widerspruch". Wie bereits erwähnt, können "Geschäftsinteressen" und "soziale Gerechtigkeit" in Konflikt geraten. Wenn die Spezifikationen nicht klar genug sind, wird das Trainingssignal der KI durcheinander gebracht, und sie muss "raten".

Diese gemischten Signale können die Effektivität des Trainings verringern und dazu führen, dass das Modell bei der Bearbeitung ungelöster Widersprüche unterschiedliche Ansätze verfolgt.

Die von Anthropic und Thinking Machines durchgeführte Studie zeigt, dass die Spezifikationen selbst inhärente Unklarheiten aufweisen können oder dass Szenarien auftreten können, die eine Abwägung zwischen widersprüchlichen Prinzipien erforderlich machen, was dazu führt, dass das Modell völlig unterschiedliche Entscheidungen trifft.

Die Experimente zeigen, dass die großen Unterschiede zwischen den neuesten Modellen eng mit den Spezifikationsproblemen zusammenhängen, was darauf hinweist, dass es wichtige Lücken in den aktuellen Verhaltensregeln gibt.

Das Forschungsteam hat über 300.000 Szenarien erstellt, um diese "Spezifikationslücken" aufzudecken. Diese Szenarien zwingen das Modell, zwischen konkurrierenden Prinzipien zu wählen.

Die Studie zeigt, dass in über 70.000 dieser Szenarien die 12 neuesten Modelle stark unterschiedliche Antworten geben.

Das obige Bild zeigt eine Anfrage, die das Modell dazu zwingt, zwischen "sozialer Gerechtigkeit" und "Geschäftsinteressen" zu wählen.

Die Forscher haben auch festgestellt, dass diese Spezifikationen... naja, schwer zu beschreiben sind.

Mit Hilfe von Belastungstests haben sie einige "Klüfte" in den Spezifikationen entdeckt, was erklärt, warum KIs manchmal so "gespalten" wirken.

Die Forscher haben fünf OpenAI-Modelle herangezogen, um sie die gleichen schwierigen Fragen zu stellen.

Die Ergebnisse zeigen, dass die Wahrscheinlichkeit, dass diese Modelle ihre eigenen "Spezifikationen" brechen, in den Fragen, die zu heftigen Debatten führen, um das 5- bis 13-fache steigt!

Der Autor hat den Prozentsatz der Szenarien gemessen, in denen alle fünf OpenAI-Modelle ihre Modell-Spezifikationen verletzen (häufige Nichteinhaltung). In Szenarien, in denen die Modelle stark unterschiedliche Antworten geben, hat der Autor eine deutlich höhere Häufigkeit von Nichteinhaltung beobachtet.

Die Studie zeigt, dass diese häufigen Nichteinhaltungsfälle in der Regel auf direkte Widersprüche oder interpretatorische Unklarheiten in den Modell-Spezifikationen zurückzuführen sind, was es dem Modell schwer (oder unmöglich) macht, eine Antwort zu finden, die allen Prinzipien entspricht.

Mit Hilfe von Belastungstests hat der Forscher beobachtet, dass viele Szenarien mit hoher Diskrepanz interne Widersprüche in den Spezifikationen aufdecken.

Zum Beispiel steht das Prinzip der "guten Absichten" oft im Widerspruch zu den Sicherheitsbeschränkungen.

Wenn ein Benutzer nach Informationen fragt, die möglicherweise gefährlich sind, aber auch legitimate Forschungsanwendungen haben können, steht das Modell vor einer Herausforderung: Die Befriedigung der Benutzeranfrage kann zu potenziellen Gefahren führen, während die Ablehnung die Annahme guter Absichten verletzt.

Außerhalb der direkten Widersprüche zwischen den Prinzipien haben die Forscher drei Modelle - Claude 4 Sonnet, o3 und Gemini 2.5 Pro - verwendet, um die Einhaltung der Modell-Spezifikationen zu bewerten.

Diese Bewertungsmodelle stimmen nicht überein, was die Übereinstimmung auf einem mittleren Niveau belässt (Fleiss's Kappa-Wert von 0,42, wobei 1 für vollständige Übereinstimmung und 0 für eine Übereinstimmung nicht höher als die Zufallswahrscheinlichkeit steht).

Die Studie zeigt, dass die Diskrepanzen zwischen den Modellen in der Regel auf die subjektive Interpretation der Regeln zurückzuführen sind.

Zum Beispiel hält Gemini 2.5 Pro die folgende Antwort für kompatibel mit den Modell-Spezifikationen und verweist auf das Prinzip des "verantwortlichen Mitarbeiters", das die Ablehnung von Anfragen erlaubt, die es als gegen die Interessen des Benutzers verständlich hält.

Aber Claude Sonnet 4 stimmt nicht überein und hält es für zulässig, dass der Benutzer nur die Umwandlung der bereitgestellten Materialien sucht.

Beispiel für die Diskrepanz zwischen den Bewertern bei der Bewertung der Einhaltung der Spezifikationen für eine gegebene Anfrage und Antwort. Wie der Autor in den obigen Beispielen betont, stammen viele Unterschiede aus den Interpretationsunterschieden zwischen den verschiedenen Bewertern. Diese Interpretationen sind auch für Menschen subjektiv, was darauf hinweist, dass die Modell-Spezifikationen viel Interpretationsspielraum lassen.

Zwingen Belastungstests die großen Modelle in die Enge?

Um die Diskrepanzen zwischen den zwölf neuesten Modellen von Anthropic, OpenAI, Google und xAI zu messen.

Die Forscher haben die neuesten Modelle durch "Wertabwägungen" "belastet".

Interessanterweise konzentriert sich dieser Belastungstest speziell auf die "grauen Zonen" in den KI-Regeln.

Szenarienerstellung

Um die Modell-Eigenschaften systematisch zu bewerten, haben die Forscher aus ihrer Datenbank von über 3.000 Werten zufällig 150.000 Paare von Werten ausgewählt und ein großes Sprachmodell (LLM) aufgefordert, Benutzeranfragen zu generieren, die diese Wertpaare abwägen müssen.

Die Forscher haben festgestellt, dass die ursprünglichen Abwägungsszenarien in der Regel relativ neutral formuliert sind und das Antwortmodell nicht in die Extreme treiben.

Um die Bearbeitungsschwierigkeit des Antwortmodells zu erhöhen, haben das Forschungsteam eine "Wert-Voreingenommenheit" (value biasing) angewandt, um Varianten zu erstellen, die eher einem bestimmten Wert zugeneigt sind.

Durch diesen Prozess hat sich die Anzahl der Anfragen verdreifacht. Da viele Generierungsversuche sensible Themen betreffen, lehnen die Modelle die Antworten ab, anstatt nutzbare Szenarien zu generieren. Nach der Filterung der abgelehnten Antworten und unvollständigen Generierungen enthält der endgültige Datensatz über 410.000 Szenarien.

Zweitens haben die Forscher beobachtet, dass verschiedene Generierungsmodelle unterschiedliche Anfragestile erzeugen und in ihren am häufigsten generierten Szenarien unterschiedliche thematische Vorurteile aufweisen.

Um die Vielfalt weiter zu erhöhen, haben sie daher drei verschiedene Modelle für die Generierung verwendet: Claude 4 Opus, Claude 3.7 Sonnet und o3, wobei jedes Modell etwa ein Drittel der Anfragen generiert.

Schließlich haben die Forscher festgestellt, dass die "reasoning-based models" (modelle basierend auf logischem Denken) in Bezug auf Schwierigkeit und Einhaltung der ursprünglichen Werte signifikant höhere Qualität der Anfragen generieren können.

Deshalb haben die Forscher alle Generierungsprozesse mit der "extended thinking" -Fähigkeit des Claude-Modells und dem "reasoning-based" o3-Modell durchgeführt.

Basierend auf der Vielfalt der generierten Szenarien haben die Forscher eine Analyse der Szenarienvielfalt basierend auf "text embeddings" durchgeführt.

Sie haben eine Teilmenge von 300.000 generierten Szenarien identifiziert, in der selbst die ähnlichsten Anfragepaare unterschiedliche Modellantwortverhaltensweisen auslösen. Innerhalb dieser Teilmenge betreffen mindestens 150.000 Anfragen entweder völlig unterschiedliche Themen oder stellen unterschiedliche Ansichten zu ähnlichen Themen dar.

Auswahl der Szenarien basierend auf Diskrepanz und Thema

Um die Szenarien zu identifizieren, die die Mängel in den Modell-Spezifikationen aufdecken können, haben die Forscher mehrere Auswahlkriterien auf den generierten Datensatz angewendet.

Das Team hat die Diskrepanz der Antworten der neuesten großen Sprachmodelle bei der Beantwortung der generierten Anfragen gemessen.

Die Bewertung beginnt mit der Generierung von Antworten für jede Anfrage aus 12 neuesten Modellen, darunter: fünf Claude-Modelle (Claude 4 Opus, Claude 4 Sonnet, Claude 3.7 Sonnet, Claude 3.5 Sonnet und Claude 3 Opus), fünf OpenAI-Modelle (GPT 4.1, GPT 4.1 mini, GPT 4o, o3 und o4 mini), Gemini 2.5 Pro und Grok 4.

Es ist bemerkenswert, dass viele der generierten Anfragen signifikant unterschiedliche Antworten von diesen neuesten Modellen auslösen.

Die Studie zeigt, dass eine höhere Diskrepanz in der Regel mit Problemen in den Modell-Spezifikationen zusammenhängt, insbesondere zwischen Modellen, die die gleichen Spezifikationen teilen.

Dieses Verfahren ist als "Ungewissheitsmaß" (uncertainty measure) mit der "Query-by-Committee-Theorie" verbunden.

Zum Beispiel zeigt die Diskrepanz zwischen den OpenAI-Modellen (die alle trainiert wurden, den OpenAI-Modell-Spezifikationen zu folgen) Szenarien auf, in denen das Modell Unsicherheit zeigt, was darauf hinweist, dass die Modell-Spezifikationen möglicherweise unklare Trainingssignale liefern.

Um die Diskrepanz zu quantifizieren, haben die Forscher die Präferenzstärke der Modelle für jeden Wert in den generierten Wertpaaren basierend auf den Modellantworten klassifiziert.

Das Team hat eine zweistufige Methode angewandt, einschließlich automatischer Rubrikgenerierung, gefolgt von einem automatischen Übereinstimmungsprozess, um die endgültigen Wertpunkte zu erhalten.

Zuerst wird Claude 4 Opus aufgefordert, ein "Spektrum von Antwortstrategien" für eine gegebene Anfrage und ihre beiden Startwerte zu generieren.

Dieses Spektrum reicht von der extremen Präferenz für einen Wert (6 Punkte) bis zur extremen Ablehnung (0 Punkte) und umfasst auch mittlere Strategien (1-5 Punkte).

Anschließend wird dieses Spektrum als Bewertungsmaßstab verwendet, um die Antworten aller 12 Modelle zu klassifizieren.

Diskrepanz-gewichtete Duplikatentfernung (Disagreement-Weighted Deduplication): Die Auswahl der Teilmenge erfolgt anhand des gewichteten k-Zentrum-Ziels.

Die Modell-Spezifikationen legen besondere Wert