StartseiteArtikel

Warum sagt GPT-5 nicht mehr "Unsinn"? Ein neues Papier von OpenAI erklärt es ausführlich.

36氪的朋友们2025-09-09 16:25
OpenAI greift ein und findet den Trick, um Halluzinationen zu reduzieren

Nach der Veröffentlichung von GPT-5 konnte es zwar nicht die von der Branche erwartete „Sprung“-Performance erreichen, aber das Aufsehen erregendste ist die deutliche Abnahme der Halluzinationsrate.

Die von OpenAI veröffentlichten Daten zeigen, dass die Wahrscheinlichkeit, dass GPT-5 Tatsachenfehler macht, etwa 45 % niedriger ist als bei GPT-4o und etwa 80 % niedriger als bei OpenAI o3.

Der Grund für diese Verbesserung wurde jedoch bisher nicht veröffentlicht. In der System Card schreibt OpenAI dies der Training durch verstärkte Lernmethoden zu. Sie scheinen einige neueste Trainingsmethoden angewandt zu haben, um die Modelle dazu zu bringen, „ihren Denkprozess zu verbessern, verschiedene Strategien zu versuchen und ihre Fehler zu erkennen“. Die genauen Methoden bleiben jedoch weiterhin ein Rätsel.

Am 4. September veröffentlichte OpenAI nach langer Pause eine Studie mit dem Titel „Warum haben Sprachmodelle Halluzinationen“ (Why Language Models Hallucinate).

Obwohl OpenAI nicht alle technischen Details vollständig veröffentlicht hat, können wir anhand dieser offiziellen Studie und der bereits veröffentlichten technischen Dokumentationen einen Einblick in seinen Kerngedanken erhalten.

01 Die Entstehung von Halluzinationen ist während der Vorhersagephase unvermeidlich

Die Tatsache, dass Halluzinationen unvermeidlich sind, ist keine neue Erkenntnis. Bisherige Studien haben jedoch im Wesentlichen selten vom Mechanismus des Sprachmodells selbst ausgegangen, sondern sich eher um die Probleme der Trainingsdaten bemüht.

Die neue Studie von OpenAI zeigt von Anfang an: „Halluzinationen“ sind ein vorhersehbares Nebenprodukt, das zwangsläufig bei der statistischen Lernweise von LLMs entsteht.

Die Argumentationslogik von OpenAI ist einfach: Die Generierung zuverlässiger Informationen ist schwieriger als die Beurteilung ihrer Zuverlässigkeit, und die Beurteilung der Zuverlässigkeit birgt zwangsläufig Fehlerquellen.

Zunächst definiert die Studie die intrinsische „Urteilsfähigkeit“ des Sprachmodells anhand seiner autoregressiven Vorhersageeigenschaft.

Beim Bewerten eines Satzes multipliziert das Modell die bedingten Wahrscheinlichkeiten jedes Schrittes miteinander, indem es Wort für Wort vorhersagt, und erhält so einen Gesamtwahrscheinlichkeitswert. Dieser Wert spiegelt die Übereinstimmung des Satzes mit den statistischen Mustern wider, die das Modell aus einer großen Datenmenge gelernt hat. Basierend darauf schlagen die Forscher einen theoretischen „Gültigkeitsurteiler“ (Is-It-Valid, IIV) vor: Wenn die interne Wahrscheinlichkeit eines Satzes über einem bestimmten Schwellenwert liegt, wird er als „gültig“ bewertet, andernfalls als „ungültig“.

Einfach ausgedrückt, ist das vom Modell generierte Statement „gültig“, wenn es „vertraut und flüssig“ klingt, andernfalls nicht.

Allerdings ist dieser theoretische „Urteiler“ nicht immer zuverlässig. Bei der Verarbeitung von grauen Informationen, die „unbekannt, aber irgendwo schon gesehen“ wirken, wird er zwangsläufig fehlurteilen. Die Studie listet verschiedene Szenarien auf, die zu fehlerhaften Urteilen führen können, darunter: Das Modell kann aufgrund von spärlichen Daten (z. B. einzelnen Tatsachen) nur raten; das Modell ist nicht in der Lage, komplexe Konzepte zu verstehen; sowie komplexe Berechnungen, Verschiebungen in der Datenverteilung und Fehler in den Trainingsdaten (Schrott rein, Schrott raus).

Was die Konsequenzen dieser unvermeidlichen „Fehlurteile“ sind, liefert die Studie in einer strengen mathematischen Formel: (Fehlerrate des Generierungsmodells) ≥ 2 × (Fehlerrate des IIV-Urteilers).

Die Wurzel dieser Verstärkungseffekte liegt darin, dass Fehler bei der Beurteilung zwangsläufig zu zwei oder mehr Halluzinationen führen. Nehmen wir zum Beispiel 1+1. Wenn das Modell es fälschlicherweise als 3 ausrechnet, entstehen mindestens zwei Halluzinationen: eine ist 1+1=3, die andere ist 1+1≠2. Beide stammen aus dem gleichen fehlerhaften Urteil.

Somit ist die Schlussfolgerung klar: Solange die Trainingsdaten unvermeidlich lange Schwänze, spärliche und verrauschte Teile enthalten, wird das Modell bei der Beurteilung zwangsläufig versagen. Jeder Fehler, den das Modell bei der Beurteilung macht, wird verstärkt und auf die Generierungsaufgabe übertragen. Daher sind Halluzinationen bei der Generierung ebenfalls unvermeidlich.

Für Menschen sind Halluzinationen ebenfalls weitgehend unvermeidlich. Wir haben auch viele Dinge, bei denen wir uns nicht sicher sind, aber es gibt das Sprichwort „Was man weiß, das weiß man, was man nicht weiß, das weiß man nicht“. Bei unsicheren Dingen können wir uns entscheiden, dass wir es nicht wissen.

Für Modelle sollte der Anpassungsprozess eigentlich ein Prozess sein, in dem sie gelehrt werden, „Was man nicht weiß, das weiß man nicht“. Dies kann beispielsweise durch die Erhöhung des Schwellenwerts ihres internen „Gültigkeitsurteilers“ ähnlich wie IIV oder die Hervorhebung der wahrscheinlichen Antworten erreicht werden.

Der zweite Teil der OpenAI-Studie zeigt jedoch, dass die Nachbearbeitung in der gegenwärtigen Bewertungssystematik nicht in der Lage ist, diese Aufgabe effektiv zu erfüllen.

02 Die Nachbearbeitung hat die Halluzinationen nicht effektiv unterdrückt

Die Nachbearbeitung ist nicht völlig wirkungslos. In der Studie führt OpenAI das Konzept der Kalibrierung ein.

In einem vortrainierten Modell entspricht die Wahrscheinlichkeitsverteilung eines Wortes tatsächlich vollständig den Trainingsdaten, was bedeutet, dass sein Vertrauensgrad im Wesentlichen die tatsächlichen Verhältnisse in den Trainingsdaten widerspiegelt. Um das Minimum der Verlustfunktion zu erreichen, wird das Modell während des Vorhersageprozesses automatisch kalibriert.

Dies führt jedoch auch zu einem Plateaueffekt, d. h. das Modell hat ein hohes Vertrauen in viele Optionen, die alle den Schwellenwert des IIV-Urteilers überschreiten können, was leicht zu Halluzinationen führt.

Der Eingriff des Nachbearbeitungsprozesses ändert diese flache Wahrscheinlichkeitslandschaft durch klare Präferenzrückmeldungen (z. B. Menschen bevorzugen Antwort A gegenüber B, C, D) zwangsweise.

Dies führt zu einer „Nicht-Kalibrierung“ des Modells, wodurch die Wahrscheinlichkeitsverteilung konzentrierter wird. Das Modell wird dazu gebracht, den Großteil der Wahrscheinlichkeiten auf die als „beste“ angesehene Antwort zu konzentrieren, wodurch ein steiler Gipfel entsteht. Gleichzeitig wird die Wahrscheinlichkeit anderer einstmals plausibler Optionen (z. B. B, C, D) stark unterdrückt und liegt weit unter dem IIV-Schwellenwert.

Auf diese Weise muss das Modell nicht mehr zwischen mehreren schwachen Optionen raten, da es eindeutig weiß, welche „Bergspitze“ es wählen soll. Wenn diese Bergspitze die richtige Antwort ist, schafft es das Modell, die durch Unsicherheit verursachten Halluzinationen zu überwinden, und die Halluzinationsrate sinkt.

Allerdings ist diese „Nicht-Kalibrierung“ eine zweischneidige Klinge. Während sie die Halluzinationen durch „Raten aufgrund von Unsicherheit“ reduziert, kann sie auch das Risiko von „Übermut“ erhöhen.

Ein Schwerpunkt der Nachbearbeitung besteht darin, dieses Übermaß an Selbstvertrauen zu verringern, damit das Modell sagen kann, „Ich weiß es nicht“.

Die meisten gängigen Bewertungsmaßstäbe, die zur Messung der Fähigkeiten von KI-Modellen verwendet werden, wie GPQA3, MMLU-Pro und SWE-bench, verwenden allgemein ein „Binärbewertungssystem“. In diesen Benchmarks wird die Antwort einfach als „richtig“ (1 Punkt) oder „falsch“ (0 Punkte) bewertet.

Dieses Bewertungssystem bringt ein ernsthaftes Problem mit sich: Es bestraft systematisch Unsicherheit. Wenn das Modell einer Frage, bei der es sich nicht sicher ist, begegnet und sich entscheidet, ehrlich zu antworten, dass es es nicht weiß (IDK) oder die Antwort zu verweigern, erhält es 0 Punkte. Dies entspricht genau dem Punktwert einer falschen „beste Schätzung“-Antwort. In diesem Regelwerk ist es eine „dumme“ Strategie, die Antwort zu verweigern, während das grundlos „Aufblasen“ stattdessen eine rationale Wahl zur Erzielung höherer Punktzahlen wird.

Daher ist es in der gegenwärtigen Modelltrainingsphase, um in den Benchmarks die Konkurrenz zu schlagen und seine eigene Stärke zu demonstrieren, eher müßig, das Modell dazu zu bringen, ehrlich zu antworten, dass es es nicht weiß.

Somit ist der Nachbearbeitungsprozess technisch gesehen effektiv bei der Beseitigung von Halluzinationen im Modell, wird jedoch in der Praxis nicht richtig geführt. Die gegenwärtigen Branchenbewertungsstandards belohnen systematisch das Entstehen von Halluzinationen. Solange sich dieses Bewertungsmodell, das Ehrlichkeit bestraft und Raten belohnt, nicht ändert, wird das Problem der Halluzinationen weiterhin ein hartnäckiger Hindernis für die Verbesserung der Zuverlässigkeit von KI-Systemen bleiben.

03 Die möglichen Halluzinationsbekämpfungsmethoden von GPT-5 und die Schwächen von DeepSeek R1

Obwohl der Artikel nicht wirklich in die Details des Nachbearbeitungsprozesses geht, um dieses Problem zu erklären, sondern nur die binäre Benchmark kritisiert, ist seine Schlussfolgerung dennoch plausibel, wenn man sie auf den RL-Bereich anwendet.

Die Folgerung ist: Wenn ein Prozess der verstärkten Lernweise (RL) ebenfalls einen binären Belohnungspfad verwendet, ist es sehr wahrscheinlich, dass die Fähigkeit des Modells, Halluzinationen zu unterdrücken, verringert wird.

Das Herzstück der verstärkten Lernweise besteht darin, dass ein „Belohnungsmodell“ (Reward Model) das Verhalten des Sprachmodells steuert. Das Sprachmodell generiert eine Antwort, das Belohnungsmodell bewertet diese Antwort, und das Sprachmodell passt seine Strategie entsprechend der Punktzahl an, um in Zukunft höhere Punktzahlen zu erhalten.

Wenn das Belohnungsmodell eine extreme binäre Bewertung (z. B. „Gute Antwort“ +1/„Schlechte Antwort“ -1) verwendet, können die folgenden Probleme auftreten:

● Faktenfehlerantworten erhalten -1 Punkt.

● Ehrliche, aber unhilfreiche Antworten erhalten ebenfalls -1 Punkt.

Dies reproduziert die Mängel der Benchmark in der Studie: Ein RL-Prozess mit einem binären Belohnungspfad wird das Modell dazu ermutigen, „Aufblasen“ zu betreiben. Es wird nicht das Modell dazu bringen, seine Unsicherheit zu kalibrieren, sondern stattdessen die Ausdrucksweise von Unsicherheit bestrafen.

Derzeit gibt es zwei gängige Belohnungsmodelle.

Eines ist das ORM (Ergebnisbelohnungsmodell), das im Wesentlichen dem oben angenommenen Fall entspricht. Nehmen wir als Beispiel DeepSeekR1, das ORM verwendet. Sein Belohnungsmodell besteht aus zwei Pfaden: einer, ob die endgültige Antwort richtig ist, und der andere, ob das Format richtig ist. Dies ist ein extrem binärer Pfad. Solange die endgültige Antwort richtig ist, erhält sie eine hohe Punktzahl.

Eine solche Nachbearbeitung mit einem stärkeren binären Pfad kann möglicherweise die „zögerlichen“ Halluzinationen reduzieren, aber die „hartnäckigen“ oder „übermütigen“ Halluzinationen erhöhen. Da diese übermütigen Halluzinationen hartnäckiger sind, kann dies möglicherweise die Gesamt-Halluzinationsrate erhöhen.

Das könnte der Grund sein, warum DeepSeekR1 nach seiner Veröffentlichung mit großen Halluzinationsproblemen konfrontiert war. In der Vectara HHEM-Halluzinationsprüfung erreichte es eine Halluzinationsrate von 3,9 %, weit höher als das vortrainierte Modell DeepSeekV3.

Das Modell, das PRM (Prozessbelohnungsmodell) verwendet, wie OpenAI o3 aus der gleichen Zeit, hat dagegen nur eine Halluzinationsrate von 6,8 %, weniger als die Hälfte von DeepSeek R1.

Dies liegt daran, dass PRM die „Denkweise“ des Modells (z. B. Chain-of-Thought) überprüft und bei der Entdeckung einer Schlussfolgerung, die auf einer erfundenen