Illusionen beseitigen = KI töten? Science enthüllt die "angeborene Todesschwäche" von Large Language Models

Es ist schwierig, die Halluzinationen großer Sprachmodelle zu beseitigen. Geschäftliche Interessen verhindern es, "ich weiß nicht" zu sagen.

Ein neuer Artikel in „Science“ weist darauf hin, dass große Modelle eine angeborene, schwer zu lösende Schwachstelle haben: Halluzinationen sind schwer zu beseitigen. Wenn AI-Hersteller große Modelle dazu bringen, im Zustand der Unsicherheit zu sagen „Ich weiß es nicht“, kann dies zwar dazu beitragen, die Halluzinationen des Modells zu reduzieren, aber es kann auch die Benutzerbindung und -aktivität beeinträchtigen und damit die Geschäftsgrundlage erschüttern.

Am Tag, an dem OpenAI seine Umstrukturierung abgeschlossen und die Beschränkungen für die Börsengänge aufgehoben hat, hat ein beliebter Artikel in „Science“ eine angeborene, tödliche Schwachstelle großer Modelle enthüllt. Diese Schwachstelle führt dazu, dass es für große Modelle schwierig ist, sich vollständig von Halluzinationen zu befreien.

Der Artikel weist darauf hin, dass obwohl OpenAI die lange erwartete Umstrukturierung abgeschlossen hat, immer noch Halluzinationen in seinem Kernprodukt auftreten können .

In der Vergangenheit haben wir diese Halluzinationen hauptsächlich auf die Qualität der Trainingsdaten zurückgeführt, aber diese Erklärung reicht nicht aus.

Letzten Monat haben das Forschungsteam von OpenAI und der Georgia Institute of Technology in einem Preprint-Papier festgestellt:

Genau wie Schüler bei Prüfungen, wenn sie auf schwierige Fragen stoßen, „raten“ können, neigen große Modelle auch dazu, im Zustand der Unsicherheit zu „raten“ und scheinbar sinnvolle, aber tatsächlich falsche Antworten zu generieren, anstatt zuzugeben, dass sie es nicht wissen.

Paper: https://arxiv.org/abs/2509.04664 „Warum haben große Modelle Halluzinationen?“

Warum wählen die Modelldesigner es nicht aus, dass das Modell im Zustand der Unsicherheit sagt „Ich weiß es nicht“, obwohl dies die Halluzinationen deutlich reduzieren würde?

Die Forscher glauben, dass das Problem hauptsächlich in den Trainings- und Bewertungsmechanismen großer Modelle liegt:

Während des Trainings und der Bewertung von großen Modellen wird eher das „Belohnen von Raten“ als das „Ermutigen zur Anerkennung von Unsicherheit“ bevorzugt.

Aber es ist nicht einfach, dies zu ändern.

Wenn große Modelle lernen, zu sagen „Ich weiß es nicht“, könnte dies auch die Geschäftsgrundlage von AI-Herstellern erschüttern.

Zum Beispiel stellen einige Leute die Frage, ob OpenAI wirklich möchte, dass sein eigenes Modell eher auf „Wahrheit“ als auf „Attraktivität“ achtet.

Dies ist eine enorme Herausforderung.

Wenn ChatGPT häufig antwortet „Ich weiß es nicht“, könnten die Benutzer zu den Konkurrenten wechseln.

Warum sind Halluzinationen in großen Modellen so schwer zu beseitigen?

„Wenn man die Halluzinationen vollständig behebt, wird das Produkt getötet.“

Wei Xing, ein AI-Forscher an der Universität von Sheffield, hat in einem Artikel geschrieben, dass OpenAIs „Anti-Halluzinations“-Lösung ChatGPT töten würde.

Die Forscher von OpenAI glauben, dass Halluzinationen nicht mysteriös sind. Sie haben die Fehler analysiert, die in der Vortrainingsphase großer Modelle auftreten können, und festgestellt, dass selbst wenn die Trainingsdaten korrekt sind, das Vortrainingsziel auch dazu führen kann, dass das Modell Fehler macht.

Die Forscher haben weiter festgestellt, dass Halluzinationen in der Folgephase weiterhin auftreten, weil die Bewertungsmethoden des Mainstream-Bewertungssystems es dem Modell ermutigen, wie Schüler bei Prüfungen zu „raten“, anstatt ehrlich seine Unsicherheit auszudrücken.

OpenAI hat die Gründe dafür, dass Halluzinationen schwer zu beseitigen sind, diskutiert und glaubt, dass die Wurzel in der Vortrainingsmethode der „Vorhersage des nächsten Wortes“ liegt: Das Modell lernt, wie es das nächste Wort basierend auf statistischen Regeln vorhersagen kann, indem es eine riesige Menge an Texten studiert.

Aber diese Vorhersage ist wie das Schlucken von Essen ohne zu kauen. Jede Aussage wird nicht durch ein „Wahr/Falsch“-Label optimiert. Wenn es keine Beispiele gibt, die als falsch markiert sind, ist es besonders schwierig, gültige Aussagen von ungültigen Aussagen zu unterscheiden. Deshalb treten Halluzinationen auf.

Nehmen wir die Bilderkennung als Beispiel. Wenn Millionen von Katzen- und Hundebildern als „Katze“ oder „Hund“ markiert werden, kann der Algorithmus zuverlässig klassifizieren.

Aber wenn man die Bilder stattdessen nach dem Geburtstag der Haustiere markiert, wird es wegen der Zufälligkeit der Geburtstage unweigerlich zu Fehlern kommen, unabhängig davon, wie fortschrittlich der Algorithmus ist.

Ähnliche Mechanismen gibt es auch in der Vortrainingsphase von Sprachmodellen.

Zum Beispiel folgen Rechtschreibung und Klammern einem festen Muster, daher verschwinden die Fehler mit zunehmender Größe.

Andererseits können willkürliche, seltene Fakten wie der Geburtstag eines Haustieres nicht nur durch Muster vorhergesagt werden, was daher leicht zu Halluzinationen führt.

OpenAI hat einige Missverständnisse über die „Halluzinationen“ von Modellen geklärt:

Missverständnis: Die Halluzinationen können beseitigt werden, wenn man die Genauigkeit verbessert, denn ein 100%-genaues Modell hat nie Halluzinationen.

Behauptung: Die Genauigkeit kann niemals 100% erreichen, denn unabhängig von der Größe des Modells, seiner Suchfähigkeit oder seiner logischen Fähigkeit gibt es einige reale Fragen, die von Natur aus nicht beantwortet werden können.

Missverständnis: Halluzinationen sind unvermeidlich.

Behauptung: Das stimmt nicht, denn Sprachmodelle können sich im Zustand der Unsicherheit schweigen.

Missverständnis: Um Halluzinationen zu vermeiden, braucht man ein bestimmtes Maß an Intelligenz, das nur durch große Modelle erreicht werden kann.

Behauptung: Kleine Modelle erkennen leichter ihre eigenen Grenzen. Wenn man beispielsweise eine Frage auf Maori stellt, kann ein kleines Modell, das kein Maori versteht, direkt antworten „Ich weiß es nicht“, während ein Modell, das ein Teil von Maori versteht, die Zuversicht seiner Antwort bewerten muss.

Missverständnis: Halluzinationen sind ein mysteriöses Phänomen in modernen Sprachmodellen.

Behauptung: Wir verstehen bereits den statistischen Mechanismus, der zu Halluzinationen führt, und den Belohnungsmechanismus in der Bewertung.

Warum ist es schwierig, dass große Modelle in den Ranglisten „spammen“ zu verhindern?

OpenAI hat in seinem offiziellen Blog, als es über dieses Paper berichtet hat, Halluzinationen als „scheinbar sinnvolle, aber falsche Aussagen“ beschrieben.

Blog: https://openai.com/zh-Hans-CN/index/why-language-models-hallucinate/

Außerdem ist das Auftreten von Halluzinationen unvorhersehbar. Sie können auf überraschende Weise auftreten.

Wenn Sie beispielsweise nach dem Titel eines Papers fragen, wird es Ihnen mit Selbstvertrauen drei verschiedene Antworten geben, aber alle sind falsch.

Adam Kalai, ein OpenAI-Forschungswissenschaftler und Mitautor des Papers, glaubt, dass obwohl wir es nie schaffen werden, 100% genau zu sein, dies nicht bedeutet, dass das Modell Halluzinationen haben muss.

Die Lösung kann in der „Nachtrainings“-Phase liegen. Mit menschlichem Feedback und anderen Feinabstimmungsmethoden kann man das Modell sicherer und genauer machen.

Aber dies führt auch zu dem Phänomen, dass große Modelle in den Ranglisten „spammen“:

Da die Leistung des Modells durch standardisierte Benchmark-Tests bewertet wird und ein hoher Score für Ruhm und kommerziellen Erfolg steht, richten die Unternehmen oft ihr Trainingsziel auf das „Erzielen eines hohen Scores“ aus.

OpenAI glaubt, dass die Halluzinationen weiterhin auftreten, teilweise weil die aktuelle Bewertungsmethode ein falsches Anreizsystem setzt.

Die Forscher haben analysiert, dass neun von den zehn beliebtesten Benchmark-Tests eine binäre Bewertungsmethode verwenden, bei der man 1 Punkt für eine richtige Antwort und 0 Punkte für eine leere oder falsche Antwort bekommt. Nur WildBench hat ein 1–10-Punkte-System.

Obwohl die Antwort „Ich weiß es nicht“ möglicherweise als etwas besser angesehen wird als eine „schwerwiegende Halluzination, die aber sinnvoll aussieht“, wird sie insgesamt immer noch als schlechter als eine „gerade noch akzeptable“ Antwort bewertet.

Dies bedeutet, dass IDK (Ich weiß es nicht) in diesem Benchmark möglicherweise einige Punkte bekommt, aber nicht als die bevorzugte Strategie angesehen wird.

Unter dieser Bewertungsmethode werden Modelle, die gerne „tun, als ob sie es wüssten“, eher hohe Punkte bekommen als Modelle, die vorsichtig antworten „Ich weiß es nicht“, weil die Strafe für „zufälliges Raten“ und „Nicht-Antworten“ gleich ist.

Nehmen wir an, ein großes Modell wird gefragt, wann jemand geboren wurde, aber es weiß die Antwort nicht. Wenn es einfach einen Tag rät, hat es eine 1/365-Chance, richtig zu liegen, während die Antwort „Ich weiß es nicht“ unweigerlich 0 Punkte bringt.

Wenn es Tausende von Testfragen gibt, wird dieses rätende Modell schließlich in der Bewertungsmethode besser abschneiden als das vorsichtige Modell, das seine Unsicherheit anerkennt.

Kalai vermutet, dass dies möglicherweise der Grund ist, warum die Anti-Halluzinations-Lösungen in der Vergangenheit so lange nicht umgesetzt werden konnten.

Warum kann es sein, dass je höher der Genauigkeitsscore ist, desto größer die Halluzinationen sind

Für rein objektive Fragen mit einer einzigen „richtigen Antwort“ teilt OpenAI die Antworten des Modells in drei Kategorien ein: genaue Antworten, falsche Antworten und das Enthalten von Raten.

OpenAI glaubt, dass das „Enthalten von Raten“ Bescheidenheit widerspiegelt und sieht es als eine Kernwerte an.

Was die Genauigkeit betrifft, hat das Vorgängermodell o4-mini eine etwas bessere Leistung, aber seine Fehlerrate (d.h. die Wahrscheinlichkeit, dass Halluzinationen auftreten) ist deutlich höher.

Dies zeigt, dass strategisches Raten im Zustand der Unsicherheit zwar die Genauigkeit verbessern kann, aber auch die Wahrscheinlichkeit von Fehlern und Halluzinationen erhöht.

OpenAI glaubt, dass die Bewertungsmethode, die nur auf Genauigkeit basiert, immer noch das Modellbewertungssystem dominiert und die Entwickler dazu bringt, Modelle zu bauen, die blind raten, anstatt ihre Unsicherheit zu akzeptieren:

„Dies ist der wichtigste Grund, warum Modelle weiterhin Halluzinationen haben, obwohl sie ständig verbessert werden, d.h. sie geben mit Selbstvertrauen falsche Antworten anstatt ihre Unsicherheit zuzugeben.“

Deshalb ruft das Forschungsteam von OpenAI dazu auf, die Bewertungsmethode neu zu gestalten, damit falsches Raten bestraft wird, damit das Modell „durch Niederlagen Bescheidenheit lernt“.

Selbst wohlmeinende Anpassungen können negative Auswirkungen haben

Carlos Jimenez, ein Informatikwissenschaftler an der Princeton University und Schöpfer des SWE-Bench-Benchmarks, glaubt, dass es nicht einfach ist, die Bewertungskriterien zu ändern.

Weil jeder Themenbereich eine eigene Bewertungsmethode hat, „hat jedes Fach seine eigenen Standards, wenn es um die Messung von Unsicherheit oder

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。