Wir haben drei Hochschulprofessoren getroffen und über die immer gravierender werdenden AI-Halluzinationen gesprochen.
In letzter Zeit ist im Internet ein Skandal um künstliche Intelligenz (KI) aufgetaucht, der durch Halluzinationen ausgelöst wurde.
Am 2. Juli tauchten plötzlich im Internet zahlreiche Artikel über die angebliche Entschuldigung von DeepSeek gegenüber Wang Yibo wegen einer verletzenden Assoziation in einem KI-Modell auf. Es stellte sich jedoch heraus, dass DeepSeek in einem Dialog eine fiktive Geschichte erfunden und sogar ein Urteil zitiert hatte, das auf der chinesischen Gerichtsentscheidungsdatenbank nicht auffindbar war.
Dieser Skandal ist auf Halluzinationen zurückzuführen, die DeepSeek während des Dialogs mit Benutzern erzeugt hat. Aus diesem Grund ist es laut der Redaktion von Zhiwei wichtig, die zunehmende Halluzinationsrate von großen KI-Modellen zu untersuchen.
Vor kurzem hat das OpenAI o3-Modell ebenfalls wegen einer erhöhten Halluzinationsrate (statt einer Verringerung) breite Aufmerksamkeit erregt.
Das OpenAI o3-Modell macht viele erstaunliche Fehler. Beispielsweise erfindet es Code, der nie existiert hat, verwendet in der Codierungseinstellung ungültige Nicht-ASCII-Trennzeichen und gibt sogar vor, Tools zu verwenden.
Im PersonQA-Benchmark tritt in 33 % der Fragen und Antworten bei o3 eine Halluzination auf, fast doppelt so viel wie bei o1 (16 %). Die Halluzinationsrate von o4-mini liegt sogar bei 48 %, weit höher als bei den zuvor veröffentlichten Inferenzmodellen.
Ähnliche Muster sind auch bei anderen kürzlich veröffentlichten Deep-Thinking-Modellen zu beobachten: Je stärker die Inferenzfähigkeit, desto höher die Halluzinationsrate.
Der Wissenschaftler Nathan Lambert vom Allen Institute for Artificial Intelligence hat in einem Artikel die Inferenzhalluzinationen von o3 kommentiert und festgestellt, dass das Problem auf eine Überoptimierung durch RL (Reinforcement Learning, Stärkendes Lernen) zurückzuführen ist.
Als Beispiel für das Phänomen des "Reward Hacking" hat Nathan Lambert ein Szenario beschrieben, in dem in einer MuJoCo-Umgebung ein Gepard trainiert wurde, schnell zu laufen. Am Ende erreichte der Gepard die maximale Vorwärtsgeschwindigkeit durch Handspringe statt durch Laufbewegungen. Ähnlich verhält es sich bei o3: Das Vorgeben, Tools zu verwenden, könnte daran liegen, dass o3 während des Trainings belohnt wird, wenn es erfolgreich Tools aufruft.
Bei Inferenzmodellen äußert sich dies darin, dass die Antwort zwar richtig ist, aber der Inferenzprozess falsch oder nicht logisch mit der Antwort verbunden ist. (Dies ist eine neuere Art von Halluzination, die sich von den faktischen Halluzinationen im Fall der angeblichen Entschuldigung von DeepSeek gegenüber Wang Yibo unterscheidet.)
Ein Team der Stanford University [1] hat die Art dieser merkwürdigen Verhaltensweisen zusammengefasst, darunter das Überspringen wichtiger Zwischenschritte, das Einsetzen spezieller Werte zur Vermutung allgemeiner Regeln, grobe numerische Annäherungen, unvollständige logische Ableitungen und sogar die Nichtverwendung echter mathematischer Sprache. Das Forschungsteam hat durch eine systematische Bewertung auch festgestellt, dass die Richtigkeit der Endantwort von Grok3 mini 71,5 % beträgt, während die Richtigkeit des Inferenzprozesses nur 6,0 % liegt.
Zhang Weinan, Professor an der Fakultät für Informatik der Shanghai Jiao Tong University, Doktorvater und stellvertretender Dekan (Hauptforschungsschwerpunkte: Stärkendes Lernen, Entscheidungsgroßmodelle usw.), hat Zhiwei mitgeteilt: "Die Aussage, dass die Halluzinationen von o3 auf eine Überoptimierung durch Stärkendes Lernen zurückzuführen sind, zeigt eigentlich, dass der Mensch nicht weiß, was er will."
"Die Entwicklung bis zu diesem Punkt ist eigentlich normal. Stärkendes Lernen kann die Leistung von Großmodellen bei bestimmten Aufgaben (z. B. Mathematik und Programmierung) verbessern. Nachdem diese Fähigkeiten verbessert wurden, beginnen die Menschen sich über die Halluzinationsprobleme Sorgen zu machen und finden, dass die vom Großmodell ausgegebenen Äußerungen unnormal sind. Ähnliche Situationen treten auch in anderen Anwendungsbereichen des Stärkenden Lernens auf. Beispielsweise wird zunächst ein Roboter trainiert, schnell zu gehen, aber später wird ihm vorgeworfen, dass er nicht schön geht."
Hao Jianye, Professor an der Fakultät für Künstliche Intelligenz der Tianjin University und Direktor des Noah Decision Reasoning Lab von Huawei (Hauptforschungsschwerpunkte: Tiefes Stärkendes Lernen, Mehr-Agentensysteme usw.), stimmt ebenfalls zu, dass das Problem auf das Stärkende Lernen zurückzuführen ist. Er sagte Zhiwei: "Das Lernparadigma des Stärkenden Lernens basiert hauptsächlich darauf, ob das Endergebnis richtig ist. Der Inferenzprozess eines Großmodells, insbesondere bei mathematischen Aufgaben mit mehreren Schritten, ist ein sehr langer Entscheidungsprozess mit mehreren Schritten. Wenn aber beim Stärkenden Lernen (z. B. GRPO, einem Stärkenden Lernalgorithmus) nur am Ende eine Belohnung gegeben wird, kann es dazu führen, dass das Modell zwar das richtige Endergebnis lernt, aber der mittlere Inferenzprozess falsch ist. Das Modell kann möglicherweise fehlerhafte, aber effiziente Strategien entwickeln, was die sogenannte 'Halluzinations'-Phänomen erklärt."
"Insgesamt befindet sich die Verwendung von Stärkendem Lernen zur Training von Großmodellen für langsame Denkprozesse noch in einem relativ frühen Stadium. Im Wesentlichen werden noch relativ standardisierte Stärkende Lernmethoden verwendet. Insbesondere die Online-Trainingsmethoden, einschließlich GRPO, sind nur Varianten von PPO und unterscheiden sich im Wesentlichen nicht von PPO."
Wang Jun, Professor an der Fakultät für Informatik der University College London (Hauptforschungsschwerpunkte: Stärkendes Lernen, Mehr-Agentensysteme usw.), hat eingehende experimentelle Studien durchgeführt. Er sagte Zhiwei: "Die derzeit gängigen Stärkenden Lernmethoden wie GRPO oder Methoden, die das Modell dazu anregen, vor der Ausgabe des Ergebnisses zu denken, haben viele Probleme. Eines der Probleme ist, dass der Denkprozess des Modells nicht regularisiert oder strukturiert ist, was dazu führt, dass sein sogenannter Denkprozess möglicherweise nicht der menschlichen Logik entspricht."
"Genauer gesagt haben wir Modelle wie DeepSeek R1 im AIME-Benchmark getestet und sowohl die fehlerhaften als auch die richtigen Fälle aller mathematischen Schwierigkeiten in AIME analysiert. Wir haben festgestellt, dass, wenn das Modell versucht, die Belohnung zu maximieren und die Regelmäßigkeit des Denkprozesses ignoriert, die Logik seiner Inferenz möglicherweise nicht richtig ist und es viele Wiederholungen oder Redundanzen gibt, aber es dennoch das richtige Ergebnis liefern kann. Dieses Phänomen kann als Abkürzung verstanden werden."
"Ich bin in dieser Hinsicht ziemlich enttäuscht. Deshalb haben keine der vorgeschlagenen Stärkenden Lernalgorithmen wie GRPO das eigentliche Problem erfasst."
"Menschen versuchen auch, die Grenzen von Algorithmen wie GRPO zu überwinden. Beispielsweise haben wir eine Methode, bei der wir annehmen, dass x die Eingabe und y die Ausgabe ist. Wir ermöglichen es dem Modell, bei bekannter x und gegebenem vorherigem y, x rückwärts abzuleiten. Durch ein solches Training kann das Modell seine Ausgabefähigkeit kontinuierlich verbessern, was für das Stärkende Lernen von großem Nutzen ist."
"Derzeit wird nicht genug auf die Regularisierung des Denkprozesses geachtet. Wir befassen uns mit diesem Thema, weil in den meisten Online-Stärkenden Lern-Trainings der Denkprozess (Inferenz) keine richtige Antwort hat. Da es keine Tatsachen gibt, die dem Modell sagen, wie der Denkprozess sein sollte, ist er im Wesentlichen implizit. Wenn nur am Ende des Ergebnisses eine Belohnung gegeben wird, kann der implizite mittlere Prozess, wenn er nicht regularisiert wird, alles mögliche sein."
"Aus einem anderen Blickwinkel ist es egal, ob die Denkpfade in Token-Form (im Output enthalten) oder in latenter Form (nicht im Output enthalten) vorliegen. Es sind nur verschiedene Methoden. Die latente Form ist möglicherweise effizienter oder schneller und eignet sich besser für Aufgaben mit Echtzeitanforderungen, hat aber eine geringe Interpretierbarkeit. Natürlich kann auch eine gemischte Methode verwendet werden: Beim Training wird die explizite Token-Form verwendet, aber bei der Ausführung kann die latente Form verwendet werden, wenn die Ausgabe dieser Token nicht erforderlich ist. Es ist auch möglich, Informationen auf latente Weise zwischen einem Großmodell und einem Kleinmodell zu übertragen."
"Natürlich ist es möglicherweise nicht ganz korrekt und etwas irreführend, dieses Phänomen als Halluzination zu bezeichnen." Die bisher diskutierten Halluzinationen von Großsprachenmodellen waren hauptsächlich faktische Fehler, die auf die Wahrscheinlichkeit der KI-Generierung zurückzuführen sind. Der Inferenzprozess der KI unterscheidet sich von dem des Menschen, aber das Ergebnis ist richtig. Dies ist einfach das Ergebnis einer mangelnden Einschränkung des mittleren Prozesses durch die Belohnungseinstellungen von Algorithmen wie GRPO.
Professor Zhang Weinan erklärte weiter: "Die Daten, die bei der Ausbildung solcher Inferenzmodelle verwendet werden, enthalten möglicherweise bereits einen beträchtlichen Teil von CoT-Daten (Chain of Thought, Denkpfad), die von einem Großmodell (oder einem Agenten) durch die Interaktion mit der Umgebung im Rahmen des Stärkenden Lernens gewonnen wurden. Das bedeutet, dass die Interaktionsdaten selbst aus dem Nichts generiert wurden und nicht vollständig aus menschlichen Daten stammen."
"Diese CoT-Daten werden normalerweise überprüft, d. h. ein Prüfer bestimmt, ob der Denkprozess tatsächlich zur Erfüllung der Aufgabe geführt hat. Erst dann wird dieser Denkpfad als Trainingsdaten verwendet."
"Allerdings interessiert es die Menschen nicht, ob der konkrete Prozess dieser Denkpfade in Bezug auf Satzbau, Grammatik und natürliche Sprache standardmäßig oder elegant ist. Dies führt zwangsläufig zu einer gewissen Verschiebung der Fähigkeit des trainierten Großsprachenmodells, 'menschliche Sprache' zu sprechen." Allerdings hat es in Bezug auf die Fähigkeit, professionelle Aufgaben wie mathematische Probleme, Planung und Entscheidungen zu lösen, insgesamt an Stärke gewonnen.
"Auf tieferer Ebene geht es um die 'Belohnungsfunktion', die Kernkomponente des Stärkenden Lernens. Tatsächlich weiß der Mensch derzeit noch nicht, wie eine richtige und perfekte Belohnungsfunktion gestaltet werden sollte. Der tiefere Grund dafür ist, dass der Mensch nicht weiß, was er wirklich will."
Professor Hao Jianye betonte ebenfalls: "Das Design einer angemessenen Belohnungsfunktion ist der wichtigste und zugleich schwierigste Aspekt des Stärkenden Lernens."
Belohnungsmodelle können in Ergebnis-Level (ORM) und Prozess-Level (PRM) unterteilt werden. ORM führt dazu, dass das Modell möglicherweise über einen falschen Inferenzpfad zum richtigen Ergebnis kommt. Deshalb ist es notwendig, PRM einzuführen, um den Inferenzprozess zu überwachen. Allerdings ist die Implementierung der PRM-Methode selbst schwierig, beispielsweise aufgrund der hohen Kosten für das Sammeln von Trainingsdaten.
"Es geht nicht nur um die hohen Datenkosten. Die Definition des mittleren Prozesses in PRM ist an sich sehr schwierig. Eine Lösungsmöglichkeit besteht darin, die Belohnung für den mittleren Prozess manuell oder halbautomatisch besser zu definieren, um das Modell zu leiten und die Halluzinationsprobleme im mittleren Inferenzprozess so weit wie möglich zu reduzieren."
"Außerdem kann man sich an Techniken aus dem früheren Stärkenden Lernen orientieren, beispielsweise wie die Belohnung verteilt wird - d. h. wie die endgültige Belohnung auf jeden einzelnen Schritt des mittleren Prozesses angemessen verteilt werden kann, um so genauere Belohnungswerte für den mittleren Prozess zu gestalten."
Als Zhang Weinan Professor von Zhiwei gefragt wurde, wie sich die Entwicklung der Belohnungsfunktionsgestaltung in den letzten zwei Jahren darstellt, antwortete er ehrlich: "Es gab keine nennenswerten Fortschritte."
Warum ist die Gestaltung der Belohnungsfunktion so schwierig? Dies liegt daran, dass ein Großmodell als Agent, um kontinuierlich zu verbessern und möglicherweise den Menschen zu übertreffen, mit immer komplexeren Umgebungen interagieren muss.
Professor Zhang Weinan erklärte: "Die Anwendung des Stärkenden Lernens auf Großmodelle hat dazu geführt, dass die Grenze zwischen Großmodellen und Agenten immer verschwimmer wird. Beispielsweise ist OpenAI's DeepResearch ebenfalls ein Modell. In der Vorabtrainingsphase wird vollständig die Methode des nächsten Token verwendet, um direkt Befehle zum Aufrufen von Tools auszugeben (ein Tool-Token wird aus dem Nichts generiert, das einem aufrufbaren API entspricht). Es ist überhaupt nicht erforderlich, wie ein Agent aus einem Prompt ein Tool auszuwählen."
"Früher war es ein ausführbares Framework, das es einem Agentenmodell ermöglichte, mit der Umgebung zu interagieren. Seine Aufgabe war es, die von der Umgebung gegebenen Wahrnehmungssignale in Sprach-Token umzuwandeln, die ein Großsprachenmodell verstehen kann. Die vom Großsprachenmodell ausgegebenen Token konnten wiederum in Steuerbefehle für die Umgebung umgewandelt werden. Dies war aber nur eine Schicht des Frameworks. Jetzt kann das Agentenmodell selbst diese Aufgabe übernehmen. Das Problem besteht jedoch darin, dass man alle mit diesen Aufgaben zusammenhängenden Daten bereits während des Vorabtrainings in das Großsprachenmodell eingeben muss."
"Allerdings gibt es tausende Arten von Aufgaben, die unendlich sind. Es ist unmöglich, dass bei jedem Training für jede Aufgabe die passenden Daten gewonnen werden können, die für die Erfüllung dieser Aufgabe geeignet sind. Dann kann man das Großsprachenmodell nicht mit der Methode der nächsten Token-Entscheidung einheitlich trainieren."
"Deshalb besteht immer ein Kompromiss zwischen den Hauptaufgaben und den Randaufgaben oder den vielen, aber engen Aufgaben. Beispielsweise konzentriert sich DeepResearch auf einige professionelle Aufgaben wie Recherche, wissenschaftliche Forschung, Marktstudien, Mathematik und Programmierung. Aber die Voraussetzung ist, dass man diese Aufgabenarten bereits während der Trainingsphase auswählen muss. Wenn ich plötzlich eines Tages das Großmodell verwenden möchte, um ein Gericht zu bestellen, kann es dies möglicherweise nicht tun, weil es die API für das Bestellen von Essen überhaupt nicht kennt."
"Um die Generalisierungsfähigkeit des Inferenzmodells zu verbessern, ist es notwendig, die Interaktion von außen zu stärken. In der Zukunft müssen sowohl Agenten als auch Großmodelle mit einer dynamischen Umgebung interagieren, um Daten zu generieren, die den Menschen übertreffen. Einerseits müssen die Daten in Bezug auf die Menge die gesamten von Menschen gesammelten Textdaten übertreffen, andererseits müssen sie in Bezug auf die Datenleistung die Menschen übertreffen."
"Wenn es immer nur den Menschen imitieren kann, beispielsweise wie der Mensch Texte schreibt, kann es höchstens in Bezug auf die Fähigkeit, Zusammenhänge zu verstehen, den Menschen übertreffen." Tatsächlich hat das Großsprachenmodell bereits in Bezug auf die Fähigkeit, Zusammenhänge zu verstehen, den Menschen übertroffen.
"Wenn seine Entwicklungsmöglichkeiten von der 'Lehrkraft'" (d. h. dem Menschen selbst) eingeschränkt werden, hat es nur begrenzten Wachstumsraum. Beispielsweise musste AlphaGo durch die Interaktion mit der Umgebung Daten für die Erfüllung der Aufgabe generieren und seine Parameter auf der Grundlage dieser Daten anpassen, um tatsächlich stärkere Fähigkeiten als der Mensch zu entwickeln. AlphaGo konnte sich durch Selbstspiel verbessern, weil die Umgebung relativ einfach war und eine frühere Version als Gegner verwendet werden konnte. Aber jetzt muss der Agent mit dem gesamten