Bengio hat selbst die CoT-Mythen zerstampft. Die Inferenz von LLMs ist ein Trugschluss, und 25 % der Aufsätze in Top-Konferenzen sind widerlegt worden.
Es stellte sich heraus, dass die Chain-of-Thought (CoT)-Inferenz nur ein Trugschluss war! Die neueste Studie, die von Bengio geleitet wurde, durchschaut das CoT-Mythos - die von uns gesehenen Inferenzschritte sind nicht die echten. Darüber hinaus korrigiert das Large Language Model (LLM) stillschweigend Fehler während der Inferenz, ohne jedoch in der CoT auch nur einen Hinweis darauf zu geben.
Das neue Werk des Turing-Award-Helden Bengio ist online!
Eine Studie, die von mehreren Institutionen wie der Universität Oxford, Google DeepMind und Mila zusammengetragen wurde, weist darauf hin - die Chain-of-Thought ist nicht zwangsläufig interpretierbar.
Diese Ansicht bricht völlig die Vorstellung vieler Menschen:
Obwohl die CoT scheinbar Schritt für Schritt die Antwort gibt, ist dies nicht unbedingt der echte Inferenzprozess.
Link zur Studie: https://www.alphaxiv.org/abs/2025.02
Heißt das also, dass die sogenannte "Chain-of-Thought", die das innere Denken des LLM enthüllen soll, nun auch nicht mehr zuverlässig ist?
In der Studie haben die Forscher die Maske der CoT abgenommen und eine schockierende Wahrheit enthüllt: Die Transparenz der Chain-of-Thought könnte nur eine sorgfältig gewebte Täuschung sein!
Die "Lüge" der Chain-of-Thought wird aufgedeckt
Dennoch haben in der Realität etwa 25 % der neuesten AI-Studien die CoT fälschlicherweise als "interpretierbare Technologie" bezeichnet.
Dieser Begriff wurde erstmals von Jason Wei, einem ehemaligen Forscher bei Google, in einer Studie vorgeschlagen. In kurzer Zeit wurde die CoT weit verbreitet in Inferenzmodellen eingesetzt.
Das größte Merkmal der CoT ist die Fähigkeit zur mehrstufigen Inferenz, die die Genauigkeit des Modells verbessert. Gleichzeitig wird die "schwarze Kiste" des KI-Systems weniger mysteriös.
Aber ist der Denkprozess der CoT wirklich das wahre innere Denken des KI-Systems?
Einige Studien behaupten zuversichtlich, dass die CoT uns den Inferenzprozess der KI offenbaren kann. Die Realität ist jedoch weit davon entfernt.
Insbesondere in Hochrisikobereichen kann diese Fehlvorstellung fatale Folgen haben.
Die Forscher haben festgestellt, dass in Studien, die die CoT verwenden, etwa 38 % der medizinischen AI-Studien, 25 % der juristischen AI-Studien und 63 % der Studien zu selbstfahrenden Autos die CoT blindlings als interpretierbare Methode betrachten.
Was noch beängstigender ist, können eindeutig voreingenommene Prompt-Wörter leicht die Antwort des Modells beeinflussen.
Außerdem werden diese Voreingenommenheiten in den von der KI gegebenen "Inferenzschritten" überhaupt nicht erwähnt.
Die KI kann für voreingenommene Antworten scheinbar plausible Erklärungen ausfindig machen, ohne jedoch die "unsichtbare Hand" dahinter zu enthüllen.
Deshalb kann es sehr gefährlich sein, diesen voreingenommenen Antworten zu vertrauen.
Darüber hinaus korrigiert die KI oft stillschweigend ihre eigenen Fehler während des Inferenzprozesses.
Anscheinend können die von großen Modellen gegebenen Schritte voller Lücken sein, aber es kann dennoch die richtige Antwort durch "unsichtbare Manipulationen" erhalten, die nicht ausdrücklich formuliert werden.
Dies schafft eine Täuschung von Transparenz. Warum tritt dieser Widerspruch auf?
Die Forscher vermuten, dass die einfache CoT den verteilten parallelen Rechenprozess in großen Transformer-Modellen nicht vollständig erfassen kann.
Wie verbirgt die CoT den echten Inferenzprozess?
Immer mehr empirische Studien haben zahlreiche Fälle entdeckt, in denen die Chain-of-Thought des Modells von seinem inneren Inferenzprozess abweicht.
Es ist zu beachten, dass die Treue der CoT-Erklärungen je nach Modellarchitektur und anderen Faktoren variiert, bevor die spezifischen Muster der Untreue untersucht werden.
Die Forscher haben auch vier Schlüsselerkenntnisse zusammengefasst: Voreingenommene Rationalisierung und motivierte Inferenz, stille Fehlerkorrektur (Silent Error Correction), untreue unlogische Abkürzungen (Unfaithful Illogical Shortcuts) und Fülltoken (Filler Tokens).
Jede dieser Erkenntnisse erklärt, wie die CoT den tatsächlichen Entscheidungsfindungsprozess des Modells irrelevant macht oder verbirgt. Hier sind die Schlüsselpunkte der Schlüsselerkenntnisse:
Voreingenommene Rationalisierung und motivierte Inferenz
Turpin und andere Forscher haben die voreingenommene Rationalisierung durch geschicktes Beeinflussen der Modell-Eingabe bewiesen.
Hier ein Beispiel:
Sortieren Sie die Optionen einer Multiple-Choice-Frage in der Eingabe neu, so dass die richtige Option immer an der gleichen Stelle steht (z. B. immer die Option B).
In diesem Fall wählen GPT - 3.5 und Claude 1.0 oft die voreingenommene Option, obwohl ihre CoT - Erklärungen nie erwähnen, dass die Neusortierung der Optionen ein Einflussfaktor ist.
Wenn das Modell auf eine falsche Antwort hinbewegt wird, generieren sie dennoch detaillierte CoT - Erklärungen, um diese falschen Antworten zu rationalisieren.
Das führt zu einer Abnahme der Genauigkeit von bis zu 36 % in einer Reihe von Aufgaben, während die CoT eine irrelevante Inferenztäuschung gibt.
Eine andere Studie hat die voreingenommene Eingabe durch Hinzufügen einer expliziten Antwort (z. B. "Die Antwort ist C") in die Eingabe untersucht und dann das Modell aufgefordert, seine Wahl zu begründen.
Claude 3.7 - Sonnet und DeepSeek - R1 haben die voreingestellte Antwort nur in etwa 25 % bzw. 39 % der Fälle anerkannt.
Diese Ergebnisse zeigen, dass die Chain - of - Thought oft als nachträgliche Rationalisierung (post - hoc rationalisations) fungiert, die die echten kausalen Faktoren ignoriert und eine Täuschung von transparenter Erklärung schafft.
Stille Fehlerkorrektur (Silent Error Correction)
Die Forscher haben festgestellt, dass das Modell in seiner Chain - of - Thought Fehler machen kann und diese dann intern korrigiert, ohne dass die CoT diesen Korrekturprozess widerspiegelt.
Hier ein Beispiel:
In einem CoT - Inferenzprozess kann das Modell die Hypotenuse eines Dreiecks fälschlicherweise als 16 berechnen, während der richtige Wert 13 ist. Dann sagt es jedoch: "Wir addieren die Länge der Hypotenuse 13 zu den anderen beiden Seitenlängen, um den Umfang zu erhalten."
Das Modell erkennt und korrigiert den Fehler intern, aber die CoT - Beschreibung korrigiert oder markiert diesen Fehler nie - es liest sich wie ein zusammenhängender Lösungsprozess.
Diese stillen Fehler zeigen, dass die endgültige Antwort durch Berechnungen außerhalb der beschriebenen Schritte erhalten wird.
Untreue unlogische Abkürzungen (Unfaithful Illogical Shortcuts)
Die Forscher haben angegeben, dass das Modell durch potenzielle Abkürzungen die richtige Antwort erhalten kann, z. B. indem es gespeicherte Muster als Ersatz für die vollständige algorithmische Inferenz verwendet, was die explizite Inferenzkette irrelevant oder falsch macht.
Hier ein typisches Beispiel:
Ein Forscher hat mithilfe von Attributionsdiagrammen (eine Methode, um zu verfolgen, welche Rechenschritte zum endgültigen Output beitragen) festgestellt, dass Claude 3.5 Haiku bei der Lösung einer Aufgabe wie "36 + 59" sowohl Look - up - Tabellen - Merkmale (z. B. für "Addieren von Zahlen in der Nähe von 36 und Zahlen in der Nähe von 60") als auch Additionskennzeichen verwendet.
Interessanterweise berichtet das Modell, wenn es gefragt wird, wie es die Antwort erhalten hat, dass es eine Stelle - für - Stelle - Addition mit Übertrag durchgeführt hat, und ignoriert völlig die Tatsache, dass es die Look - up - Tabelle verwendet hat.
Fülltoken (Filler Tokens)
Eine Studie hat gezeigt, dass in einigen algorithmischen Inferenzaufgaben die Verwendung von Fülltoken - wie "..." oder gelernten "Pause" - Token, die keine semantische Bedeutung für die Aufgabe haben, aber die interne Berechnung des Modells beeinflussen - die Leistung des Modells verbessern kann.
Um es einfacher zu verstehen, hier ein Beispiel:
Die Forscher haben festgestellt, dass die Hinzufügung von lernbaren Pausetoken (als eine Art von Fülltoken) in vielen Aufgaben eine signifikante Leistungssteigerung gebracht hat.
Ähnlich haben die Forscher auch festgestellt, dass die Hinzufügung von Fülltoken es dem Modell ermöglicht, Aufgaben zu lösen, die es zuvor nicht lösen konnte, insbesondere wenn es mit intensiver Überwachung trainiert wird.
Alle diese Schlüsselerkenntnisse erklären, dass die Untreue der CoT eine grundlegende Herausforderung ist, die in verschiedenen Modellarchitekturen und Größen weit verbreitet ist.
Sie wird durch Voreingenommenheit in den Prompt - Wörtern, die Nichtanerkenntnis verborgener Einflüsse und die systematische Fehlerkorrektur in komplexen Inferenzaufgaben verursacht, und die Inzidenz ist ziemlich hoch.
Warum stimmt die CoT - Erklärung nicht mit der internen Berechnung überein?
In den obigen Beispielen haben wir einige Phänomene gesehen, in denen die CoT nicht übereinstimmt. Was sind die Gründe dafür?
Verteilte parallele Berechnung, nicht sequentiell
Studien zur "mechanistischen Interpretierbarkeit" zeigen, dass die Transformer - Architektur möglicherweise die Treue der CoT grundlegend einschränkt.
LLMs, die auf Transformer - Architekturen basieren, verarbeiten normalerweise Informationen in verteilter Weise gleichzeitig durch mehrere Komponenten, anstatt in den sequentiellen Schritten, die die CoT darstellt.
Genau aufgrund dieser Architekturunterschiede gibt es eine inhärente Unstimmigkeit zwischen der Berechnungsmethode des Modells und der sprachlichen Darstellung.
Nehmen wir das einfache mathematische Problem "24÷3 =?" als Beispiel. Was würde ein LLM tun?
Es würde sicher nicht wie ein menschlicher Schüler analysieren, wie oft "3 in 24 passt", oder die Schritte der langen Division aufschreiben.
Stattdessen würden mehrere Attention - Heads im LLM gleichzeitig die Beziehungen zwischen diesen Zahlen verarbeiten.
Es könnte es als eine bekannte Tatsache erkennen, bestätigen, dass es Teil der Multiplikationstabelle von 8 ist, und die Division berechnen - alles dies parallel.
Um einen einfachen und plausiblen Output zu generieren, generiert das LLM normalerweise nur eine solche Beschreibung, um seine Antwort zu rationalisieren, anstatt alle parallelen Pfade auszudrücken, auch wenn diese möglicherweise den endgültigen Output erheblich beeinflussen.
Deshalb ignoriert die CoT normalerweise die Einflussfaktoren und fungiert nur als eine nachträgliche Rationalisierung des verteilten, überlagerten Rechenprozesses des Modells.
Redundante Pfade
Darüber hinaus erreicht das LLM bei der Bearbeitung von Aufgaben oft das gleiche Ergebnis durch mehrere redundante Rechenpfade.
Nehmen wir die Berechnung von √144 als Beispiel. Das Modell könnte gleichzeitig die folgenden Aktionen ausführen:
- Es erkennt es als eine bekannte Tatsache (12×12 = 144).
- Es wendet den Quadratwurzelalgorithmus an.
- Es passt das Muster an ähnliche Aufgaben in den Trainingsdaten an.
Wenn der Schlüsselpunkt "144 = 12×12" aus der CoT - Erklärung "√144 = 12" des Modells entfernt wird, kann das LLM immer noch korrekt 12 ausgeben.
Dies zeigt, dass die Antwort des LLM nicht vollständig von den sprachlichen Erklär