Die Chain of Thought (CoT) wird erneut in Frage gestellt. Drei starke Beweise belegen, dass echte generalisierbare Inferenz noch weit entfernt ist?
Die Chain-of-Thought (CoT)-Prompting-Technik hat sich als wirksam erwiesen, um die Leistung von Large Language Models (LLMs) in verschiedenen Aufgaben zu verbessern. Wenn diese Methode angewendet wird, scheint das LLM zunächst menschlicheähnliche Schlussfolgerungsschritte (d.h. CoT-Schlussfolgerungen) zu generieren, bevor es die endgültige Antwort gibt. Dies lässt oft den Eindruck entstehen, dass das LLM einen gründlichen Denkprozess durchführt.
Jedoch haben das Team der Arizona State University in einer neuen Studie festgestellt, dass CoT-Schlussfolgerungen in Wirklichkeit ein fragiles Phantom sind und außerhalb des Trainingsdatensatzes versagen.
Mit anderen Worten, die Wirksamkeit von CoT-Schlussfolgerungen beruht nicht auf der logischen Schlussfolgerungsfähigkeit des Modells, sondern auf der Erinnerung und Interpolation von Mustern in den Trainingsdaten. Im Wesentlichen handelt es sich um ein hochstrukturiertes Musterabgleichverfahren, keine echte generalisierbare logische Schlussfolgerung.
Diese Schlussfolgerung hat die Fachleute in der Künstlichen Intelligenz (KI)-Branche dazu gebracht, die Natur von CoT neu zu bewerten.
Link zur Studie: https://arxiv.org/abs/2508.01191
Das Forschungsteam hat erklärt, dass diese Arbeit das Verständnis der Gründe und Bedingungen für das Versagen von CoT-Schlussfolgerungen vertieft und die Herausforderung aufzeigt, echte generalisierbare Schlussfolgerungen zu erreichen.
Warum die Zweifel?
Immer mehr Studien zeigen, dass LLMs eher auf oberflächliche Semantik und Hinweise anstatt auf logische Schlussfolgerungsprozesse vertrauen.
Deshalb stellen sie die CoT-Schlussfolgerungen in Frage, indem sie eine alternative Perspektive auf die Datenverteilung einbringen, und untersuchen weiter, warum und wann sie versagen. Sie haben die CoT-Schlussfolgerungen anhand von drei Dimensionen analysiert: Aufgabe (task), Länge (length) und Format (format).
Abbildung | Perspektive der Datenverteilung. Die Wirksamkeit von CoT-Schlussfolgerungen ist im Wesentlichen durch den Grad der Verteilungsdifferenz zwischen Trainingsdaten und Testabfragen begrenzt.
1. Aufgabenverallgemeinerung
Die Fähigkeit zur Aufgabenverallgemeinerung ist die zentrale Herausforderung für CoT-Schlussfolgerungen. Sie testet direkt die Fähigkeit des Modells, die gelernten Konzepte und Schlussfolgerungsmuster auf unbekannte Szenarien anzuwenden.
Der Test der Aufgabenverallgemeinerung konzentriert sich auf die Anpassungsfähigkeit des Modells an "neue Aufgaben mit neuer Struktur" und umfasst zwei Dimensionen: Transformationsverallgemeinerung (Transformation Generalization) und Elementverallgemeinerung (Element Generalization).
1) Transformationsverallgemeinerung
In den Experimenten zur Transformationsverallgemeinerung haben die Forscher vier Szenarien mit Verteilungsverschiebungen entworfen, die schrittweise von "ID" bis "OOD" ansteigen:
In-Distribution (ID): Die Testaufgabe stimmt genau mit der Trainingsaufgabe überein. Beispielsweise sind sowohl das Training als auch der Test "f1∘f1". In diesem Fall beträgt die exakte Übereinstimmungsrate 100%.
Composition (CMP): Die Testaufgabe ist eine neue Kombination von trainierten Basisoperationen. Beispielsweise werden "f1∘f2" und "f2∘f1" trainiert, und der Test ist "f2∘f2". In diesem Fall sinkt die exakte Übereinstimmungsrate auf 0,01%.
Partial Out-of-Distribution (POOD): Die Testaufgabe enthält mindestens eine nicht trainierte Operation. In diesem Fall fällt die exakte Übereinstimmungsrate auf Null.
Out-of-Distribution (OOD): Die Testaufgabe ist eine völlig neue Operationskombination. Beispielsweise hat der Trainingssatz nur "f1∘f1" gesehen, während der Testsatz "f2∘f2" behandeln muss. In diesem Fall versagt das Modell völlig.
Tabelle | Ganzheitliche Bewertung der Transformationsverallgemeinerungsfähigkeit in verschiedenen Szenarien.
Außerdem kann das LLM, wie in der folgenden Tabelle gezeigt, 0,1% der Fragen von f1∘f2 bis f2∘f2 richtig beantworten. Eine genauere Untersuchung zeigt jedoch, dass dies nur ein Zufall ist, da die Abfrageelemente A, N, A, N zufällig in beiden Operationen dasselbe Ergebnis ergeben.
Nach einer eingehenden Analyse, bei der die vollständige Schlussfolgerungskette in Schlussfolgerungsschritte und Antworten aufgeteilt wurde, hat das Forschungsteam festgestellt, dass es eine hohe Übereinstimmung zwischen den Schlussfolgerungsschritten und den entsprechenden Antworten gibt.
Beispielsweise sind die Schlussfolgerungsschritte in der Kombinationsverallgemeinerungseinstellung auf der Testdatendistribution von f1∘f1 bis f2∘f2 vollständig korrekt, aber die daraus resultierende Antwort ist falsch.
Ähnlich kann das LLM von f1∘f2 auf f2∘f1 verallgemeinern und die richtige Antwort generieren. Dies ist jedoch auf die Vertauschbarkeit zwischen zwei orthogonalen Transformationen zurückzuführen, und der Schlussfolgerungspfad ist nicht zuverlässig.
Tabelle | Bewertung der verschiedenen Komponenten von CoT-Schlussfolgerungen bei der Transformationsverallgemeinerung.
Die obigen Ergebnisse zeigen, dass CoT-Schlussfolgerungen nicht auf neue Transformationen oder sogar auf neue Kombinationen von Transformationen verallgemeinert werden können. Vielmehr scheint die Leistung von CoT-Schlussfolgerungen eher wie eine einfache Reproduktion der im Trainingsprozess erlernten Muster zu sein, als dass das Modell den Text wirklich versteht.
Darüber hinaus hat das Forschungsteam eine überwachte Feineinstellung (SFT) mit einer geringen Anzahl von bisher nicht gesehenen Daten durchgeführt, um zu untersuchen, ob CoT-Schlussfolgerungen auf bisher nicht gesehene Transformationen verallgemeinert werden können. Diese Methode kann die Verteilungsdifferenz zwischen Trainingssatz und Testsatz verringern, was möglicherweise dem LLM hilft, die Testabfragen zu verallgemeinern.
Abbildung | Leistung bei der Behandlung von bisher nicht gesehenen Daten mit SFT unter verschiedenen Verteilungsverschiebungsgraden.
Die Ergebnisse zeigen, dass das Modell mit nur einer sehr geringen Anzahl von Beispielstichproben schnell auf bisher nicht gesehene Transformationsszenarien verallgemeinern kann und die Leistung erheblich verbessert. Dies zeigt, dass LLMs sehr gut darin sind, neue Muster schnell aus den Daten zu lernen, aber auch, dass ihre Fähigkeiten stark von den gesehenen Mustern begrenzt sind.
2) Elementverallgemeinerung
Wenn man versucht, das LLM auf neue Aufgaben zu verallgemeinern, ist die Elementverallgemeinerung ein weiterer Schlüsselfaktor.
Nachdem das Forschungsteam andere Faktoren festgelegt hat, hat es drei Szenarien eingerichtet: ID, CMP und OOD. Im ID-Szenario werden dieselben Buchstaben für die Testelemente wie für die Trainingslemente verwendet. Im CMP-Szenario sind die Testelemente neue Kombinationen aus den Buchstaben, die während des Trainings gesehen wurden. Im OOD-Szenario sind die Testelemente Buchstaben, die während des Trainings nie gesehen wurden.
In Bezug auf die Kombination haben sie getestet, ob CoT-Schlussfolgerungen auf neue Kombinationen verallgemeinert werden können, wenn alle grundlegenden Atome der Elemente beobachtet werden, wie (A, B, C, D) → (B, C, D, A). Basierend auf der Atomreihenfolge in der Kombination kann die CMP weiterentwickelt werden. Bei OOD sind die Atome, aus denen die Elemente bestehen, während des Trainings völlig unbekannt.
Die Ergebnisse zeigen, dass, ähnlich wie bei der Transformationsverallgemeinerung, die Leistung des Modells stark abnimmt, wenn es in allen Transformationen ständig Verteilungsverschiebungen erfährt. Von ID über CMP bis OOD sinkt die exakte Übereinstimmungsrate in allen Fällen schrittweise von 1,00 auf 0.
Abbildung | Ergebnisse der Elementverallgemeinerung in verschiedenen Szenarien und Beziehungen.
Das Team hat weiter untersucht, wann CoT-Schlussfolgerungen auf neue Elemente verallgemeinert werden können, indem sie SFT anwendeten, wie in der folgenden Abbildung gezeigt. Die Ergebnisse zeigen, dass die Leistung schnell verbessert wird, wenn ähnliche Beispiele (kleines n) in den Trainingsdaten auftauchen. Interessanterweise stimmt die exakte Übereinstimmungsrate von CoT-Schlussfolgerungen bei n = 3 mit der Leistungsobergrenze überein. Dies könnte darauf hinweisen, dass die Verallgemeinerungsfähigkeit von CoT-Schlussfolgerungen auf neue Elemente sehr begrenzt ist, auch wenn SFT auf nachgelagerten Aufgaben angewendet wird.
Das Team hat auch festgestellt, dass es beim Training ein Problem mit der Übereinstimmung der Genauigkeit zwischen den Antworten und den Schlussfolgerungsschritten gibt, was möglicherweise teilweise erklärt, warum CoT-Schlussfolgerungen in einigen Fällen inkonsistent sind.
Abbildung | Leistung von SFT bei der Elementverallgemeinerung, die die Verallgemeinerung auf neue Elemente erleichtert.
2. Längenverallgemeinerung
Die Längenverallgemeinerung untersucht, wie die CoT-Schlussfolgerungsfähigkeit des Modells abnimmt, wenn es auf Testfälle trifft, deren Länge von der Trainingsverteilung abweicht.
Die Längendifferenz kann entweder im Textraum oder im Problemlösungsraum liegen. Daher hat das Forschungsteam die Längenverallgemeinerung in zwei komplementäre Dimensionen aufgeteilt: Textlängenverallgemeinerung und Schlussfolgerungsschrittverallgemeinerung.
1) Textlängenverallgemeinerung
Die Textlängenverallgemeinerung zielt darauf ab, zu bewerten, wie sich die Leistung von CoT-Schlussfolgerungen ändert, wenn die Länge des Eingabetexts von den Trainingsbeispielen abweicht. Angesichts der Art und Weise, wie LLMs lange Texte verarbeiten, ist diese Dimension von entscheidender Bedeutung, da reale Probleme in der Regel unterschiedliche Komplexitätsgrade aufweisen, die sich in der Länge der Problemstellung, der Größe des Kontexts oder der Informationsdichte widerspiegeln.
Das Forschungsteam hat das LLM auf einem Datensatz mit einer Textlänge von 4 vorgespeichert, andere Faktoren festgelegt und die Leistung bei verschiedenen Längen bewertet.
Die Experimentergebnisse zeigen, dass das Modell nur auf den Trainingsdaten mit einer Textlänge von 4 hervorragend abschneidet, wobei die exakte Übereinstimmungsrate 100% erreicht. Mit zunehmender Längendifferenz nimmt die Wirksamkeit der CoT-Schlussfolgerungen bei der Längenverallgemeinerung ab, und die exakte Übereinstimmungsrate sinkt auf 0. Dies zeigt, dass LLMs äußerst empfindlich gegenüber statistischen Eigenschaften wie der Eingabelänge sind.
Tabelle | Bewertung der Textlängenverallgemeinerung.
Sie haben auch untersucht, wie verschiedene Auffüllstrategien die Differenz zwischen Trainingsdaten und Testfällen verringern können. Sie haben festgestellt, dass das Auffüllen auf die maxim