Kann KI wirklich Kopfrechnen lernen? Erstmaliger theoretischer Nachweis der impliziten Gedankenkette mit Beteiligung von Stuart Russell

UC Berkeley hat die Machbarkeit der impliziten Chain-of-Thought mathematisch bewiesen

In den vergangenen 12 Monaten hat die Kosten für die Nutzung von KI-Inferenzmodellen viele Entwickler in Verzweiflung getrieben.

Das "langsam nachdenkende" Modell zeigt bei der Bearbeitung von mathematischen Aufgaben, Code und logischen Rätseln wirklich beeindruckende Leistung. Doch der Preis dafür ist, dass bei jedem Aufruf hunderte oder sogar Tausende von "Denk-Tokens" generiert werden. Diese Tokens sind wie das Papier, auf dem das Modell Schritt für Schritt seine Berechnungen anstellt, bevor es die endgültige Antwort liefert. Diese Zwischenschritte sind sichtbar, aber teuer. Bei einer komplexen mathematischen Aufgabe kann allein der "Denkprozess" mehr als zehnmal so viele Rechenressourcen verbrauchen wie ein normaler Dialog.

Im Denkmodus verbraucht selbst ein einfacher Austausch Tokens.

In letzter Zeit haben einige neue Technologien tatsächlich die Möglichkeit gezeigt, die Inferenzkosten zu senken. Doch unabhängig von der Architekturoptimierung gibt es solange die Zwischenschritte der Denk-Kette (Chain-of-Thought, CoT) noch tokenweise generiert werden, eine grundlegende Untergrenze für die Inferenzverzögerung. Jeder Schritt muss erst nach Abschluss des vorherigen Schrittes beginnen können. Je länger die Denkkette ist, desto länger dauert die Wartezeit.

Dies ist ein strukturelles Problem, kein Engineering-Problem.

Wie wäre es also, wenn das Modell die "Zwischenrechnungen im Kopf" machen könnte und dennoch die durch die explizite Denkkette erreichte Inferenzfähigkeit behalten würde, ohne dabei irgendeine Zwischenschritt auszugeben?

Genau das will die "Implizite Denkkette (Implicit Chain-of-Thought, ICoT)" lösen. Vor einigen Tagen hat ein Forschungsteam aus der UC Berkeley und der Princeton University einen wichtigen Schritt in diese Richtung gemacht. Sie haben nicht nur eine Lösung vorgeschlagen, sondern auch mathematisch streng bewiesen, dass sie funktioniert.

Titel der Studie: Transformers Provably Learn to Internalize Chain-of-Thought

Link zur Studie: https://arxiv.org/abs/2605.28600v1

Die Hauptautoren dieser Studie kommen aus der UC Berkeley und der Princeton University. Der erste Autor ist der Doktorand Yixiao Huang aus Berkeley. Die Betreuungsprofessoren sind Jiantao Jiao, Stuart Russell, Somayeh Sojoudi und Song Mei.

Dieses Team hat in den letzten Jahren eine Reihe von Arbeiten veröffentlicht, in denen es mathematische Methoden zur Analyse des Trainingsmechanismus von Transformern anwendet. Diese Arbeiten reichen von der Entstehung von Aufmerksamkeitsmustern bis hin zur Optimierung der Dynamik bei mehrstufigen Inferenzen. Die aktuelle Studie über ICoT ist ein Versuch, ihre theoretischen Werkzeuge auf das neue Gebiet der "impliziten Inferenz" auszuweiten.

Die Kosten der Denkkette

Um die Bedeutung dieser Studie zu verstehen, muss man zunächst verstehen, warum die Denkkette so teuer ist.

Man kann sich das wie folgt vorstellen: Stellen Sie sich vor, Sie helfen einem Schüler bei der Multiplikation von mehrstelligen Zahlen. Eine Methode besteht darin, dass er jeden Rechenschritt auf Papier schreibt und Zeile für Zeile rechnet: Zuerst die Einer, dann die Zehner und schließlich addiert er die Ergebnisse. Das ist die explizite Denkkette - jedes Zwischenergebnis ist sichtbar und kann daher überprüft und korrigiert werden. Eine andere Methode besteht darin, dass er "im Kopf rechnet" und direkt die endgültige Antwort angibt.

Beide Methoden unterscheiden sich in der Informationsverarbeitung grundlegend. Die erste Methode ist seriell: Jeder Schritt hängt vom Ergebnis des vorherigen Schrittes ab und kann nicht parallel durchgeführt werden. Die zweite Methode hingegen ist anders - wenn das Gehirn alle Zwischenrechnungen auf einmal verarbeiten kann, kann die Antwort fast gleichzeitig ermittelt werden.

Bei großen Sprachmodellen (LLM) spiegelt sich dieser Unterschied direkt in der Inferenzverzögerung und dem Tokenverbrauch wider. Die explizite Denkkette erfordert, dass das Modell jedes Zwischen-Token einzeln generiert. Wenn die Denkkette k Schritte hat, muss das Modell mindestens k zusätzliche Tokens ausgeben, und diese Tokens müssen streng seriell generiert werden. Bei den derzeit besten Inferenzmodellen liegt diese Zahl oft zwischen einigen hundert und einigen tausend.

Die Idee hinter ICoT ist: Kann man das Modell so trainieren, dass es die Zwischenschritte in seinen verborgenen Zustand "verinnerlicht" und bei der endgültigen Inferenz nur die Antwort ausgibt, während die Zwischenschritte vollständig unsichtbar bleiben?

Diese Idee ist an sich nicht neu. Yuntian Deng und andere haben in einer Studie aus dem Jahr 2024 ("From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step") eine Trainingsmethode vorgeschlagen: Zuerst lässt man das Modell lernen, mit einer vollständigen Denkkette zu antworten, und dann "versteckt" man Schritt für Schritt die Zwischen-Tokens, jeweils ein Token weniger, damit das Modell sich allmählich an die Inferenz mit weniger sichtbaren Hinweisen gewöhnt. Diese Methode hat in den Experimenten funktioniert, hat aber einen offensichtlichen Nachteil: Wenn die Denkkette k Schritte hat, benötigt man k - 1 Trainingsstufen, und die Trainingskosten steigen linear mit der Länge der Denkkette.

Das grundlegendere Problem ist: Niemand weiß, warum diese Methode funktioniert. Kann man theoretisch garantieren, dass das von ICoT Gelernte äquivalent zur expliziten CoT ist? Unter welchen Bedingungen kann man dies garantieren? Diese Fragen bleiben offen.

Der Kerninnovation: Neudesign des Trainingsplans mit einer Baumstruktur

Der Kernbeitrag dieser Studie liegt auf zwei Ebenen: Eine neue Trainingsmethode und der erste strenge mathematische Beweis für diese Methode.

Das Experiment der Studie basiert auf dem "k-Paritäts-Problem" (k-parity), einem klassischen Testfeld in der theoretischen Informatik.

Gegeben seien n Bits. Man wählt k Bits aus und muss entscheiden, ob ihr Produkt +1 oder -1 ist. Dieses Problem zeichnet sich dadurch aus, dass es keine Zwischenschritte gibt. Kein Gradientenabstiegsalgorithmus mit endlicher Genauigkeit kann es mit einer polynomiellen Anzahl von Stichproben mit nicht-trivialer Genauigkeit lösen. Doch sobald man eine vollständige Denkkette als Hilfe zur Verfügung stellt, kann selbst ein einschichtiger Transformer es effizient lernen. Dieser Kontrast macht es zu einem idealen Sandkasten für die Untersuchung des Wirkmechanismus von CoT.

Der Schlüsselbefund: Die Struktur der Denkkette ist eigentlich ein Baum.

Die Paritätsüberprüfung von k Bits kann in einen Binärbaum der Tiefe log₂k zerlegt werden. Die Blattknoten sind die ursprünglichen Eingabebits. Jeder innere Knoten berechnet das Produkt seiner beiden Kindknoten, bis man am Wurzelknoten das endgültige Ergebnis erhält. Die Struktur dieses Baumes bestimmt die hierarchische Beziehung der Zwischenschritte: In der ersten Ebene werden die paarweisen Produkte berechnet, in der zweiten Ebene die Produkte der Ergebnisse der ersten Ebene usw.

Die Standard-ICoT-Methode versteckt jeweils nur ein Token und nutzt die Baumstruktur überhaupt nicht. Die in dieser Studie vorgeschlagene "Log-ICoT" versteckt hingegen ganze Ebenen des Baumes auf einmal. Das bedeutet, dass man anstelle von k - 1 Trainingsstufen nur noch log₂k Stufen benötigt. Bei k = 16 bedeutet das eine Reduzierung von 15 auf 4 Stufen.

Dies ist nicht nur eine Verbesserung der Effizienz im Engineering. Wichtiger ist, dass es den Trainingsablauf mit der internen hierarchischen Struktur des Modells ausrichtet - jede Transformer-Schicht ist genau für die Aufnahme einer Ebene der Denkketten-Baumes zuständig.

Vergleichsdiagramm der drei Trainingsansätze: Explizite CoT, Standard-ICoT, Log-ICoT

Theoretischer Beweis: Erstmalig "Verinnerlichung" als Theorem formuliert

Der meilensteinartigste Teil dieser Studie ist der erste strenge Konvergenzbeweis für ICoT.

Der Kerninhalt des Theorems (Theorem 1): Ein L-schichtiger Transformer, der unter dem Log-ICoT-Trainingsplan trainiert wird, benötigt nur eine polynomielle Anzahl (in der Größenordnung von n^(2 + ε)) von Stichproben und log₂k Gradientenschritte, um mit einer Wahrscheinlichkeit nahe 1 bei den Tests aus den reinen Eingabebits direkt das korrekte k-Paritätsergebnis vorherzusagen - mit einer exponentiell kleinen Abweichung.

Dies entspricht der Stichprobenkomplexität der expliziten CoT, erfordert aber bei der Inferenz keine Ausgabe von Zwischen-Tokens.

Der Beweisprozess stößt auf zwei Haupttechnikherausforderungen, die das Team mit zwei verschiedenen Designansätzen überwindet:

Die erste Herausforderung ist die "Darstellungsverkollaps". In einem mehrschichtigen Transformer neigen die Vektorrepräsentationen an verschiedenen Positionen dazu, mit zunehmender Schichtzahl gleichmäßiger zu werden und ihre Unterscheidbarkeit zu verlieren. Dadurch verschwindet auch das Gradientensignal. Das Team hat "Gated Connections" eingeführt: Jede Schicht wird nur an den Positionen aktiviert, die der entsprechenden Ebene des Baumes entsprechen, während die anderen Positionen deaktiviert bleiben. Dadurch wird das Gradientensignal jeder Schicht präzise auf den Teil der Aufgabe konzentriert, den sie bearbeiten soll, und es wird verhindert, dass die Darstellung gemittelt wird.

Die zweite Herausforderung ist die "Fehlerausbreitung". Bei mehrstufigen Trainingsverfahren können kleine Näherungsfehler in den frühen Stufen in den späteren Stufen exponentiell wachsen und schließlich das effektive Signal überdecken. Die Lösung besteht darin, die Aufmerksamkeitsgewichte nach jeder Gradientenaktualisierung zu quantisieren (auf die nächste ganze Zahl runden). Dies scheint eine grobe Operation zu sein, hat aber eine präzise "Sperrwirkung": Bei den bereits trainierten Schichten ist die nachfolgende Gradientenaktualisierung minimal, und die Quantisierung rundet sie direkt auf den ursprünglichen Wert zurück, so dass die Ergebnisse der frühen Trainingsstufen unverändert bleiben.

Schichtweise Aufmerksamkeits-Heatmap nach Abschluss des Trainings eines 4-schichtigen Transformers. Man kann sehen, dass jede Schicht präzise auf die entsprechenden Knotenebenen des Baumes fokussiert ist.

Experiment: 4 Stufen, 100 % Genauigkeit

Der theoretische Beweis muss durch Experimente validiert werden. Das Team hat ein vollständiges Experiment mit n = 30 Eingabebits und k = 16 (d.h. ein 4-schichtiger Transformer und 4 Trainingsstufen) durchgeführt.

Die Trainingsdynamik stimmt gut mit den theoretischen Vorhersagen überein. In der ersten Stufe ist die vollständige Denkkette sichtbar, und der Verlust fällt schnell auf nahezu Null. In jeder darauffolgenden Stufe wird die Hälfte der verbleibenden Denkkettenpositionen durch Nullen ersetzt, und der Verlust zeigt einen kurzen Spitzenwert - dies entspricht genau dem Zeitpunkt, zu dem das Modell beginnt, die neue Ebene der Denkkette "zu verdauen". Der Spitzenwert fällt dann schnell wieder ab, und das Modell adaptiert sich an die neuen Einschränkungen.

Am Ende der vierten Stufe sind alle Denkkettenpositionen mit Nullen gefüllt, und das Modell sieht nur die ursprünglichen Eingabebits. Dennoch erreicht die Genauigkeit auf dem Validierungsset 100 %.

Die Visualisierung der Aufmerksamkeitsgewichte bestätigt weiter die theoretische Analyse: Die erste Schicht richtet ihre Aufmerksamkeit auf die Knotenpaare der ersten Ebene des Baumes (paarweise Eingabebits), die zweite Schicht auf die Knotenpaare der zweiten Ebene usw. Das Modell hat tatsächlich gelernt, jede Ebene der Denkkette in die entsprechende Transformer-Schicht zu "einschreiben", anstatt alle Informationen in einer Schicht durcheinander zu repräsentieren.

Fazit

Der Beitrag dieser Studie besteht zunächst darin, eine theoretische Lücke zu schließen.

ICoT als Praxis hat bereits in mehreren Studien in praktischen Aufgaben (z.B. arithmetischen und logischen Aufgaben) gezeigt, dass es funktioniert. Aber es besteht ein großer Unterschied zwischen "funktioniert" und "warum es funktioniert" sowie "unter welchen Bedingungen es funktioniert". Diese Studie baut erstmals eine Brücke über diese Lücke - sie zeigt mit strenger mathematischer Sprache, dass die implizite Denkkette keine zufällig funktionierende Technik ist, sondern eine unter definierten Bedingungen beweisbare Trainingsmethode.

Dies bedeutet, dass das "stille Nachdenken" von Inferenzmodellen erstmals in mathematischer Hinsicht legitim ist.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Kann KI wirklich Kopfrechnen lernen? Die implizite Kette von Gedanken wurde erstmals theoretisch nachgewiesen, Stuart Russell ist beteiligt

Die Kosten der Denkkette

Der Kerninnovation: Neudesign des Trainingsplans mit einer Baumstruktur

Theoretischer Beweis: Erstmalig "Verinnerlichung" als Theorem formuliert

Experiment: 4 Stufen, 100 % Genauigkeit

Fazit