AI-Forscher Tian Yuandong: Die Wahrheit hinter dem "AI-Einsichtsmoment" und wie große Modelle die Welt zu komprimieren lernen
Meta-Chef Executive Officer Mark Zuckerberg hat kürzlich einen Entlassungsplan für die AI-Abteilung mit rund 600 Mitarbeitern genehmigt. Dies ist die bisher größte Anpassung von Meta im Bereich Künstliche Intelligenz in diesem Jahr und betrifft hauptsächlich das Kernforschungszentrum des Unternehmens.
Tian Yuandong, der damalige Leiter des Meta FAIR-Teams, hat auf der sozialen Medienplattform X bestätigt: "Ich und einige meiner Teammitglieder sind auch von dieser Entlassung betroffen." Meta FAIR ist einer der Kernpfeiler im Forschungssystem des "Super Intelligence Lab" (MSL). Tian Yuandong's Depart hat auch breite Aufmerksamkeit in der Branche erregt.
Nach der Veröffentlichung dieser Nachricht hat Tian Yuandong erstmals öffentlich aufgetreten und ein exklusives, tiefgehendes Interview mit dem speziellen Autor von Tencent Technology, "Klassensprecher Attention", gegeben.
Angesichts der Zweifel in der Branche hat Tian Yuandong hier eine Klärung und "Rechtfertigung" vorgenommen: Sein Team hat auch zahlreiche Beiträge und wichtige Arbeiten bei der Entwicklung von Meta's Großmodellen geleistet. Die größte Herausforderung, der sie gegenüberstanden, war jedoch nicht die Technologie selbst, sondern die Überzeugung der Produktteams.
Anschließend hat sich das Interview auf Tian Yuandong's jüngste Forschungsergebnisse konzentriert und insbesondere die "Eureka-Erfahrung (Grokking)" in Bezug auf große KI-Modelle diskutiert.
"Grokking", ein Wort, das vom Science-Fiction-Autor Robert Heinlein stammt, bedeutet ein tiefes Verständnis für die Essenz von Dingen. Ein hoher Score eines großen Sprachmodells bedeutet nicht unbedingt Intelligenz. Der echte Wendepunkt ist der Moment, in dem es erstmals lernt, "zu denken".
Im September dieses Jahres hat Tian Yuandong eine unabhängige Studie veröffentlicht, in der er feststellt, dass Grokking kein mysteriöses Phänomen ist, sondern eine berechenbare Dynamik der Energielandschaft (Energy Landscape).
- Titel der Studie: Provable Scaling Laws of Feature Emergence from Learning Dynamics of Grokking
- Link zur Studie: arxiv.org/abs/2509.21519
Tian Yuandong's Forschung hat einen Kernbruch durch in der KI-Lernforschung aufgedeckt: Bei Gruppierungsaufgaben mit einer Aufgabenkomplexität von M (z. B. Wortschatz oder Anzahl von Konzepten) wurde traditionell angenommen, dass das Modell M² Kombinationen abarbeiten muss, um die Regeln zu lernen, und der Datenbedarf steigt quadratisch mit M. Er hat jedoch mit strengen mathematischen Beweisen gezeigt, dass das Modell nur O(M log M) Stichproben benötigt, um zu verallgemeinern - nahezu eine lineare Steigerung. Bei M = 1000 wären bisher Millionen von Stichproben erforderlich gewesen, während die neue Theorie nur etwa 7.000 erfordert.
Dies bedeutet, dass KI nicht wie ein Mensch, der "die Welt gesehen hat", durch brutale Lernmethoden lernen muss, sondern auch aus sehr wenigen Stichproben die tiefe Struktur verstehen kann. Dies bietet eine theoretische Grundlage für effizientes Training in einer Zeit mit begrenztem Datenangebot.
In diesem Interview hat Tian Yuandong die Forschung zu Grokking interpretiert und den Schlüssel zur KI-Lernprozess aufgedeckt: Wie Großmodelle vom "memorierenden Anpassen" zum "strukturierten Verallgemeinern" übergehen.
Außerdem hat Tian Yuandong im Interview angegeben, dass die KI auch einen großen Beitrag zu dieser Studie geleistet hat. Einige Gedanken sind aus Gesprächen mit GPT - 5 entstanden. Tian Yuandong hat ironisch bemerkt: "Das klingt ein bisschen wie Selbstspiel (self - play). Aber im Gespräch muss man ihm einige Einsichten und Gedanken geben, damit er unterschiedliche Ausgaben liefert."
Die Kernaussagen dieses Interviews sind wie folgt:
- Grokking zeigt den mathematischen Mechanismus vom Memorieren zum Verallgemeinern auf. Das Übergehen vom Memorieren zum Verallgemeinern ist kein mysteriöses Phänomen, sondern eine Optimierungsdynamik: Wenn die Daten unzureichend sind, dominiert der "Memorierungsgipfel"; wenn die Daten zunehmen, steigt der "Verallgemeinerungsgipfel". Sobald der Verallgemeinerungsgipfel etwas höher ist, überschreiten die Parameter gemeinsam, und es entsteht das Eureka - Phänomen.
- Repräsentationslernen ist die Grundlage für alle Intelligenzfähigkeiten. Ob es sich um die Kette des Denkens oder um intuitive Urteile handelt, alles hängt letztendlich davon ab, wie das Modell die Welt "repräsentiert" und "versteht". Genau wie die mathematische Induktion die Abarbeitung aller Fälle ersetzt, kommt der echte Sprung von einer Änderung der Repräsentationsweise.
- Die Loss Function (Verlustfunktion) ist nur ein Proxy - Signal für die Optimierung. Ihre Aufgabe ist es, einen geeigneten Gradientenfluss zu erzeugen, um die Repräsentation in die richtige Richtung zu aktualisieren. Wenn verschiedene Verlustfunktionen eine ähnliche Gradientenstruktur induzieren, können sie ähnliche Repräsentationen lernen. Die Zielfunktion an sich ist nicht das Ziel, sondern ein "berechenbarer Proxy" für die Optimierung.
- Der schwarze Kastenansatz (Black - box Scaling) betont die Erhöhung der Parameter und die Anpassung der Konfiguration, was kurzfristig effizient ist; das Verständnis des Mechanismus hingegen strebt nach Erklärung und Struktur und hat langfristig ein höheres Potenzial. Wenn die Datenkapazität erreicht ist und die Stichproben knapp sind, versagt das Scaling Law. Nur Verbesserungen, die auf dem Verständnis des Mechanismus basieren, können die Grenzen überschreiten.
- Das Wesen des Verallgemeinerns besteht darin, dass das Modell lernt, die Welt zu "komprimieren": aus übermäßigen Erinnerungen eine wiederverwendbare Struktur zu extrahieren. Echte Verständnis hat zwei Kriterien: Erstens kann es in neuen Situationen die richtige Antwort geben; zweitens kann es komplexe Probleme in einfache, allgemeingültige Logiken zurückführen. Wenn die Beweise und die induktive Vorstellung (Inductive Bias) einander bis zu einem kritischen Punkt verstärken, überschreitet das Modell den "Gipfel" und tritt in den Zustand des Verallgemeinerns ein.
Im Folgenden finden Sie den vollständigen Interviewtext, der von Tencent Technology ohne Änderung der ursprünglichen Bedeutung präzise zusammengefasst wurde:
01. Klärung nach dem Entlassungsereignis bei Meta: Rechtfertigung für das Team
Klassensprecher Attention: Kürzlich habe ich einige Nachrichten über Sie (Ihr Verlassen von Meta) gelesen.
Tian Yuandong: Ja, jetzt bin ich sozusagen "frei" und kann alles tun, was ich will.
Klassensprecher Attention: Herzlichen Glückwunsch! Ich habe erst beim Vorbereiten dieses Interviews bemerkt, dass Sie bereits zehn Jahre lang bei Meta gearbeitet haben. Wie viele Leute waren es ungefähr, als Sie Meta betraten?
Tian Yuandong: Als ich beigetreten bin, waren es ungefähr über zehntausend.
Klassensprecher Attention: Eigentlich war Meta damals auch kein kleines Unternehmen mehr. Ich denke, es hat 2012 an die Börse gegangen?
Tian Yuandong: Ja, jetzt sind es ungefähr fast 80.000.
Klassensprecher Attention: Wir können in diesem Interview entweder über Ihre Studie sprechen oder auch über Ihre jüngsten Aktivitäten.
Tian Yuandong: Beides geht. Ich bevorzuge es, über die Studie zu sprechen. Der Grund, warum ich kürzlich auf der Plattform X geäußert habe, ist, dass ich Leute gesehen habe, die spekulieren und zweifeln, ob ich keine Ergebnisse erzielt habe, die das Unternehmen erwartet hat. Ich muss hierfür mein Team klarstellen: Mein Team hat viele sehr wichtige Arbeiten geleistet, und man kann die Verantwortung nicht auf uns abwälzen. Dies muss unbedingt klar gestellt werden.
Klassensprecher Attention: Welche Schlüsselrollen hat Ihr Team bei der Entwicklung von Großmodellen genau gespielt?
Tian Yuandong: Unser Team hat zunächst Schlüsselprobleme wie das chunk - Attention in der Vorhersagemodellierung entdeckt und die Umsetzung von Lösungen vorangetrieben, was die Stabilität von long - context RL effektiv verbessert hat. Weitere Beiträge umfassen die Erstellung und Bewertung von Datensätzen, die Konstruktion und Optimierung von RL - Infrastrukturen usw.
Außerdem haben wir auch eingehend mit mehreren Teams auf Unternehmensseite über einige Designprobleme in der Architektur von Großmodellen gesprochen. Es war zunächst schwierig, da sie diese Probleme als nicht schwerwiegend oder gar nicht als Probleme betrachteten.
Obwohl ich damals als Mitglied eines Forschungsteams bei Meta eingestellt wurde und das Team, das sich mit der konkreten Entwicklung von Großmodellen befasst, natürlich eher seiner eigenen Einschätzung vertraut, konnten wir nur durch zahlreiche Experimente unsere Einschätzungen und Erkenntnisse bestätigen. Schließlich hat sich auch tatsächlich gezeigt, dass diese Probleme existieren, und sie haben unsere Schlussfolgerungen endgültig akzeptiert. Dieser gesamte Prozess zeigt eigentlich den wichtigen Wert unseres Teams.
Außerdem haben wir auch viele Probleme bei der Entwicklung von Großmodellen gelöst. Beispielsweise: Wie kann das Training mit langer Kontextlänge (long context length training) stabiler gestaltet werden? Bei diesem Prozess wurde das häufige Problem des "Blow - up" (Trainingseinbruch) gelöst. Obwohl diese technologischen Ergebnisse letztendlich nicht direkt in der offiziellen Version (official release) ersichtlich sind, haben sie sicherlich eine solide Grundlage für die anschließende Modellentwicklung gelegt.
Man kann sagen, dass unser Team eher wie ein "Helden im Hintergrund" agiert, nicht im Rampenlicht steht, aber in kritischen Phasen eine verbindende und fundamentale Rolle spielt.
02. Der Kernwert eines Forschers ist die Einsicht, aber die eigentliche Schwierigkeit besteht darin, andere zu überzeugen
Klassensprecher Attention: Bei den von Ihnen genannten Problemen möchte ich mich zu zwei Aspekten näher informieren:
Erstens: Als Forschungsgruppe wurden Sie nicht vollständig vertraut. Lag das daran, dass Sie keine direkte Erfahrung in der Entwicklung von Großmodellen hatten, oder gab es andere Gründe? Wie waren die Teams, die sich mit Großmodellen befassten, mit denen Sie kommuniziert haben? Hatten sie selbst reiche Erfahrungen in der Entwicklung von Großmodellen?
Zweitens: Warum konnten Sie so schnell Probleme in den Produktfähigkeiten von Großmodellen erkennen?
Tian Yuandong: Sie hatten tatsächlich sehr reiche Erfahrungen insgesamt. Aber in einigen Experimenten gab es Programmierfehler (bugs), und daraus resultierten falsche Einschätzungen. Wir haben zwar nicht direkt an der Entwicklung von Super - Modellen teilgenommen, aber wir haben uns seit langem mit Großmodellen befasst und auch viele Studien veröffentlicht.
Ich habe mich selbst mit Sparse Attention (dünn besetzte Aufmerksamkeit) befasst und bin relativ vertraut mit dem Mechanismus und der Bedeutung der Aufmerksamkeitsstruktur. Daher konnte ich sofort Probleme in einigen Design Details erkennen.
Natürlich ist diese Einschätzung nicht auf mich beschränkt, und viele Forscher können die Probleme ebenfalls wahrnehmen. Die eigentliche Schwierigkeit besteht jedoch darin, andere zu überzeugen. Wir müssen viel Zeit und Energie darauf verwenden, diese Probleme zu erklären und zu beweisen. Normalerweise erst, wenn das andere Team bei einer internen Untersuchung auch die Schwere der Probleme erkannt hat, ändert sich seine Einstellung.
Klassensprecher Attention: Mit anderen Worten, obwohl Sie nicht direkt an der Entwicklung von Super - Modellen beteiligt waren, konnten die Intuition und Erfahrungen aus dem Forschungsvorgang Ihnen helfen, Probleme schnell zu identifizieren, Abweichungen zu beurteilen und Korrekturrichtungen vorzuschlagen.
Tian Yuandong: Ja. Dies ist der Kernwert eines Forschers: Selbst bei "spärlichen Datenpunkten" kann man Schlüsselfolgerungen ableiten und sie auf komplexere Probleme anwenden. Im Gegenteil, wenn jemand keine Einsichten hat und nur ständig Experimente durchführt und Parameter anpasst, ist diese Arbeit sehr leicht zu ersetzen. Der Vorteil eines Forschers besteht darin, strukturelle Probleme bei begrenzten Signalen zu erkennen und so eine Menge nutzlosen Rechens und Ressourcenverschwendungen zu vermeiden.
Klassensprecher Attention: Sie haben gerade von "spärlichen Datenpunkten" gesprochen. Was genau ist damit gemeint? Sind es die verstreuten Ergebnisse aus verschiedenen Studien oder Experimenten?
Tian Yuandong: Man kann es so verstehen. Beispielsweise muss ein Neuling möglicherweise zehntausend Experimente durchführen und zehntausend Werte erhalten, aber diese Daten sind "tote" Daten - es fehlt eine strukturelle Analyse und Zusammenfassung.
Ein erfahrener Mensch hingegen kann anhand von zwanzig oder sogar zehn Punkten oder sogar nur anhand eines Teils der Trainingskurve (training curve) entscheiden, ob ein Ansatz funktionieren wird, und so rechtzeitig abbrechen und die Richtung ändern.
Deshalb verdienen KI - Forscher normalerweise auch höhere Gehälter: Eine wirklich hochwertige "Einsicht (insight)" kann möglicherweise die Kosten für die Fehlersuche auf hunderten, tausenden oder sogar zehntausenden GPU - Karten einsparen. GPU ist natürlich wichtig, da es größere Experimente unterstützen und mehr Beobachtungsmöglichkeiten bieten kann; aber Einsicht und Rechenleistung ergänzen sich.
Klassensprecher Attention: Sie haben gerade zwei Begriffe verwendet, "Erfahrung (experience)" und "Einsicht (insight)". Ich möchte diesen Punkt genauer untersuchen: Was verstehen Sie unter der Fähigkeit der Einsicht (insight)? Einige Leute meinen, es sei "Geschmack (taste)", andere sagen, es sei "Intuition (intuition)". Was denken Sie?
Tian Yuandong: Wir müssen durch Gespräche und Nachfragen beobachten, wie eine Person über Probleme nachdenkt. Ich gebe ein Beispiel: Bei der PhD - Qualifikationsprüfung (PhD qualifier) stellen die Professoren Fragen zu einem Thema (z. B. partiellen Differentialgleichungen), bis der Prüfling die Zusammenhänge zwischen den Schlüsselkonzepten klar erklären und die Beziehung zwischen den "zwei wichtigsten Elementen" in der kürzesten Sprache ausdrücken kann.
Wenn jemand nur die Definitionen auswendig lernen kann, aber die Prinzipien nicht erklären kann, z. B. wann A → B und wann A → C, bedeutet dies, dass er noch kein wirklich übertragbares mental model (psychologisches Modell) entwickelt hat. Beim Forschen ist es am schlimmsten, wenn man "Konzept auf Konzept" stapelt, ohne die Beziehungen und Anwendungsbedingungen zu verstehen.
Aktuelle große Sprachmodelle fehlen ebenfalls häufig diese Fähigkeit - die robuste Extrapolation bei "sehr wenigen Daten". Dies ist genau der Punkt, an dem der Mensch immer noch in einigen kognitiven Aufgaben überlegen ist.
03. Wie geschieht die "Eureka - Erfahrung"
Klassensprecher Attention: Dies entspricht auch dem Grund, warum ich mit Ihnen sprechen möchte - Einer Ihrer Forschungsschwerpunkte ist Grokking: die Erklärung, wie ein Modell vom "memorierenden Anpassen" zum "strukturierten Ver