StartseiteArtikel

Ist der Weg der Vorhersage-Training zu AGI bereits gescheitert? Yann LeCun enthüllt die unüberwindbare kognitive Kluft der Large Language Models (LLM).

36氪的朋友们2025-07-04 14:42
Das Zeitalter des "Mythos von Pre - Training - Skalierung" erreicht sein Ende.

Seit Jahren ist Yann LeCun, einer der Drei Großen im Bereich Künstliche Intelligenz und Chief AI Scientist von Meta, skeptisch gegenüber dem technologischen Ansatz hinter den Mainstream - großen Sprachmodellen (LLM).

Yann LeCun sagte: Autoregressive Modelle sind schrecklich.

Er meint, dass das aktuelle, vorherrschende autoregressive Modell, dessen Kernaufgabe es ist, Text durch die Vorhersage des nächsten Wortes zu generieren, in seiner Natur keine echte Intelligenz hervorbringen kann - unabhängig davon, wie groß das Modell wird. Dieser Mechanismus kann weder echte Verständnis, noch logisches Denken oder menschenähnliche Intelligenz erreichen.

Seine Ansicht wurde jedoch lange Zeit als "Fraktionskampf" im akademischen Bereich angesehen, da es fehlte an direkten empirischen Belegen. Man bezweifelte sogar, dass er damit Ressourcen für seine geführte "Weltmodell"-Forschung beantragen wollte.

Im aktuellen Monat hat die Veröffentlichung der JEPA 2 - Studie ihm endlich einen Punkt abgenommen.

Eine neue, bedeutende Studie, die er mitverfasst hat, "From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning", hat schließlich solide theoretische Beweise für seine langjährigen Kritikpunkte geliefert.

Studienquelle: [2505.17117] From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning

Diese Studie zeigt, dass, obwohl Large Language Models weit mehr als nur "zufällige Papageien" sind, die Art und Weise, wie sie die Welt verstehen, tiefgreifende und vielleicht grundlegende Unterschiede zu der menschlichen Art des Verstehens aufweist.

Was noch wichtiger ist, können diese Unterschiede möglicherweise nicht einfach durch die "Scaling Law" (Skalengesetz), also die Vergrößerung des Modells und der Datenmenge, überwunden werden. Sie berühren die unterste Grundlage des aktuellen KI - Paradigmas.

Wenn man dem Weg der LLM folgt, wird es vielleicht tatsächlich unmöglich sein, AGI zu erschaffen.

Ein Maßstab für den Unterschied zwischen menschlichen und LLM - Gedanken schaffen

Wie haben die Forscher nun die fast philosophische Frage - "Inwiefern unterscheidet sich das Verständnis einer Maschine von dem eines Menschen?" - in eine messbare und quantifizierbare wissenschaftliche Frage umgewandelt?

Anstatt direkt das vage Wort "Verständnis" zu definieren, haben sie einen anderen Weg gewählt und sich entschieden, die Informationsorganisationstrategien hinter dem "Verständnis" zu messen.

Deshalb haben sie ein Werkzeug entwickelt, das als "Kognitionsleistungsskalierer" fungieren kann, um die Kognitionsleistung verschiedener Intelligenzen zu messen.

Dieser Skalierer hat die Aufgabe, die "Arbeitsqualität" eines beliebigen Intelligenzsystems (ob menschliches Gehirn oder KI) bei der Organisation von Informationen zu bewerten. Eine hochwertige Arbeit erfordert ein perfektes Gleichgewicht zwischen der maximalen Komprimierung von Informationen (Komplexität) und der treuen Bewahrung von Bedeutung (Verzerrung):

Das ist wie das Sortieren einer riesigen Bibliothek. Man möchte, dass die Klassifizierungsbezeichnungen (z. B. "Science - Fiction", "Geschichte") so knapp und prägnant wie möglich sind, damit das gesamte System übersichtlich wird. Ein hochgradig komprimiertes System bedeutet, dass man mit wenig Informationen das Ganze verstehen kann, und seine "Komplexitätskosten" sind gering.

Aber beim Streben nach Kürze möchte man nicht zu viele Details verlieren. Man darf nicht einfach, nur weil "Wale" und "Thunfische" beide im Wasser leben, sie in die gleiche "Fisch"-Kategorie stecken und die grundlegenden Unterschiede zwischen Säugetieren und Fischen ignorieren. Jede Klassifizierung führt zu einer "Verzerrung" der ursprünglichen Informationen, und die "Verzerrungskosten" messen diesen Verlust an Bedeutung.

Die endgültige Punktzahl dieses Skalierers, die wir L nennen, ist die Summe der "Komplexitätskosten" und der "Verzerrungskosten".

Ein perfektes System sollte einen so niedrigen L - Wert wie möglich haben, was bedeutet, dass es auf die wirtschaftlichste Weise die ursprüngliche Bedeutung der Dinge in größtmöglicher Weise bewahrt.

LLM und menschliches Gehirn: grundlegende Unterschiede im Verständnis

Mit diesem mächtigen "Maßstab", der sowohl die Makrokomplexität eines Systems als auch die Mikropurität der Kategorien messen kann, haben die Forscher insgesamt drei Experimente durchgeführt, um den Unterschied zwischen menschlichem Gehirn und LLM zu messen.

Sie haben mehrere bekannte Modellfamilien ausgewählt, darunter sechs Modelle der Llama - Serie (Parameter von 1 Milliarde bis 70 Milliarden), fünf Modelle der Gemma - Serie (Parameter von 2 Milliarden bis 27 Milliarden), dreizehn Modelle der Qwen (Tongyi Qianwen) - Serie (Parameter von 500 Millionen bis 72 Milliarden), vier Modelle der Phi - Serie und ein Mistral - Modell mit 7 Milliarden Parametern, um diese Experimente durchzuführen.

Erstes Experiment: Modelle können abstrakte "Klassifikations"-Begriffe bilden

Das erste Experiment untersuchte, ob die spontan von LLM gebildeten Begriffskategorien in ihrer Gesamtstruktur mit den menschlichen Klassifizierungsgewohnheiten übereinstimmen.

Sie ließen eine Reihe von LLM klassische Wörter aus kognitiven Psychologieexperimenten verarbeiten und ihre Wortvektoren clustern, und vergleichen dann die Ergebnisse mit menschlichen Klassifizierungen.

Die Ergebnisse zeigten eine erstaunliche Übereinstimmung. Sowohl große als auch kleine Modelle konnten im Großen und Ganzen die Mitglieder von Begriffen wie "Obst", "Möbel", "Fahrzeuge" richtig identifizieren und zusammenfassen. Die Clusterergebnisse waren den menschlichen Urteilen sehr ähnlich und lagen deutlich über dem Zufallsniveau. Dies beweist, dass LLM nicht nur Unsinn reden, sondern tatsächlich tiefgreifende semantische Zusammenhänge aus der riesigen Menge an Textdaten gelernt haben. Dies scheint darauf zu hindeuten, dass die KI sich stetig der menschlichen Intelligenz annähert.

Dieses Bild zeigt die Ähnlichkeit zwischen LLM - Wortclustern und menschlichen Clustern. Die meisten liegen über der Zufallsverteilung.

Von diesen zeigt Bert die größte Ähnlichkeit mit dem Menschen.

Zweites Experiment: Innerhalb der Kategorien können sie nicht unterscheiden

Die scheinbare Ähnlichkeit sagt nicht alles aus.

Als die Forscher in die einzelnen Kategorien vordrangen, traten Probleme zutage. Die zweite Frage war: Können LLM die feinen semantischen Strukturen innerhalb einer Kategorie, wie z. B. die "Typizität", verstehen?

Für einen Menschen hat eine Kategorie ein "Gewichtszentrum". Ein "Sperling" ist offensichtlich ein "typischerer Vogel" als ein "Pinguin". Diese Einschätzung beruht auf unseren reichen, multimodalen Erfahrungen in der realen Welt - wir wissen, dass Vögel normalerweise fliegen können, klein sind und singen können. Aber haben LLM dieses "Gefühl"?

Alle Konzepte liegen durcheinander und haben keine Hierarchie.

Die Antwort ist nein.

Die Studie ergab, dass das interne Repräsentationssystem eines LLM zwar Sperlinge und Pinguine zusammenfassen kann, aber es kann nicht zuverlässig widerspiegeln, dass der erste repräsentativer ist als der letztere - ein entscheidendes semantisches Detail. Aus der "Sicht" eines LLM sind alle Mitglieder einer Kategorie eher wie Punkte, die unterschiedlich weit vom Zentrum entfernt sind, aber relativ gleichberechtigt sind. Es fehlt die starke "Prototyp" - oder "Beispiel" - Struktur, die in der menschlichen Kognition vorhanden ist.

Drittes Experiment: LLM und menschliches Gehirn verfolgen unterschiedliche Kompressionsstrategien

Die phänomenalen Unterschiede müssen auf unterschiedlichen zugrunde liegenden Logiken beruhen. Das dritte Experiment sollte die Frage beantworten, welche Strategien die beiden Intelligenzen verfolgen, wenn es um das grundlegende Abwägen zwischen "Komprimierung" und "Bedeutung" geht?

Jetzt spielte endlich der "Effizienzskalierer" (L) seine endgültige Entscheidungsrolle. Die Forscher haben sowohl die menschlichen Klassifizierungsdaten als auch die Clusterergebnisse aller LLM in diesen einheitlichen Bewertungsrahmen eingegeben.

Die Ergebnisse waren klar. Alle LLM, von den kleinsten bis zu den größten, haben durchweg sehr niedrige L - Punktzahlen erhalten. Sie sind von Natur aus "Effizienzkönige".

Ihr innerer Funktionsmechanismus scheint von einer unsichtbaren Kraft angetrieben zu werden, um die optimale statistische Kompressionslösung in den Daten zu finden, um die Informationen mit minimalen Komplexitäts - und Verzerrungskosten zu organisieren. Die menschlichen Kognitionsdaten hingegen haben deutlich höhere L - Punktzahlen erhalten und "haben miserabel verloren" in diesem reinen statistischen Effizienzwettbewerb.

Linkes Bild: Die Informationsentropie des Menschen ist im Allgemeinen höher als die eines LLM; Rechtes Bild: Die L - Punktzahl des Menschen ist viel höher als die eines LLM, die Kompressionsrate ist gering.

Dies ist der tiefgründigste Erkenntnisgewinn dieser Studie: Die "Ineffizienz" des menschlichen Kognitionsystems ist kein Mangel, sondern ein Ausdruck seiner Stärke. Unser Gehirn hat sich nicht entwickelt, um ein perfektes Kompressionsprogramm zu werden. Seine Hauptaufgabe ist es, in der komplexen, dynamischen und voller Unsicherheiten realen Welt zu überleben und sich fortzupflanzen.

Deshalb muss unser Begriffssystem flexibel, reichhaltig und formbar sein, um uns zu unterstützen, komplexe kausale Schlussfolgerungen, Funktionsurteile zu treffen und eine effektive soziale Kommunikation zu ermöglichen.

Diese "Redundanz" und "Vagheit", die für die "Anpassungsfähigkeit" beibehalten werden, erscheinen natürlich als "ineffizient" auf einem reinen statistischen Skalierer.

Also stellt sich die Frage, kann eine Intelligenz, die nicht unterscheiden kann, ob ein Pinguin oder ein Sperling eher ein Vogel ist, auch wenn sie effizient ist, wirklich die Welt verstehen?

Hat die Scaling Law versagt?

Man könnte fragen, wie es mit dem Weg der Scaling Law aussieht. Kann die Erhöhung der Anzahl der Parameter dazu führen, dass die Kompression eines Modells reichhaltig genug wird, um komplexere semantische Strukturen zu verstehen und sich dem Menschen ähnlicher zu werden?

Eine zentrale Erkenntnis der Studie ist jedoch, dass die Anzahl der Parameter nicht der entscheidende Faktor für diesen grundlegenden Strategiedifferenz ist.

Beim Task "Anpassung an die menschliche Begriffsklassifizierung" (RQ1) ist es nicht so, dass größere Modelle immer besser abschneiden. Die Studie zeigt klar, dass Encodermodelle wie BERT - large, die relativ klein sind (etwa 340 Millionen Parameter), oft genauso gut oder sogar besser abschneiden als viel größere Decodermodelle.

Und im zweiten Experiment war der Größeneffekt ebenfalls nicht deutlich: In der Grafik, die die Anpassungsgrade misst, sind die Leistungspunkte (AMI - Punktzahl) verstreut. Es gibt keine klare, kontinuierlich ansteigende Kurve, wenn die Modellgröße von 500 Millionen bis 70 Milliarden Parametern zunimmt. Dies zeigt, dass das bloße Erhöhen der Anzahl der Parameter nicht garantiert, dass das Modell die menschliche Begriffstruktur besser erfassen kann.

Deshalb hat der Größeneffekt (Scaling Law) hier völlig versagt.

Dies bestätigt perfekt die Kernthese von Yann LeCun über die Jahre.

Es zeigt, dass das aktuelle Trainingsverfahren der LLM nicht in der Lage ist, eine menschenähnliche Intelligenz zu schaffen, die die Welt verstehen kann.

LLM und Menschen spielen nach völlig unterschiedlichen Regeln. Der eine ist ein Kompressionsmeister, der andere ein Anpassungsmeister.

Wenn man dem "Kompressionsrauben" LLM einfach mehr "Futter" gibt (d. h. die Anzahl der Parameter erhöht), wird es nur größer und stärker, aber es wird nicht zu einem "Anpassungshunter" evol