Kann der Transformer die nächste Generation von Agenten unterstützen?

Schlafe nicht in der Komfortzone.

Am 18. Dezember 2025 wurde die 2025 Tencent ConTech-Konferenz und der Tencent Technology Hi Tech Day offiziell ausgestrahlt. Akademiker der chinesischen Akademie der Ingenieurwissenschaften, bekannte Experten und Wissenschaftler, Gründer führender Technologieunternehmen und bekannte Anleger versammelten sich, um gemeinsam die Chancen und Herausforderungen der intelligenten Ära zu diskutieren.

Im Rahmen des Roundtable-Diskussionsforums, als der Moderator das Mikrofon an Zhang Xiangyu, den Chefwissenschaftler von Jieyue Xingchen, reichte und ihn nach der Zukunft der Modellarchitektur fragte, warf dieser akademische Star eine "Tiefenbombe" ab: Die bestehende Transformer-Architektur kann die nächste Generation von Agenten nicht unterstützen.

Und erst vor kurzem hat Fei-Fei Li, Professorin an der Stanford University und "AI-Mutter", in einem tiefgehenden Interview offen und direkt festgestellt: Die bestehende Transformer-Architektur kann möglicherweise keine hochgradigen Abstraktionen wie die Relativitätstheorie hervorbringen. Innerhalb der nächsten fünf Jahre muss die Branche eine neue Architektur finden, um KI von der statistischen Korrelation zu echter kausaler Logik und physikalischer Inferenz zu bringen.

Ilya Sutskever, der Kernschöpfer der GPT-Serie und ehemaliger Mitbegründer von OpenAI, hat ebenfalls in einem kürzlich geführten tiefgehenden Interview die gleiche Einschätzung geäußert: Die "Skalierungsära", die sich einfach auf die Stapelung von Rechenleistung und Daten stützt, stößt auf Engpässe. Die Branche kehrt zurück zur "Forschungsära", die auf die Grundlageninnovationen setzt.

In den letzten sieben Jahren basierten fast alle die Welt verblüffenden KI-Modelle, von Googles BERT über OpenAIs GPT-Serie bis hin zum plötzlich auftauchenden DeepSeek, auf Transformer. Es hat die Marktkapitalisierung von NVIDIA in die Höhe getrieben und zahllosen Start-up-Unternehmen riesige Finanzierungen beschert.

Aber jetzt beginnen diejenigen, die es am besten verstehen, es anzuzweifeln.

Es scheint, dass die Menschheit wieder am Vorabend einer Paradigmenrevolution steht. Wenn die Randwirkung des Scaling Law (Skalierungsgesetz) abnimmt und Modelle mit Billionen von Parametern immer noch nicht verstehen, wie man sich in der physischen Welt wie ein Mensch bewegt, müssen wir uns dieser Frage stellen:

Hat der Transformer, der uns ursprünglich zum AGI führen sollte, seine Grenzen erreicht?

Der gute Schüler, der nur Aufgaben lösen kann

Vor dem Jahr 2017 waren die vorherrschenden Methoden der KI in der natürlichen Sprachverarbeitung (NLP) noch RNN (Rekurrente neuronale Netzwerke) und LSTM (Langzeit- und Kurzzeitgedächtnisnetzwerke). Ihre Art, Informationen zu verarbeiten, ist wie die eines fleißigen Lesers, der jedes Wort nacheinander lesen muss. Dies ist ineffizient und es ist schwierig, semantische Zusammenhänge über lange Distanzen zu erfassen.

Im Jahr 2017 tauchte das Google-Papier "Attention Is All You Need" auf und veränderte alles grundlegend.

Die Transformer-Architektur hat die Rekursion verlassen und den "Self-Attention-Mechanismus" eingeführt. Sie liest nicht mehr nacheinander, sondern kann alle Wörter in einem Satz gleichzeitig betrachten und die Zusammenhänge zwischen ihnen berechnen.

Diese Architektur hat die parallele Berechnung möglich gemacht. Mit genügend Rechenleistung (GPU) und Daten kann das Modell eine erstaunliche Fähigkeit zur Entstehung von Intelligenz zeigen. Dies ist das spätere Scaling Law (Skalierungsgesetz).

Die Kombination von Transformer und GPU ist wie der Treffer des Verbrennungsmotors mit Öl und hat direkt die dritte industrielle Revolution in der Künstlichen Intelligenz ausgelöst.

Allerdings ist der Transformer letztendlich ein absoluter Statistiker.

Fei-Fei Li hat festgestellt: Einer der größten Durchbrüche der generativen KI war die Entdeckung der Zielfunktion "Vorhersage des nächsten Tokens". Dies klingt schön, aber es ist auch begrenzt. Die Kernlogik des Transformers basiert auf der Wahrscheinlichkeitsvorhersage von Massendaten. Er hat alle Bücher im Internet gelesen, also weiß er, wenn man von einer Klippe springt, dass der nächste Satz "fallen" sein sollte, nicht "fliegen".

Ilya hat auch eine Metapher gegeben: Das aktuelle Modell ist wie ein Schüler, der für ein Programmierwettbewerb zehntausend Stunden trainiert hat. Er hat alle Algorithmen und Techniken auswendig gelernt, alle möglichen Aufgaben gesehen und durch Datenverstärkung alle Lücken geschlossen. Er scheint stark zu sein und kann gute Noten bekommen, aber im Wesentlichen macht er nur Gedächtnisabrufe.

Im Vergleich dazu hat ein wirklich begabter Schüler möglicherweise nur hundert Stunden trainiert, aber er hat einen tiefen Geschmack und Intuition und besitzt echte Generalisierungsfähigkeit. Das aktuelle Transformer-Modell ist wie der rote Rübe, der auswendig lernt. Sobald es in ein bisher unbekanntes Gebiet kommt, sinkt seine Leistung drastisch.

Ilya ist der Ansicht, dass dies daran liegt, dass das Modell an einem gewissen Faktor mangelt, sodass es gelernt hat, sich an die Bewertungsstandards anzupassen, aber die Inferenz nicht wirklich verstanden hat.

Fei-Fei Li hat eine ähnliche Einschätzung gegeben: "Die meisten generativen Videos zeigen Wasserströme oder wippende Bäume, die nicht auf der Berechnung der Newtonschen Mechanik basieren, sondern auf der statistischen Entstehung von Massendaten."

Mit anderen Worten, die KI hat nur unzählige Male das Aussehen von Wasserströmen gesehen und es nachgeahmt. Sie versteht nicht die Spannung zwischen Wassermolekülen und auch nicht die Erdbeschleunigung.

Der Transformer ist ein perfekter Kurvenfitter, der sich der Realität unendlich annähern kann, aber die Regeln hinter der Realität nicht ableiten kann. Weil er nur Korrelationen, keine Kausalitäten hat.

Der Fluch des langen Kontexts und das Fehlen des langsamen Denkens

Im Jahr 2025 ist ein offensichtlicher Trend in der KI-Branche der Umgang mit langen Texten. Aber aus Zhang Xiangyus Sicht könnte dies eine Falle sein: "Unser heutiger Transformer, egal wie viele Tokens er offiziell unterstützen soll, ist ab etwa 80.000 Tokens praktisch unbrauchbar... Selbst wenn die Kontextlänge sehr lang sein kann, verschlechtert sich die Leistung in den Tests ab 80.000 Tokens."

Unter der hier genannten Verschlechterung versteht man nicht, dass das Modell die Informationen nicht mehr speichern kann, sondern dass das IQ mit zunehmender Textlänge rapide sinkt.

Zhang Xiangyu hat die dahinter liegende mathematische Logik aufgedeckt - der Informationsfluss des Transformers ist unidirektional: "Alle Informationen können nur von der (L-1)-ten Ebene zur L-ten Ebene fließen. Unabhängig von der Länge des Kontexts erhöht sich die Tiefe des Modells nicht, es hat nur L Ebenen." Seine Denktiefe ist festgelegt und wird nicht tiefer, wenn der Text länger wird.

Dies ähnelt der von Ilya betonten Wertfunktion. Er hat festgestellt, dass die Menschen effizient sind, weil wir eine innere Wertfunktion haben - man muss nicht ein ganzes Schachspiel beenden, um zu wissen, dass es ein Fehler war, einen Stein zu verlieren. Man bekommt schon im Verlauf des Spiels Signale.

Der aktuelle Transformer fehlt diese Mechanik. Er muss alle Informationen auf einer Ebene darstellen und muss jedes Mal, wenn er eine Entscheidung trifft, auf alle seine gespeicherten Informationen zurückgreifen. Ähnlich wie beim schnellen, intuitiven Denken des Menschen, das spontan erfolgt, aber kein langsameres, gründliches Denken zulässt.

Ilya ist der Ansicht, dass echte Intelligenz nicht nur die Vorhersage des nächsten Tokens ist, sondern die Fähigkeit, vor dem Handeln die Qualität eines Pfades durch eine interne Wertfunktion vorherzusagen. Für zukünftige Agenten, die in einer Welt mit unendlichen Informationen überleben müssen, ist es, wenn man die Transformer-Architektur beibehält, bei der alle Informationen auf einer Ebene dargestellt werden, nicht nur rechentechnisch unhaltbar, sondern auch logisch nicht sinnvoll.

Visuelle Aphasie und physikalische Blindstellen

Die Krise des Transformers beschränkt sich nicht nur auf Sprache und Logik, sondern auch auf seine Unfähigkeit, die physische Welt zu verstehen.

Fei-Fei Li ist der Ansicht: "Sprache allein reicht nicht, um eine allgemeine Künstliche Intelligenz aufzubauen." Der aktuelle Transformer behandelt visuelle Aufgaben oft einfach und ruppig, indem er die Vorhersage des nächsten Wortes auf die Vorhersage des nächsten Bildes übertragt, was dazu führt, dass die generierten Videos keine raumzeitliche Kohärenz haben.

Hier besteht ein tieferes Problem: Die Stichprobeneffizienz.

Ilya hat in einem Interview die Frage gestellt: Warum kann ein Jugendlicher in nur ein paar Stunden Auto fahren lernen, während die KI dafür riesige Datenmengen braucht?

Die Antwort liegt in "Apriori-Wissen". Die Menschen haben durch die Evolution ein starkes Apriori-Wissen und Intuition (d. h. eine Wertfunktion, die aus Emotionen und Instinkten besteht). Wir müssen nicht ein Million Mal einen Unfall gesehen haben, um zu lernen, wie man ihm ausweicht. Unsere biologischen Instinkte geben uns ein natürliches Gefühl für die Gefahren in der physischen Welt.

He Xiaopeng hat auf der Konferenz ähnliche Einsichten geäußert: Bücher können einem nicht beibringen, wie man geht. Fertigkeiten in der physischen Welt müssen durch Interaktion erlernt werden.

Der aktuelle Transformer-Modell fehlt ein Weltmodell, das auf physikalischer und biologischer Intuition basiert. Sie versuchen, die Unkenntnis der physikalischen Gesetze durch die Erfassung aller möglichen Daten zu kaschieren. Ilya hat festgestellt, dass der Nutzen der Vortrainingsdaten irgendwann erschöpft sein wird, denn die Daten sind begrenzt. Wenn man die Größe um das Hundertfache erhöht, führt eine einfache quantitative Veränderung möglicherweise nicht mehr zu einer qualitativen Veränderung.

Physikalische KI braucht einen "digitalen Behälter", der eine 3D-Struktur, kausale Logik und physikalische Gesetze integriert, und nicht ein Sprachmodell, das nur auf Wahrscheinlichkeiten basiert, um das nächste Bild zu erraten.

Zurück zur Forschungsära

Wenn der Transformer möglicherweise eine Sackgasse ist, wo liegt dann der Weg?

Ilya hat eine makroskopische Einschätzung gegeben: Wir verlassen die "Skalierungsära" (2020 - 2025) und kehren zur "Forschungsära" (2012 - 2020) zurück. Dies ist keine Rückschritt in der Geschichte, sondern ein spiralförmiger Aufstieg - wir haben jetzt eine enorme Rechenleistung, aber wir müssen ein neues Rezept finden.

Dieses neue Rezept wird keine einfache Reparatur einer einzelnen Technologie sein, sondern eine systemische Neukonstruktion.

Fei-Fei Lis World Labs arbeiten daran, ein Modell mit "räumlicher Intelligenz" zu entwickeln und einen geschlossenen Kreislauf von Sehen, Handeln und Vorstellen zu schaffen. Die zukünftige Architektur wird höchstwahrscheinlich ein Hybrid sein: Der Kern ist eine hochgradig abstrakte kausale Logik (implizit), die Schnittstelle ist die vielfältige Welt der Sinne (explizit).

Zhang Xiangyu hat die hochgradig visionäre Richtung des "nichtlinearen RNN" enthüllt. Diese Architektur hat keinen unidirektionalen Informationsfluss, sondern kann intern zirkulieren, nachdenken und schlussfolgern. Genau wie Ilya es sich vorgestellt hat, muss das Modell eine "Wertfunktion" wie der Mensch haben und mehrere Schritte intern denken und sich selbst korrigieren, bevor es ein Ergebnis ausgibt.

Ilya ist der Ansicht, dass der zukünftige Durchbruch darin besteht, wie man der KI die Fähigkeit wie beim Menschen zum "kontinuierlichen Lernen" verleiht, anstatt statische, vortrainierte Modelle zu haben. Dies erfordert ein effizienteres Paradigma des verstärkenden Lernens, von einfacher Nachahmung (Schüler A) hin zu einem Experten mit Intuition und Geschmack (Schüler B).

Wenn sich die Grundarchitektur stark verändert, wird die gesamte KI-Industrie eine Umstrukturierung durchmachen.

Die aktuelle Hardware-Infrastruktur, von NVIDIA-GPU-Clustern bis hin zu verschiedenen Kommunikations- und Vernetzungsarchitekturen, ist weitgehend auf den Transformer zugeschnitten.

Sobald die Architektur vom Transformer auf nichtlineares RNN oder andere Modelle mit Graph- und Rechenverknüpfung wechselt, werden spezielle Chips möglicherweise vor Herausforderungen stehen, und die Flexibilität von allgemeinen GPUs wird erneut eine Schutzmauer sein.

Der Wert der Daten wird auch neu bewertet. Video-Daten, Sensordaten aus der physischen Welt und Interaktionsdaten von Robotern werden das neue Öl sein.

Abschluss

Am Ende des Interviews hat Fei-Fei Li einen sinnreichen Satz gesagt: "Die Wissenschaft ist eine nichtlineare Weitergabe von Gedanken über mehrere Generationen."

Wir mögen gerne die Legende des einzelnen Helden, z. B. dass Newton die physikalischen Gesetze entdeckt hat, Einstein die Relativitätstheorie und der Transformer die KI-Ära eröffnet hat. Aber in Wirklichkeit ist die Wissenschaft ein Fluss, in dem unzählige Nebenflüsse zusammenfließen, ihre Richtung ändern und zurückfließen.

Der Transformer ist ein Denkmal, aber er ist vielleicht nicht das Ende. Er hat uns das Licht der Intelligenz gezeigt, aber seine angeborenen Mängel in Bezug auf kausale Inferenz, physikalische Verständnis und unendlichen Kontext machen ihn nur zu einem Sprungbrett auf dem Weg zum AGI, nicht zum Schlüssel.

Fei-Fei Li sagt, die Branche muss einen neuen Architekturdurchbruch finden, Ilya sagt, die Skalierungsära ist vorbei, Zhang Xiangyu sagt, der Transformer kann die nächste Generation von Agenten nicht unterstützen. Dies ist keine vollständige Ablehnung seiner historischen Verdienste, sondern eine Warnung an uns: Schlafen Sie nicht in der Komfortzone.

In den nächsten fünf Jahren werden wir möglicherweise sehen, dass der Transformer in den Hintergrund tritt und zu einem Teilmodul wird, während eine neue Architektur, die räumliche Intelligenz, körperliche Interaktion und tiefe logische Inferenz vereinigt, in den Vordergrund tritt.

Für die Technologieunternehmen, die in diesem

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。