StartseiteArtikel

Der "Vater" der Transformer schimpft aus: Die aktuelle KI steckt in einer Sackgasse, und das Finetuning ist reine Zeitverschwendung!

新智元2026-01-17 15:29
Transformer ist nicht das Ende der AGI. Neue Architekturen benötigen möglicherweise biologische Inspiration.

[Einführung in die neuen Weisen des Intelligenzforums] Der Transformer war einst das Höhepunktwerk der KI-Revolution, aber sein Erfinder, Llion Jones, warnt: Er ist nicht das Ende. So wie der RNN ersetzt wurde, könnten die derzeit unzähligen Feinabstimmungsstudien nur eine lokale Optimierung sein, während der echte Durchbruch bei der künstlichen allgemeinen Intelligenz (AGI) möglicherweise in einer neuartigen, biologisch inspirierten Architektur verborgen liegt.

Ist der Transformer das Ende der KI?

Nein, definitiv nicht.

Ist die Skalierung der einzige Weg zur AGI?

Derjenige, der am längsten an der Transformer-Architektur geforscht hat, sagt dir: Nein.

Llion Jones, Gründer und Forscher bei Sakana AI, hat zusammen mit sieben Mitautoren den Transformer erfunden.

Niemand außer den sieben Mitautoren hat länger an der Transformer-Architektur geforscht als er.

Trotzdem hat er letztes Jahr eine wichtige Entscheidung getroffen: Er hat seine Forschungsaktivitäten am Transformer drastisch reduziert.

Nicht, weil es in diesem Bereich keine Neuerungen gibt, sondern weil es dort überfüllt ist.

Er sagte direkt, dass er Opfer seines eigenen Erfolgs geworden sei:

Ich glaube nicht, dass der Transformer das Ende ist, und ich glaube nicht, dass wir einfach nur immer weiter skalieren müssen.

Eines Tages werden wir erneut einen Durchbruch erleben und dann zurückblicken und feststellen, dass viele aktuelle Forschungen eigentlich Zeitverschwendung sind.

Der Transformer könnte das Schicksal des RNN wiederholen

Vor der Entstehung des Transformers war der RNN der Mainstream.

Der RNN war in der Tat ein bedeutender Durchbruch in der Geschichte der KI.

Plötzlich begannen alle, sich an der Verbesserung des RNN zu beteiligen.

Aber das Ergebnis war immer nur eine leichte Feinabstimmung der gleichen Architektur, wie z. B. das Verschieben von Gated-Units, um die Leistung der Sprachmodellierung auf 1,26 oder 1,25 Bit pro Zeichen zu verbessern.

Nach der Entstehung des Transformers, als wir einen sehr tiefen, nur dekodierenden Transformer auf die gleiche Aufgabe anwendeten, erreichten wir sofort 1,1 Bit pro Zeichen.

Plötzlich schienen alle Forschungen am RNN vergeblich.

Und jetzt scheinen die aktuellen Papers wieder auf den alten Weg zurückzukehren: Es werden unzählige kleine Änderungen an der gleichen Architektur vorgenommen, wie z. B. das Verschieben der Normalisierungsschicht oder die leichte Verbesserung der Trainingsmethode.

Im Jahr 2020 stellte Sarah Hooker, damalige Forscherin bei Google DeepMind, das Konzept des "Hardware Lottos" vor:

Es gibt nicht nur einen Weg zur AGI. Tiefe neuronale Netze haben einfach das Glück gehabt, auf Hardware wie GPUs zu treffen.

Link zum Paper: https://hardwarelottery.github.io/

Der Begriff "Hardware Lotto" beschreibt, dass ein bestimmtes Forschungsansatz sich durchsetzt, weil es genau zu den bestehenden Software- und Hardwarebedingungen passt, und nicht weil dieser Ansatz unter allen alternativen Forschungsrichtungen generell überlegen ist.

Llion Jones ist der Meinung, dass der Transformer ein "Architektur Lotto" ist und die Branche möglicherweise das Schicksal des RNN wiederholt.

Selbst wenn es bereits einige Architekturen gibt, die in Papers besser abschneiden als der Transformer. Das Problem ist, dass die neuen Architekturen noch nicht gut genug sind, um die gesamte Branche dazu zu bringen, den Transformer aufzugeben.

Der Grund ist sehr realistisch: Die Leute verstehen den Transformer bereits sehr gut, und es gibt entsprechende Trainingsmethoden, Feinabstimmungstechniken und unterstützende Softwaretools.

Man kann die Leute nicht dazu bringen, eine neue Architektur von Grund auf zu verwenden, es sei denn, die neue Architektur ist so viel besser, dass sie "überwältigend gewinnt".

Der Transformer hat den RNN ersetzt, weil der Unterschied so groß war, dass man ihn nicht ignorieren konnte.

Das Gleiche gilt für den Aufstieg des Deep Learning. Früher glaubte man noch, dass der Symbolismus zuverlässiger sei, bis die neuronalen Netze in der Bilderkennung eine überwältigende Überlegenheit zeigten.

Llion Jones ist der Meinung, dass der Transformer zu erfolgreich ist und die Leute in eine "Falle" bringt:

Es ist wie ein riesiger "Gravitationsbrunnen", der alle neuen Methoden, die versuchen, ihn zu verlassen, wieder zurückzieht.

Selbst wenn du tatsächlich eine bessere neue Architektur entwickelst, wird OpenAI nur den Transformer um das Zehnfache skalieren, und dann wird dein Ergebnis in den Schatten gestellt.

Aktuelle LLMs sind keine allgemeine Intelligenz

Llion Jones weist weiter darauf hin, dass die derzeitigen großen Sprachmodelle keine allgemeine Intelligenz sind und das Merkmal der "gezackten Intelligenz" (jagged intelligence) aufweisen.

Das heißt, sie können in bestimmten Aufgaben wie Genies agieren, aber im nächsten Moment können sie triviale Fehler machen, die den Betrachter aus der "Zone" bringen.

Es hat gerade ein Problem auf Doktoratsebene gelöst, aber im nächsten Moment gibt es eine Antwort, die selbst ein Schüler nicht falsch machen würde. Dieser Kontrast ist sehr auffällig.

Er ist der Meinung, dass dies eigentlich ein grundlegendes Problem in der aktuellen Architektur aufdeckt.

Das Problem ist, dass sie zu "allroundfähig" sind.

Du kannst sie alles Mögliche machen lassen, solange sie ausreichend trainiert und die Parameter richtig eingestellt sind.

Aber gerade deshalb ignorieren wir das Schlüsselproblem - "Gibt es eine bessere Möglichkeit, Wissen darzustellen und Probleme zu lösen?"

Jetzt werfen wir alles in den Transformer und verwenden ihn wie ein Allzweckwerkzeug. Wenn etwas fehlt, fügen wir einfach ein neues Modul hinzu.

Wir wissen, dass wir Unsicherheitsmodellierung und adaptive Rechenkapazität brauchen, aber wir wählen es, diese Eigenschaften als Zusatz anzubieten, anstatt von der Architektur selbst aus neu zu denken.

Um diesem Zyklus zu entkommen, hat Jones Anfang 2025 seine Transformer-bezogenen Forschungen drastisch reduziert und sich in eine explorativere Richtung gewandt.

Er und seine Kollegen wie Luke Darlow von Sakana AI haben unter Bezug auf Biologie und natürliche Inspiration die "Continuous Thought Machines" (CTM) entworfen.

Link: https://sakana.ai/ctm/

Dies ist keine abstruse Erfindung, sondern eine vereinfachte Simulation des Gehirnfunktions.

Die Neuronen im Gehirn sind keine statischen Schalter, sondern übertragen Informationen durch synchrone Oszillationen.

Die CTM erfasst diesen Kernaspekt: Sie verwendet neuronale Dynamiken als zentrale Repräsentation und lässt das Modell die Berechnungen schrittweise in der "internen Denkdimension" entwickeln.

Er sagte: "Wir streben keine vollständige biologische Machbarkeit an, denn das Gehirn synchronisiert nicht alle Neuronen über kabelgebundene Weise. Aber dieser Ansatz bringt neue Forschungsgelegenheiten mit sich."

Wichtig ist, dass sie bei dieser Forschung nicht unter dem üblichen Druck in der akademischen Welt stehen, schnell zu veröffentlichen.

Weil niemand in diese Richtung forscht. Sie haben genug Zeit, um das Paper zu verfeinern, die Forschung gründlich zu machen und genügend Vergleichsexperimente durchzuführen.

Er hofft, dass diese Forschung ein "Beispielfall" werden kann, um andere Forscher zu ermutigen, diese Forschungsrichtungen zu versuchen, die zwar riskant erscheinen, aber möglicherweise zum nächsten großen Durchbruch führen.

Die Nachkommen klagen, aber ziehen keine Lehren daraus

Dies ist eine der ehrlichsten Äußerungen auf dem Gebiet der KI in letzter Zeit.

Llion Jones gibt zu, dass die meisten aktuellen Forschungen möglicherweise nur an lokalen Optima herumschrauben, während der echte Durchbruch möglicherweise in einer völlig anderen Richtung liegt.

Er weiß das aus eigener Erfahrung - schließlich hat er einst die Ergebnisse der Vorgänger generationen in den Schatten gestellt.

Es ist beunruhigend: Wenn er recht hat, dann verschwenden alle, die sich mit der Verbesserung von Transformer-Varianten beschäftigen, ihre Zeit.

Alle Mixture-of-Experts-Modelle, alle Architekturfeinabstimmungen, alle Attention-Mechanismus-Varianten - alles könnte in einem neuen Paradigma augenblicklich veraltet sein.

Aber die Falle besteht darin: Bis jemand tatsächlich einen Durchbruch erzielt, kannst du nie sicher sein, ob du in einem lokalen Optimum gefangen bist.

Wenn man sich in der Situation befindet, scheint alles wie Fortschritt zu sein. War nicht die Verbesserung des RNN auch unaufhaltsam, bis der Transformer erschien?

Ebenso hat Ilya kürzlich kommentiert, dass es nicht genügt, die aktuelle Architektur zu skalieren, um AGI zu erreichen:

Eine Folge der Skalierungsepoche ist: Die Skalierung saugt all das "Oxygen" aus dem Raum.

Deshalb beginnen alle, dasselbe zu tun. So sind wir in die Situation geraten - eine Welt, in der es mehr Unternehmen gibt als innovative Ideen.

Wie soll man sich dann entscheiden?

Llion Jones behauptet nicht, die Zukunft zu kennen, sondern gibt nur zu, dass der Transformer möglicherweise keine langfristige Lösung ist. Dies ist ehrlich, aber nicht sehr praktikabel.

Das Problem besteht darin: Bei jeder Paradigmenwende scheint alles im Nachhinein vergeblich, aber es war zur damaligen Zeit eine notwendige Erkundung. Wir können diesen Schritt nicht überspringen, sondern können nur hoffen, dass jemand schneller den Ausweg findet.

Mehr lesen:

Der Transformer ist tot? DeepMind setzt auf einen anderen Weg zur AGI

Google präsentiert den Transformer-Killer, erster großer Durchbruch in 8 Jahren! Der Chef markiert die Deadline für AGI

Beende die Herrschaft des Transformers! Ein ehemaliger Schüler der Yao-Klasse an der Tsinghua-Universität greift an und zielt auf die "katastrophale Vergesslichkeit" der KI

Ein Abschiedsbrief vom Vater des Transformers: 8 Jahre lang! Die Welt braucht eine neue KI-Architektur

Referenzen: 

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s 

Dieser Artikel stammt aus dem WeChat-Account "Neue Weisen des Intelligenzforums", Autor: Neue Weisen des Intelligenzforums, veröffentlicht von 36Kr mit Genehmigung.