Wird der Transformer, der die KI 10 Jahre dominiert hat, von seinem "Vater" selbst zerschmettert?

Nichts kann die Menschen daran hindern, sich der AGI zuzuwenden.

80 Minuten lang ähnlich einem Boxkampf geführte Debatte! Der Mitentwickler von Transformer tritt persönlich in die Arena, um seine Arbeit zu verteidigen, während drei Herausforderer auf der anderen Seite direkt auf fünf Schwachstellen abzielen. Dies ist der härteste direkte Konflikt im Bereich der KI - Architekturen seit einem Jahrzehnt. Ist das Fundament der Architektur, die die goldene Dekade der KI dominiert hat, bereits locker?

Warum dominiert Transformer die KI seit so langer Zeit?

Können neue Architekturen wirklich die Schwächen bei der Verarbeitung langer Kontexte, dem Gedächtnis und der Inferenz überwinden?

Was genau versteht man unter dem sogenannten „Post - Transformer“? Ein stärkeres Gedächtnis, eine effizientere Sequenzmodellierung oder muss alles von der Trainierung bis zum System neu aufgebaut werden?

Am 5. Mai in San Francisco veranstaltete Pathway eine Boxkampf - ähnliche Debatte.

Das ist keine Metapher, sondern ein echter Ringkampf.

Auf der einen Seite steht Łukasz Kaiser, der Mitentwickler von Transformer, auf der anderen Seite die Anhänger der neuen Architekturen, die von einer „Post - Transformer - Ära“ sprechen.

Achten Sie auf ein Detail: Lion Jones, einer der Mitentwickler des Attention - Mechanismus und einer der „Transformer - Acht“, sitzt auf der anderen Seite gegenüber Kaiser.

Das Thema ist eindeutig: Wie wird die nächste Generation von KI - Architekturen aussehen?

Das Publikum bestand aus Forschern, Unternehmern und Investoren. Der Sieg hängt nicht von Abstimmungen ab, sondern von einem „Clapometer“ – einem Applauszähler. Derjenige, der mehr Applaus bekommt, gewinnt.

Dies ist ein harter, offener Konflikt, bei dem alle Karten auf den Tisch gelegt werden.

Als der Schiedsrichter den Beginn des Wettkampfes ankündigte, wurde das seit fast einem Jahrzehnt die globale KI - Architektur dominierende Mythos erstmals von seinem Schöpfer selbst in die Anklagebank gezerrt, um sich zu verteidigen.

Dieser harte Konflikt im Denkbereich beginnt mit den fünf Schwachstellen von Transformer.

Lang genug mit Transformer

Fünf Schwachstellen

Łukasz Kaisers Rolle macht diese Debatte besonders wichtig.

Er ist der Mitentwickler von Transformer.

Er war einer der Autoren des 2017 erschienenen Papers „Attention Is All You Need“, das die gesamte KI - Landschaft veränderte. Danach war er an der praktischen Entwicklung von ChatGPT, der GPT - Serie und o1 beteiligt.

Er ist direkt betroffen. Heute sitzt er hier, um seine Arbeit zu verteidigen.

Die drei Herausforderer auf der anderen Seite haben ebenfalls beeindruckende Hintergründe.

Llion Jones, ein anderer Mitentwickler von Transformer und Mitbegründer von Sakana AI.

Adrian Kosowski, Chief Science Officer von Pathway und Erfinder der BDH - Architektur.

Matthias Lechner, Chief Technology Officer von Liquid AI und Mitentwickler des flüssigen neuronalen Netzwerks an der MIT.

Dies ist ein in der Technikgeschichte extrem seltenes Bild. Die Menschen, die dasselbe Ding geschaffen haben, haben grundlegende Unterschiede in ihrer Vorstellung von seiner Zukunft.

Kaiser begann mit einer Analogie.

Er sagte, der Attention - Mechanismus von Transformer sei wie ein Kartenkatalogsystem eines Bibliothekars.

Sie gehen in die Bibliothek und sagen, was Sie suchen (Abfrage). Der Bibliothekar blättert durch den Kartenkatalog (Schlüssel), findet die entsprechende Regalposition und gibt Ihnen das Buch (Wert) heraus.

Einfach. Effizient. Globale Suche.

Aber die Herausforderer fragen: Was passiert, wenn diese Bibliothek eine Milliarde Bücher hat? Muss man bei jeder Abfrage alle Karten durchsuchen? Kann dieses System dann noch halten?

Dies ist die O(n²) - Komplexität, das Damoklesschwert über Transformer.

Die drei Herausforderer haben nicht einfach gesagt: „Transformer funktioniert nicht mehr.“ Sie haben fünf konkrete offene Probleme herausgearbeitet, die die aktuelle Transformer - Architektur auf Design - Ebene nicht lösen kann.

Jedes dieser Probleme zielt direkt auf die Schwachstellen ab.

Die schärfste Metapher der Herausforderer zielt direkt auf die Schwächen von Transformer bei Gedächtnis und kontinuierlichem Lernen: „Groundhog Day“.

In dem Film „Groundhog Day“ beginnt der Tag immer wieder von vorne, und die Erinnerungen an den Vortag gehen verloren.

Derzeit verhält es sich bei Transformer genauso.

Bei jeder Inferenz (Forward Pass) sind seine Gewichte (Weights) vollständig festgelegt.

Selbst wenn Sie mit ihm zehn Stunden lang plaudern und er wunderbare neue Erkenntnisse gewinnt, hat er beim nächsten Gespräch wieder keine Erinnerung an das Gelernten.

Der Industrie versucht derzeit, dieses Problem zu lösen, indem sie RAG (Retrieval Augmented Generation) und Langzeitkontext (KV Cache) implementiert.

Aber dies ist keine Architektur - Level - Lösung, sondern eher ein kostspieliger Hack, der nur die Symptome behandelt.

Die fünf Schwachstellen sind für sich genommen bereits ernsthaft. Zusammen bilden sie eine vollständige Anklage.

Aber eine Anklage ist noch keine Urteilsverkündung.

Kaisers Trumpfkarte

Zeig es mir anhand der Skalierungskurve

Angesichts der fünf Angriffe hat Kaiser nicht jede Behauptung widerlegt.

Er hat nicht gesagt, dass O(n²) kein Problem sei, dass das katastrophale Vergessen nicht existiere oder dass Transformer perfekt sei.

Er hat einen Satz fallen lassen, der zum Kern der gesamten Debatte wurde:

Solange Post - Transformer keine bessere Skalierungskurve nachweisen kann, bleibt Transformer die Mainstream - Architektur.

Die Wucht dieses Satzes liegt darin, dass er die Beweislast wieder auf die Herausforderer zurückschiebt.

Was ist eine Skalierungskurve?

Einfach ausgedrückt, zeigt sie, wie stark die Fähigkeiten einer KI steigen, wenn man mehr Rechenleistung und Daten investiert.

Transformer hat die KI - Architekturen fast ein Jahrzehnt lang dominiert, nicht weil es keine Schwächen hat, sondern weil seine Skalierungskurve bisher von keiner anderen Architektur übertroffen wurde.

Dies ist der Grund, warum OpenAI bereit ist, Milliarden von Dollar in die Entwicklung von GPT zu investieren und warum Anthropic die Skala von Claude kontinuierlich erweitert.

Kaisers Logik ist äußerst klar:

Sie sagen, Transformer habe fünf Probleme? Ich stimme zu.

Aber zwischen einem Problem und der Notwendigkeit, etwas zu ersetzen, gibt es eine Kluft. Um diese Kluft zu überwinden, brauchen Sie nicht fünf Papers, sondern eine bessere Skalierungskurve.

Dann hat er eine detailliertere Verteidigung vorgebracht, die auch die Realität der Ingenieurarbeit widerspiegelt.

Parallelität ist das A und O.

Letzte Woche hat Kaiser auf der neuesten Nvidia - Hardware Transformer und einige ältere RNNs neu implementiert und verglichen.

Ein sehr kleiner GRU ist 50 Mal langsamer als ein viel größerer Transformer.

RNNs sind zwar elegant, aber ihre sequenzielle Ausführung ist auf der aktuellen Hardware ein Desaster.

Wenn es wirklich eine bessere Architektur gibt, müssen Sie 50 Mal so viel Zeit investieren, um sie zu beweisen – und die meisten Labore haben keine Geduld dafür.

Zehn Jahre Ingenieurleistung.

Nicht nur die GPU - Optimierung, sondern auch Compiler, Trainingsframeworks (PyTorch, JAX), Inferenz - Engines (vLLM, TensorRT - LLM) und Quantifizierungstools – der gesamte KI - Engineering - Stack ist um Transformer herum aufgebaut.

Eine neue Architektur würde bedeuten, dass alles von vorne aufgebaut werden muss.

Implizites „kontinuierliches Lernen“ findet bereits statt.

Kaiser hat darauf hingewiesen, dass Transformer nach der Massiv - Vorhersage im Forward Pass ein Kontext - Lernen (In - Context Learning) zeigt, das mathematisch gesehen perfekt die Gradientenabstiege im Backward Pass simuliert.

Mit anderen Worten, obwohl Sie sagen, dass es nicht lernt, lernt es tatsächlich auf eine andere Weise.

Seine Verteidigung ist nicht, dass Transformer immer die beste Lösung sei, sondern dass es derzeit die beste Lösung ist, es sei denn, man kann das Gegenteil beweisen.

Dann hat er einen Satz fallen lassen, der die Gegner stumm machte:

Vielleicht wird es Transformer selbst sein, das die nächste Architektur findet – und nicht Sie.

Das Publikum lachte.

Aber alle haben verstanden, dass er es ernst meinte.

KI: Eine unaufhaltsame Zukunft voller Hoffnung

In seiner Schlussrede hat Kaiser nicht gesagt, dass Transformer immer die beste Lösung sei. Er hat gesagt: „Derzeit gewinnt Transformer noch.“

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Wird der Transformer, der die KI für zehn Jahre dominiert hat, von seinem "Vater" selbst zerschmettert?

Lang genug mit Transformer

Fünf Schwachstellen

Kaisers Trumpfkarte

Zeig es mir anhand der Skalierungskurve

KI: Eine unaufhaltsame Zukunft voller Hoffnung