Von Transformer bis GPT-5: Hören Sie sich die "First-Principles-Thinking" des OpenAI-Wissenschaftlers Lukasz an.
Im Jahr 2017 erschien online ein Artikel mit einem scheinbar einfachen und sogar etwas übermütigen Titel: „Attention Is All You Need“.
In der damaligen AI - Forschungsgemeinde war dies eine bahnbrechende Erklärung. Es schlug vor, das als unantastbar angesehene rekurrente neuronale Netzwerk (RNN) vollständig zu verwerfen und stattdessen nur einen Mechanismus namens „Attention“ (Aufmerksamkeit) zur Sprachverarbeitung zu nutzen. Anfangs waren viele skeptisch. Doch dieser nur 15 Seiten lange Artikel entfachte schnell ein Feuersturm. Die von ihm vorgeschlagene Transformer - Architektur hat mit unaufhaltsamer Macht die Landschaft der Künstlichen Intelligenz neu geformt. Heute stammt das Herzschlagende aller Technologien, von der Textergänzung auf Ihrem Smartphone über das Bildgenerierungssystem DALL - E bis hin zum die Welt verändernden ChatGPT, aus diesem Artikel. Zum Zeitpunkt der Veröffentlichung wurde er in Google Scholar bereits 197.159 Mal zitiert.
Die Popularität des Artikels lenkte auch den Blick der Forschungsgemeinde auf die hinteren Autoren – acht Wissenschaftler von Google damals: Ashish Vaswani, Niki Parmar, Jakob Uszkoreit, Illia Polosukhin, Noam Shazeer, Llion Jones, Lukasz Kaiser und Aidan Gomez. Später wurden sie wegen dieser bahnbrechenden Arbeit in der AI - Technologiegemeinde berühmt und von vielen als die „Acht Transformer - Macher“ bezeichnet.
Einige Jahre später, als der Einfluss des Transformers stetig wuchs, kam es in der Künstlichen - Intelligenz - Branche zu einem Gründungsboom. Sieben der Acht haben eigene Unternehmen gegründet und sind zu Geschäftsgiganten in der AI - Industrie geworden. Nur einer hat sich für einen anderen Weg entschieden. Er hat die Chance, ein kommerzielles Imperium zu gründen, verworfen und sich stattdessen der OpenAI angeschlossen, die AGI als ihre endgültige Mission hat. Er ist tief an der Kernentwicklung von Modellen wie GPT - 4, GPT - 5 sowie der Inferenzmodelle mit den Codenamen „o1“ und „o3“ beteiligt und führt diese voran. Er bleibt ein beharrlicher Forscher an den Grenzen des menschlichen Wissens. Er ist Lukasz Kaiser.
In diesem Oktober kehrt dieser legendäre Mann in die Mitte der Bühne zurück, um von der Zukunft zu erzählen, die er sieht.
Von Paris nach Mountain View
Der Anfang der Geschichte lag nicht in einem Kaffee - und Code - durchtränkten Garage in der amerikanischen Silicon Valley, sondern in der Ruhe eines europäischen klassischen akademischen Tempels, in der reinen Welt von Logik, Mathematik und Spielen. Lukasz Kaisers akademisches Erbe war von Anfang an geprägt von der extremen Nachforschung nach Systemen, Strukturen und Regeln.
Er hat an der Universität Wrocław in Polen einen Doppelmaster in Informatik und Mathematik erworben und anschließend Deutschland besucht, um an der renommierten RWTH Aachen einen Doktorat zu erlangen. Hier hat er sich für ein äußerst schwieriges und abstraktes Gebiet entschieden: „Logic and Games on Automatic Structures“ (Logik und Spiele auf automatischen Strukturen). Dies geht über bloßen Code hinaus und ist eine philosophische Überlegung über die tiefsten Regeln der Rechenwelt. Er hat versucht zu beantworten, wie Maschinen unendliche und komplexe Strukturen, die durch endliche Automaten definiert sind, verstehen und manipulieren können. Dies ist wie das Vordesign eines untersten Betriebssystems für zukünftige AI - Gehirne, eine Meta - Regel darüber, „wie die Welt verstanden wird“.
Im Jahr 2008 wurde seine Doktorarbeit fertiggestellt. Im nächsten Jahr hat eine Nachricht die Logikwelt erschüttert: Kaiser hat den E.W. Beth dissertation prize gewonnen. Dieser Preis ist einer der höchsten akademischen Ehrungen in der globalen Logik, Sprache und Information und wird speziell für die bahnbrechendsten Doktorarbeiten verliehen. Die Bewertungsstandards sind extrem streng – „technical depth, strength and originality“ (technische Tiefe, Stärke und Originalität). Kaisers Preisgewinnung war wie eine Krönung und hat bewiesen, dass er in der reinsten Theoriewissenschaft die Spitze der Welt erreicht hat.
Dieser Ehrendienst hat ihm nicht nur 3000 Euro Preisgeld gebracht, sondern vor allem hat er Kaisers tiefste Denkweise enthüllt: Er ist gewöhnt, von den ersten Prinzipien auszugehen und ein großartiges, kohärentes und elegantes System aufzubauen, um Probleme zu lösen. Diese Denkparadigmata haben eine schicksalhafte Verbindung zu seinem späteren Beitrag zur Konstruktion des ebenfalls großartigen, kohärenten und eleganten Transformers.
Nach seinem Doktorat hat er den üblichen Weg eines europäischen Spitzenwissenschaftlers eingeschlagen: Weiterführende Postdoc - Forschung in Aachen und dann 2010 die Anstellung am LIAFA - Labor der Universität Paris Diderot als ständiger Forscher des französischen Nationalen Forschungszentrums (CNRS).
In Paris hatte er eines der begehrtesten Positionen in der europäischen akademischen Welt – eine stabile Position, ausreichende Mittel und vollständige akademische Freiheit. Seine Lebensbahn schien bereits festgelegt: Ein angesehener Theoretiker zu werden und sein Leben vor der Tafel zu verbringen, indem er die tiefen Räume von Logik und Spielen erkundet.
Allerdings zeigt die Geschichte in kritischen Momenten oft erstaunliche Ähnlichkeiten. Wie einst der Physikwunderkind Stephen Wolfram, der in seinen frühen zwanziger Jahren die theoretische Physikwelt schockierte und schließlich beschloss, das akademische Nest zu verlassen und sich der Schaffung einer neuen Rechenwelt – Mathematica – zu widmen, hat auch Kaiser in seinem Inneren eine stärkere, unwiderstehliche Rufung gespürt.
Es war der Drang, von „Beweisen“ (proving) zu „Bauen“ (building) zu wechseln. Er hat gespürt, dass ein globaler technologischer Sturm in Kalifornien jenseits des Ozeans brodelt und dass er dabeisein muss.
Das Lager der RNNs und das schwache Licht der „Attention“
Im Jahr 2013 hat Kaiser eine Entscheidung getroffen, die alle seine Kollegen schockierte: Er hat seine ständige Forschungsstelle in Frankreich aufgegeben und sich der Google Brain angeschlossen.
Dies war eine Entscheidung voller großer Unsicherheit. Er hat einen klaren, ehrenvollen und sicheren Weg aufgegeben und sich einem damals von vielen als noch „unsicher“ angesehenen Gebiet – Deep Learning – zugewandt. Später hat er in einem Interview halb im Scherz seinen Gedankengang bei dieser Veränderung erklärt: „Es ist viel einfacher, ein theoretischer Informatiker zu sein, weil man 20 Jahre lang dasselbe tun kann. Man beweist vielleicht verschiedene Theoreme, aber im großen Ganzen ist es dasselbe.“ („It's much easier because you do the same thing for 20 years...it's in the big picture it's the same thing.“ - Future of LLMs, Pathway Meetup, 2024).
Hinter diesen scheinbar lockeren Worten verbirgt sich die Langeweile eines Spitzenintellektuellen an der „Wiederholung“ und der extreme Wunsch nach „Veränderung“. Dann hat er gesagt: „Deep Learning ist völlig anders. Alle zwei Jahre muss man etwas völlig anderes tun.“ („Deep learning is not like that, every two years you do a totally different thing.“ - Future of LLMs, Pathway Meetup, 2024).
Er hat scharf gespürt, dass eine neue Ära anrückt. Als er das Büro von Google in Mountain View betrat, war das Gebiet der natürlichen Sprachverarbeitung (NLP) von einer großen Mauer umgeben, und der Name dieser Mauer war rekurrentes neuronales Netzwerk (RNN).
Zu dieser Zeit war im NLP - Bereich das RNN und seine Variante LSTM der absolute Herrscher. Sie verarbeiten Texte sequenziell, wie ein Mensch, der liest, Wort für Wort. Allerdings hat dieser Mechanismus einen fatalen Mangel: Erinnerungslosigkeit. Wenn der Satz länger wird, vergisst das Modell oft die Anfangsinformationen. Dies wird als „Problem der langen Abhängigkeiten“ bezeichnet.
Die gesamte AI - Welt hat versucht, dieses Lager zu befestigen, z.B. indem sie komplexere Gating - Mechanismen entworfen haben, aber niemand hat daran gedacht, es vielleicht zu stürzen.
Kaiser und sein Team sind zu den ersten „Sturmtruppen“ geworden. Er hat klar die Wurzel des Problems benannt: „Als die neuronalen Netzwerke entstanden, waren sie für die Bilderkennung entwickelt... aber Sätze und Bilder sind völlig unterschiedlich.“ („When neural networks first came out, it's built for image recognition to process inputs with the same dimension of pixels. Sentences are not the same as images.“ - AI Frontiers Conference, 2017).
Bilder sind parallel und übersichtlich, während das RNN die Sprachverarbeitung zwangsläufig linear und schrittweise macht.
Noch fataler ist, dass die serielle Eigenschaft des RNNs im Widerspruch zur Hardwareentwicklung steht. „Diese RNNs waren ziemlich langsam... sie waren sehr sequenziell. Also war es nicht gut für die GPUs und TPUs, die damals gebaut wurden.“ („These RNNs they were quite slow... they were very sequential. So so it was not a great fit for the GPUs and TPUs that were being built at the time.“ - AI for Ukraine Talk, 2023).
Gerade dann ist ein schwaches Licht aufgetaucht. 2014 haben Ilya Sutskever und andere das Seq2Seq - Modell vorgeschlagen, was einen Durchbruch gebracht hat, aber Kaiser und andere haben bald festgestellt, dass es immer noch schwach bei der Verarbeitung langer Sätze ist. Also haben sie einen Mechanismus namens „Attention“ eingeführt. Die Essenz dieser Idee ist, dass das Modell beim Übersetzen oder Generieren von Texten zurückblicken kann und dynamisch entscheiden kann, welche Wörter am wichtigsten sind, anstatt nur auf den letzten verborgenen Zustand zu verlassen.
Dieses schwache Licht war zunächst nur ein „Verbesserungspatch“ für das RNN, aber Kaiser und seine Kollegen haben erkannt, dass es weitaus mehr Potenzial haben könnte. Eine subversive Frage hat sich im Team entwickelt: Was würde passieren, wenn wir die Mauer des RNNs wegschaffen und nur das Licht der „Attention“ behalten?
Die Acht versammeln sich und werden Legenden
Diese verrückte Idee hat die besten Köpfe von Google Brain zusammengebracht: Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Illia Polosukhin und Lukasz Kaiser.
Sie standen vor einer bisher nie dagewesenen technologischen und wissenschaftlichen Herausforderung. Um diesen völlig auf Attention basierenden neuen Algorithmus schnell zu verbessern, brauchten sie eine starke experimentelle Plattform. Diese Aufgabe fiel auf Kaiser und Aidan N. Gomez, der damals noch ein Praktikant war. Sie begannen, eine neue Open - Source - Bibliothek zu entwickeln: Tensor2Tensor (T2T).
Dies war nicht nur das Schreiben von Code. T2T spiegelt Kaisers tiefes Denken über die „Allgemeinverfügbarkeit von KI“ wider. Er hat immer gedacht, dass die Schwelle zum Deep Learning damals zu hoch war: „Wir haben festgestellt, dass es für Menschen immer noch ziemlich schwierig ist, in das Machine Learning einzusteigen, ihr erstes Modell zu starten und das System zum Laufen zu bringen.“ („We found it is still quite hard for people to get into machine learning, start their first model, get their system working.“ - AI Frontiers Interview, 2018).
Im Jahr 2017 war der Artikel fertig. Der Titel, der von Jakob Uszkoreit vorgeschlagen wurde, war voller Selbstvertrauen und sogar ein wenig „überheblich“: „Attention Is All You Need“ (Alles, was Sie brauchen, ist Attention!). Dieser Titel fasste perfekt ihre Kernidee zusammen: Der Attention - Mechanismus ist kein Nebenschauspieler, er ist alles.
In der Fußnote des Artikels steht ein bescheidenes und bewegendes Wort: „Gleicher Beitrag. Die Reihenfolge der Autoren ist zufällig.“ (Equal contribution. Listing order is random.)
Dies spiegelt nicht nur das Teamgeist wider, sondern hat auch die Legende dieser Geschichte verstärkt.
„Attention is All You Need“ ist nicht nur ein akademischer Artikel, sondern die grundlegende Arbeit der Theorie der großen Modelle, der Schlüssel zur neuen Ära der Künstlichen Intelligenz und hat eine bisher nie dagewesene Tür zur Allgemeinen Künstlichen Intelligenz (AGI) geöffnet.
Als er auf arXiv veröffentlicht wurde, hat die gesamte AI - Welt einen starken Schock gespürt. Ilya Sutskever, der damalige Mitbegründer von OpenAI, hat später erinnert, dass er sofort erkannte, als er diesen Artikel las: „Das ist alles, was wir brauchen“ (It was all we needed).
Diese Veränderung von Skepsis über Schock bis hin zur völligen Überzeugung hat sich schnell verbreitet. Die Transformer - Architektur hat mit ihrer beispiellosen parallelen Rechenleistung und ihrer Fähigkeit, lange Abhängigkeiten gut zu erfassen, die Mauer des RNNs völlig zerstört und ist schnell das neue Paradigma im NLP - Bereich geworden und hat bald seinen Einfluss auf fast alle AI - Teilbereiche wie Computervision, Spracherkennung und Bioinformatik ausgeweitet.
Die acht Autoren sind mit einem Schlag Legenden geworden.
Während alle über den Erfolg des Transformers jubelten, hat Kaisers Blick schon weiter in die Ferne gerichtet.
„Ein Modell für alles“
Im selben Jahr, als „Attention Is All You Need“ veröffentlicht wurde, hat Kaiser als Hauptautor zusammen mit einigen der Acht einen anderen Artikel veröffentlicht, der damals nicht so „mainstream“ war, aber ambitionierter: „One Model To Learn Them All“.
In diesem Artikel haben sie ein einzelnes Modell namens MultiModel vorgeschlagen, das acht völlig verschiedene Aufgaben wie Bildklassifizierung (ImageNet), Mehrsprachübersetzung (WMT), Bildbeschreibung (MS - COCO), Spracherkennung und Syntaxanalyse gleichzeitig behandeln kann. Obwohl es in jeder einzelnen Aufgabe nicht besser als die spezialisierten Modelle war, war es das erste Mal in der Geschichte, dass Forscher ernsthaft bewiesen haben, dass eine einheitliche Deep - Learning - Architektur das Potenzial hat, Wissen aus mehreren Bereichen gemeinsam zu lernen.
Dieser Artikel war Kaisers erster öffentlicher „Flüsterton“ seiner Verfolgung der Allgemeinen Künstlichen Intelligenz (AGI). Die Kernfrage, die er gestellt hat, war: „Können wir ein einheitliches Deep - Learning - Modell erstellen, um Aufgaben aus mehreren Bereichen zu lösen?“ („Could we create one deep - learning model to solve tasks from multiple domains?“ - AI Frontiers Interview