StartseiteArtikel

Wo stehen die acht „Väter“ des Transformers heute?

机器之心2026-06-28 13:22
Keiner der acht Autoren hat aufgehört, nach der nächsten Antwort zu suchen.

Redaktion | Panda 

Vor ein paar Tagen hat Google nacheinander zwei wichtige Mitarbeiter verloren.

Am 18. Juni kündigte Noam Shazeer, einer der Mitautoren der Transformer - Studie, auf X seinen Wechsel zu OpenAI an. Zwei Tage später kündigte John Jumper, der Gewinner des Nobelpreises für Chemie 2024 und Leiter des AlphaFold - Teams, ebenfalls seinen Austritt aus Google DeepMind an und gab an, dass er zu Anthropic gehen würde.

Nach diesen beiden Nachrichten hat der Kapitalmarkt heftig reagiert: Die Aktien von Alphabet, dem Mutterunternehmen von Google, sind um mehr als 7 % eingebrochen, und der Marktwert hat um über 300 Milliarden US - Dollar geschrumpft. Viele Analyseinstitute haben diesen Absatz auf den "Austritt von Talenten" zurückgeführt. Gil Luria, Analyst von D.A. Davidson, sagte direkt, dass die Weichenstellungen von Shazeer zu OpenAI und von Jumper zu Anthropic die Märkte befürchten ließen, dass Google im Wettlauf um AI - Talente zurückbleibe.

Shazeers heutiger Austritt ist besonders bemerkenswert - es ist bereits sein zweiter Austritt aus Google.

Im Jahr 2021 verließ er Google, weil das Unternehmen seinen von ihm geleiteten Chatbot nicht veröffentlichen wollte, und gründete Character.AI. Im August 2024 kaufte Google die Technologielizenz von Character.AI für etwa 2,7 Milliarden US - Dollar und holte ihn zurück nach DeepMind, wo er als Engineering - Vizepräsident des Gemini - Projekts mit Jeff Dean das Projekt gemeinsam leitete. Weniger als zwei Jahre später verließ er erneut, diesmal zu OpenAI, Google's Konkurrent.

Damit haben alle acht Mitautoren der vor neun Jahren veröffentlichten Studie "Attention Is All You Need" Google verlassen.

Der 𝕏 - Benutzer Tyler Maran hat ein Diagramm erstellt, das die jetzigen Standorte der Autoren zeigt. Dieses Diagramm wurde in den sozialen Netzwerken heftig geteilt.

Dieses Diagramm könnte jedoch bald veraltet sein. In den letzten zwei Tagen kursierten Gerüchte, dass Nvidia das Kernteam von Essential AI heimlich rekrutiert, darunter Ashish Vaswani, einer der Autoren der Transformer - Studie und Mitbegründer und CEO von Essential AI. Bis zum Zeitpunkt der Veröffentlichung hat weder Nvidia noch Essential AI eine offizielle Stellungnahme dazu abgegeben.

Anlässlich dieses Ereignisses können wir die Karriere der acht als "Väter des Transformers" bezeichneten Personen in den letzten neun Jahren und ihre jetzigen Standorte zusammenfassen.

Es ist zu beachten, dass die Reihenfolge der Autoren der Studie "Attention Is All You Need" zufällig ist. In der Fußnote der Studie steht klar: Alle Autoren haben gleichermaßen beigetragen, und die Reihenfolge ist zufällig. Daher gibt es keine sogenannten "ersten Autoren" oder "Korrespondenzautoren". In diesem Artikel werden die acht Personen in der ursprünglichen Reihenfolge der Autorenangabe vorgestellt.

"Der Ursprung aller Dinge": Acht Google - Mitarbeiter, die sich abseits ihres Jobs betätigten

Um ihre jetzigen Standorte zu verstehen, müssen wir zurück in das Jahr 2017 gehen. Damals war die vorherrschende Methode im Bereich maschineller Übersetzung das rekurrente neuronale Netz (RNN). Das Modell musste die Sätze Wort für Wort in der Reihenfolge verarbeiten, ähnlich wie Autos auf einer Einbahnstraße, und konnte keine parallele Berechnung durchführen. Die Trainingszeit war lang und teuer.

Acht Mitarbeiter von Google Brain beschlossen, eine fast rücksichtslose Idee auszuprobieren: Die rekurrente Struktur komplett zu entfernen und nur den "Attention - Mechanismus" zu behalten, damit das Modell den gesamten Satz auf einmal sehen und entscheiden kann, welches Wort stärker betrachtet werden sollte. Der Titel der Studie "Attention Is All You Need" spielt auf das Lied "All You Need Is Love" der Beatles an und ist seitdem eine beliebte Form für die Titel vieler Studien geworden.

Die Erläuterung der Beiträge der Autoren in der Studie gibt kurz an, was jeder Person getan hat:

Jakob Uszkoreit hat zuerst die Idee vorgeschlagen, die rekurrente Struktur durch Selbst - Attention zu ersetzen und die frühe Validierung dieser Idee geleitet;

Ashish Vaswani hat zusammen mit Illia Polosukhin das ursprüngliche Transformer - Modell entworfen und implementiert und hat fast an jedem Teil des Projekts teilgenommen;

Noam Shazeer hat die Skalierte Punktprodukt - Attention, den Multi - Head - Attention - Mechanismus und die parameterlose Positionsdarstellungsmethode vorgeschlagen und war ein weiterer, der fast an allen Details beteiligt war;

Niki Parmar hat in der ursprünglichen Codebasis und später im tensor2tensor - Framework unzählige Modellvarianten entworfen, implementiert und debuggt;

Llion Jones hat ebenfalls viele neue Modellvarianten getestet und war für die ursprüngliche Codebasis, die Optimierung der Inferenzleistung und die Visualisierung zuständig;

Łukasz Kaiser und Aidan N. Gomez haben unzählige Nächte damit verbracht, die einzelnen Module von tensor2tensor aufzubauen, die frühe Codebasis zu ersetzen und die Experimentergebnisse und die Forschungseffizienz erheblich zu verbessern.

Diese Erläuterung enthüllt auch indirekt ein Detail: Obwohl die Reihenfolge der Autorenangabe zufällig war, haben Uszkoreit, Vaswani, Polosukhin und Shazeer offensichtlich eine kernere Rolle in der Architektur übernommen, während Parmar, Jones, Kaiser und Gomez in der technischen Umsetzung und im Systemaufbau die Hauptlast getragen haben - dies war auch ein frühes Anzeichen für die Unterschiede in Charakter und Fachkenntnissen, die sich später bei der Wahl unterschiedlicher Wege zeigten.

Der Name "Transformer" hat auch eine Anekdote. Uszkoreit mochte die Aussprache dieses Wortes, also nannten sich das Team intern "Team Transformer", und auf der Titelseite der frühen Entwurfsdokumente waren sechs Charaktere aus der Transformers - Animation dargestellt.

Seit der Veröffentlichung der Studie wurde sie bereits mehr als 260.000 Mal zitiert und ist eine der am häufigsten zitierten Studien des 21. Jahrhunderts.

Ashish Vaswani

Vaswani wurde 1986 in Indien geboren. Er absolvierte 2002 ein Bachelorstudium in Informatik an der Birla Institute of Technology (BIT Mesra) in Indien und reiste anschließend nach den USA, wo er an der University of Southern California unter der Leitung von David Chiang promovierte. Sein Forschungsgebiet war die statistische maschinelle Übersetzung und die neuronale Sprachmodellierung. Nach Abschluss seines Promotionsstudiums arbeitete er zwei Jahre als Informatikwissenschaftler am Information Sciences Institute der University of Southern California und trat 2016 offiziell bei Google Brain als Forschungsingenieur ein und arbeitete dort bis 2021.

Nach der Erläuterung der Beiträge der Autoren in der Studie hat Vaswani zusammen mit Illia Polosukhin das ursprüngliche Transformer - Modell entworfen und implementiert und war einer der Kernmitarbeiter, der "fast an jedem Teil des Projekts beteiligt war".

Nach seinem Austritt aus Google gründete Vaswani 2021 zusammen mit Niki Parmar, David Luan, dem ehemaligen Engineering - Vizepräsidenten von OpenAI, und anderen Adept AI und übernahm die Position als Chefwissenschaftler. Das Ziel des Unternehmens war es, ein "Verhaltensmodell" zu entwickeln, das autonom in beliebigen Softwareanwendungen agieren kann.

Adept hat einmal mehr als 400 Millionen US - Dollar an Kapital beschafft und einen Schätzwert von etwa 1 Milliarde US - Dollar erreicht, aber das Produkt konnte nicht realisiert werden, und es gab interne Meinungsverschiedenheiten. Vaswani und Parmar haben frühzeitig aus Adept ausgetreten - seine Laufzeit als Chefwissenschaftler bei Adept endete im November 2022.

Anfang 2023 gründete Vaswani erneut zusammen mit Parmar Essential AI und übernahm die Position als CEO. Das Unternehmen hat strategische Investitionen von Google, Nvidia und AMD erhalten: Die Seed - Runde von 8,3 Millionen US - Dollar wurde von Thrive Capital geleitet, und die Serie A - Runde von 56,5 Millionen US - Dollar Ende 2023 wurde von March Capital geleitet, wobei Google, Nvidia, AMD, KB Investment, Franklin Templeton und andere Institutionen mitinvestierten. Anfang 2026 absolvierte das Unternehmen eine Serie B - Finanzierung von 175 Millionen US - Dollar, die von Lightspeed Venture Partners geleitet wurde, und Thrive Capital investierte mit. Der Schätzwert stieg auf 1 Milliarde US - Dollar, und das Unternehmen wurde offiziell ein Unicorn.

Ende 2025 veröffentlichte das Unternehmen seine erste Open - Source - Modellreihe Rnj - 1 (benannt nach dem indischen Mathematiker Ramanujan).

In den letzten zwei Tagen hat sich jedoch die Situation drastisch geändert. Laut Berichten rekrutiert Nvidia das Kernteam von Essential AI, und Vaswani selbst ist darunter. Er wird in Zukunft an der Entwicklung des Open - Source - Modells Nemotron von Nvidia beteiligt sein.

Informanten haben angegeben, dass der Grund recht realistisch ist: Essential AI hat Schwierigkeiten bei der Finanzierung, und es ist für Nvidia ein guter Deal, Vaswani und sein Team von AMD, einem früheren strategischen Investor von Essential AI, zu gewinnen (das Unternehmen hat lange Zeit auf die GPU von AMD angewiesen). Einige Forscher von Essential AI (einschließlich Alok Tripathy und Saurabh Srivastava) haben ihre LinkedIn - Profile aktualisiert und angegeben, dass sie bei Nvidia eingetreten sind. Bisher haben weder Nvidia noch Essential AI diese Nachricht offiziell bestätigt.

Noam Shazeer

Shazeer wurde 1976 in Philadelphia geboren und ist ein orthodoxer Jude. Sein Vater Dov Shazeer ist ein Ingenieur mit mathematischem Hintergrund, und seine Schwestern sind von der Hebräischen Hochschule als Rabbinerinnen ernannt worden. In seiner Jugend hat er bereits außergewöhnliche Talente gezeigt. 1994 nahm er als Mitglied der US - Nationalmannschaft am Internationalen Mathematikolympiad teil und gewann eine Goldmedaille mit vollem Punktestand. Anschließend studierte er an der Duke University Mathematik und Informatik, erhielt das Angier B. Duke Memorial Scholarship und gewann bei dem Putnam - Mathematikwettbewerb.

Im Jahr 2000 trat Shazeer bei Google ein. Sein frühes Meisterwerk war die Reparatur der Rechtschreibkorrekturfunktion von Google Search.

Nach der Erläuterung der Beiträge der Autoren in der Transformer - Studie hat er die Skalierte Punktprodukt - Attention, den Multi - Head - Attention - Mechanismus und die parameterlose Positionsdarstellungsmethode vorgeschlagen und war neben Vaswani und Polosukhin einer, der "fast an jedem Detail beteiligt war".

Nach der Veröffentlichung der Transformer - Studie 2017 entwickelte er zusammen mit seinem Kollegen Daniel De Freitas den Chatbot Meena, aber Google hat ihn aus Vorsicht nicht veröffentlicht. 2021 haben beide den Austritt aus Google beschlossen und Character.AI gegründet. Das Unternehmen hat einmal mehr als 150 Millionen US - Dollar von Institutionen wie a16z beschafft und eine beliebte Rollenspiel - Chat - App entwickelt.

Im August 2024 hat sich die Situation geändert: Google hat ein Lizenzvertrag mit Character.AI abgeschlossen, der laut Berichten 2,7 Milliarden US - Dollar betragen soll. Shazeer und De Freitas sind mit einem kleinen Team von Kollegen zurück nach Google DeepMind gekommen. Er wurde als Engineering - Vizepräsident ernannt und leitet zusammen mit Jeff Dean und Oriol Vinyals das Gemini - Projekt. Da er