StartseiteArtikel

2017, Die Entstehung von Oppenheimer

远川研究所2026-03-12 10:28
Technik und Traum, Fortschritt und Unkontrolliertheit

Im Juni 2017 veröffentlichten acht AI-Forscher von Google eine Studie mit dem Titel „Attention Is All You Need“ und stellten die Transformer-Architektur vor.

Der Transformer ist das „T“ in ChatGPT. Die Großmodelle großer Unternehmen, verschiedene Arten von AI-Agenten, Algorithmen für autonomes Fahren und fast alle Kreativitäten in der Künstlichen Intelligenz basieren auf dem Transformer.

Es ist keine Übertreibung zu sagen, dass sich mit der Entstehung des Transformers der historische Fortschritt der Künstlichen Intelligenz plötzlich beschleunigte.

Die acht Autoren von „Attention Is All You Need“

Als diese bahnbrechende Studie veröffentlicht wurde, unterschätzten jedoch die acht Autoren, Google, für das sie arbeiteten, und alle globalen High-Tech-Unternehmen die Revolutionäre Bedeutung des Transformers bei weitem. Die treffendste Bewertung stammt aus der Zeitschrift Wired [1]: Eine Geheimwaffe, die kein Geheimnis ist.

Zu dieser Zeit konzentrierte sich die Vorstellung der Öffentlichkeit von Künstlicher Intelligenz noch auf AlphaGo, das Schachspielende. Einen Monat vor der Veröffentlichung der Studie besiegte AlphaGo den Go-Spieler Ke Jie in Wuzhen mit 3:0, was die Öffentlichkeit direkt in ihrer Wahrnehmung von KI geprägt hat.

Dies scheint zu erklären, warum Google, das am wenigsten den Transformer unterschätzen sollte, die Wichtigkeit der Studie so stark unterschätzte:

Das Unternehmen DeepMind, das AlphaGo erfunden hat, wurde 2014 von Google übernommen. Zur gleichen Zeit, als AlphaGo Ke Jie besiegte, veröffentlichte DeepMind die neue Version AlphaGo Zero, die AlphaGo mit 100:0 schlug. Ein weiteres großes Projekt, AlphaFold (Protein-Faltungsvorhersage), wurde ebenfalls eifrig vorangetrieben. Der Gründer Demis Hassabis erhielt für dieses Projekt den Nobelpreis für Chemie 2024.

Die Autoren der Transformer-Studie kamen aus anderen AI-Forschungsabteilungen von Google, nämlich dem Google Brain und dem Google Research-Team. Aus Sicht von DeepMind lösten sie in London komplexe wissenschaftliche Probleme, während Google Brain in den USA an Übersetzungssoftware arbeitete. Der Unterschied war offensichtlich.

Das Google-Management achtete auch nicht sonderlich auf den Transformer. 2018 stellte Google auf Basis der Transformer-Architektur das BERT-Modell vor, um die Google-Suche zu optimieren, ohne zu realisieren, dass es in der Hand eine nukleare Waffe der Künstlichen Intelligenz hielt.

AlphaGo hat auch Elon Musk verwirrt. Als wichtiger Geldgeber von OpenAI fand Musk, dass OpenAI zu langsam voranschritt und gegen Google und DeepMind keine Chance hatte. Er schlug vor, OpenAI in Tesla aufzunehmen und selbst die Leitung zu übernehmen, was der Gründer Sam Altman ablehnte.

Anschließend zog Musk sich vollständig aus OpenAI zurück und rekrutierte den Gründungsmitglied Andrej Karpathy, der als Leiter der autonomen Fahrweise bei Tesla eingesetzt wurde.

Die Geschichte von NVIDIA war noch dramatischer: Im Mai 2017 brachte NVIDIA die V100-GPU mit Tensor Core (Tensor-Kern) auf den Markt. Huang Renxun hat wahrscheinlich nicht gedacht, dass diese Architektur wie auf Maß für den einen Monat später entstandenen Transformer entwickelt war.

Die einzige Organisation, die die revolutionäre Bedeutung des Transformers klar erkannte, war OpenAI. Der Techniker Ilya Sutskever war der Meinung, dass der Transformer die Schwächen früherer Technologien überwindet. Er kürzte viele scheinbar interessante, aber aussichtslose Projekte und konzentrierte alle Ressourcen auf ein Projekt: das Training des GPT-Modells.

Im Jahr 2022 begann OpenAI mit dem Training des GPT-4-Modells. Das Team wollte vor der Veröffentlichung des Modells einen Chatbot entwickeln, um die Reaktionen der Menschen auf KI zu beobachten und die weitere Forschung zu leiten. Der Gründer Sam Altman gab auf Twitter bekannt:

Wir haben etwas namens ChatGPT entwickelt. Probiert es mal aus!

Innerhalb von fünf Tagen nach der Veröffentlichung von ChatGPT hatten mehr als eine Million Benutzer das System genutzt. Zwei Monate später erreichte es eine Milliarde Nutzer und brach damit den Rekord von TikTok als das am schnellsten wachsende Internetprodukt. Ein neuer industrieller Revolutionszug begann.

Von der Veröffentlichung von „Attention Is All You Need“ im Jahr 2017 bis zur Veröffentlichung von ChatGPT im Jahr 2022 hat sich ein fünfjähriges Gewitter immer näher angenähert. Die Welt wurde in einem plötzlichen Donnerschlag für immer verändert.

Bis heute scheint die Menschheit nicht darauf vorbereitet zu sein.

2012: Der letzte Winter

Das ultimative Ziel der Künstlichen Intelligenz ist es, Maschinen mit menschlichen Fähigkeiten auszustatten. Dies erfordert die Simulation menschlicher Wahrnehmungs- und Erkenntnisfähigkeiten. Zwei der zentralsten Forschungsgebiete sind Computer Vision (CV) und Natural Language Processing (NLP).

Im Jahr 2012 nahm der Professor an der Universität von Toronto, Geoffrey Hinton, zusammen mit seinen zwei Studenten Ilya Sutskever und Alex Krizhevsky an der ImageNet-Bilderkennungswettbewerbs teil und gewann mit einer Genauigkeit von 84%. Ab diesem Zeitpunkt begann die Industrialisierung der Künstlichen Intelligenz.

Das Team um Hinton konzentrierte sich auf Computer Vision und verwendete einen Algorithmus namens Convolutional Neural Network (CNN). Der Algorithmus arbeitet, indem ein „Convolutional Kernel“ über das Bild gleitet, um Konturen, Kanten und Texturen zu extrahieren. In Kombination mit paralleler Berechnung ist die Erkennungsleistung sehr hoch.

Dies ist eigentlich eine Simulation des menschlichen Gehirns: Das Gehirn abstrahiert ständig die Pixel, die durch die Pupille aufgenommen werden. Deshalb können Menschen Objekte anhand einiger Merkmale erkennen, ohne das gesamte Objekt sehen zu müssen.

Beispielsweise zeigt das folgende Bild nicht das gesamte Entchen, aber die meisten Menschen würden es nicht als Maus oder ein anderes Tier erkennen:

Die hohe Effizienz des CNN in Kombination mit der Rechenleistung von GPUs hat den industriellen Einsatz von Computer Vision beschleunigt. Anwendungen wie intelligentes Parken, Paketaussortierung und Gesichtserkennung wurden schnell umgesetzt, und die Investitionseuphorie der Kapitalgeber stieg rapide.

Professor Hinton erhielt für seinen Beitrag den Nobelpreis für Physik 2024. Alex Krizhevsky arbeitete einige Jahre bei Google und trat dann aus der Branche aus. Ilya Sutskever ist bis heute aktiv und war an der Gründung von OpenAI beteiligt. Er ist ein Schlüsselmitglied des GPT-Modellteams.

Während Computer Vision auf dem Vormarsch war, kämpfte die Natural Language Processing-Branche hart.

Der Grund dafür ist, dass Bilder „kontinuierlich“ sind, wie ein Puzzle, bei dem jedes Stück mit anderen verbunden ist, um ein komplettes Bild zu bilden. Darüber hinaus handelt es sich bei Computer Vision hauptsächlich um „Wahrnehmungsprobleme“. Ob es sich um die Erkennung von Katzen und Hunden oder um die Erkennung von Nummernschildern handelt, die Antworten sind objektiv. Wenn die Genauigkeit nicht hoch ist, kann dies manuell korrigiert werden.

Sprache hingegen ist „diskret“. Die Beziehungen zwischen Wörtern basieren auf abstrakten Grammatiken und Logiken und können nicht wie ein Puzzle „zusammengefügt“ werden. Mit anderen Worten, das Problem bei Natural Language Processing liegt in seiner „Natürlichkeit“: Es handelt sich um unstrukturierte Alltagssprache, nicht um standardisierte Finanzindikatoren oder Programmiersprachen.

Darüber hinaus ist die Spracherkennung eher ein „Erkenntnisproblem“. Es ist nicht nur erforderlich, Wörter und Aussprache zu erkennen, sondern auch deren Bedeutung zu verstehen.

Zu dieser Zeit war der vorherrschende Algorithmus im Bereich NLP das Recurrent Neural Network (RNN). Erstens muss es Wort für Wort in Reihenfolge gelesen werden, was die Rechenleistung sehr langsam macht. Zweitens vergisst der Algorithmus, wenn der Text zu lang ist, was er am Anfang gelesen hat. Dieses Phänomen wird als „long-distance dependency“ bezeichnet.

Dies ist auch der Grund, warum viele Sprachassistenten wie Siri als unintelligent empfunden werden: Das RNN kann die abstrakte Logik langer Texte nicht wirklich verstehen und ist stark von manuell geschriebenen Regeln abhängig.

Im Vergleich zu den kommerziellen Perspektiven von Computer Vision war NLP eher ein Außenseiter für Investoren. Im Vergleich zur PPT-Fahrzeugentwicklung damals war es nur knapp besser.

Dies erklärt auch, warum der Transformer von der Branche insgesamt unterschätzt wurde: Die acht Autoren wollten ihn nur zur Optimierung der Übersetzungseffizienz verwenden und die Ranglisten in der BLEU (Maschinelle Übersetzungsgenauigkeitstest) verbessern.

Wenn man die Originalstudie von „Attention Is All You Need“ liest, zeigt der Experimentteil fast ausschließlich Rekorde in der zweisprachigen Übersetzung. Es wurde überhaupt nicht an AGI gedacht.

Dies ist auch verständlich. Mehr als 150 Jahre nach der Entdeckung des Urans hat niemand es mit der Atombombe in Verbindung gebracht.

2017: Attention

Im Jahr 2016 besiegte AlphaGo Lee Sedol und weckte die Welt der Technologieunternehmen auf. Zur gleichen Zeit litt Google innerlich unter seinen Übersetzungsprodukten.

Zu dieser Zeit führte Google für die maschinelle Übersetzung das GNMT (Google Neural Machine Translation)-System ein, das auf dem vorherrschenden RNN (LSTM)-Ansatz in der Branche basierte. Google führte in GNMT einen Mechanismus namens „Attention“ ein.

Einfach ausgedrückt, löst Attention das Problem des RNN, dass es „am Ende vergisst, was es am Anfang gelesen hat“. Es ermöglicht es dem Algorithmus, bei der Erkennung langer Absätze verschiedene Teile des Absatzes dynamisch zu berücksichtigen, von Zeit zu Zeit auf die vorherigen Wörter zu schauen und verschiedenen Wörtern unterschiedliche Gewichte zuzuweisen, um die Übersetzung genauer zu machen.

GNMT übernahm die theoretische Idee von Attention und optimierte es für Milliarden von echten Übersetzungsaufgaben täglich. Aber die sequenzielle Berechnung des RNN führte zu einer sehr niedrigen Rechenleistung.

Der Transformer wurde entwickelt, um die Rechenleistung zu verbessern. Einer der Autoren, Jakob Uszkoreit, fragte sich: Wenn Attention so gut ist, warum sollten wir noch das RNN verwenden? Dies ist die Bedeutung des Titels der Studie: Attention Is All You Need.

Basierend auf dieser Idee verließ der Transformer das RNN und führte den Self-Attention-Mechanismus ein. Einfach ausgedrückt, sieht jedes Wort in einem Text alle anderen Wörter an und bestimmt dynamisch das Gewicht jedes Wortes, um zu entscheiden, auf welches Wort es sich konzentrieren soll.

Da beliebige Wörter in einem Text miteinander verbunden werden können, wird das Problem des „Vergessens“ gelöst. Aber dadurch kann der Algorithmus die Reihenfolge der Wörter nicht erkennen. Deshalb verwendet der Transformer Position Encoding, um jedem Wort eine Koordinate zu geben und die ursprüngliche Wortreihenfolge wiederherzustellen.

Zusätzlich werden alle Wörter im Rahmen des Transformers gleichzeitig in eine Matrix eingegeben und parallel berechnet. In Kombination mit Multi-Head Attention (mehrere Attention-Module berechnen gleichzeitig) eignet sich der Transformer besonders gut für die GPU-Berechnung, und die Effizienz steigt exponentiell.

Sobald die Studie veröffentlicht wurde, löste sie in der Natural Language Processing-Branche eine Sensation aus und trug zur Innovationswelle in der Branche nach 2018 bei.

Anfang 2018 veröffentlichte die Universität von Washington ein ELMo-Modell. Die Forscher ließen das Modell zunächst eine große Anzahl von unmarkierten Texten lesen, um die Sprachregeln selbst zu verstehen, und führten dann spezifische Aufgaben aus. Das Ergebnis war gut. Dieser Ansatz wird als „Pre-training“ bezeichnet.

ELMo hat gezeigt, dass die Idee des Pre-trainings funktioniert. Dadurch wird die Abhängigkeit des Algorithmus von manuell markierten Daten stark reduziert, und das Problem „Je mehr Menschen, desto mehr Intelligenz“ wird erheblich gelindert. Aber ELMo verwendete die RNN-Architektur, und die Rechenleistung war sehr niedrig.

Im Oktober 2018 stellte Google auf Basis des Transformers und des Pre-trainings das BERT-Modell vor und verbesserte alle Rekorde in den wichtigsten Benchmark-Tests im Bereich NLP. Im SQuAD1.1-Test der Stanford University übertraf BERT die menschliche Leistung vollständig.

Nachdem BERT den Weg geebnet hatte, trainierte Meta mit mehr Daten das RoBERTa-Modell, das Microsoft Research Asia entwickelte das MT-DNN, und Baidu veröffentlichte im März 2019 das ERNIE (später Wenxin Yiyan), das in chinesischen Aufgaben BERT übertraf.

Das Google-Management erkannte auch den großen kommerziellen Wert von BERT. Im Oktober 2019 kündigte Google an, BERT in der englischen Suche vollständig einzusetzen und so sofort die Geschäftsprozesse zu verbessern. In Kombination mit dem selbst entwickelten TPU-Rechencluster stieg ein Imperium der Künstlichen Intelligenz auf.

Aber wie wir wissen, wurde Google von OpenAI mit seiner eigenen Waffe geschlagen.

2018: Mit genug Kraft kann alles fliegen

Einer der Gründe für die Entstehung von BERT war die technologische Ideendifferenz zwischen Google und OpenAI.

Nach der Entstehung des Transformers war OpenAI das erste, das tätig wurde. Im Juni 2018 veröffentlichte OpenAI das GPT-1-Modell. GPT steht für Generative Pre-trained Transformer.

Dieses Modell mit nur 117 Millionen Parametern repräsentierte vollständig die technologische Idee des Technikers Ilya Sutskever.

Einfach ausgedrückt, ist der Ansatz von OpenAI „generativ“: Wenn man dem Algorith