StartseiteArtikel

Diffusion stirbt nicht, BERT lebt für immer. Karpathy reflektiert in der frühen Morgenstunde: Sollte die autoregressive Ära zu Ende gehen?

新智元2025-11-05 12:40
Verpasste Chancen von Google und Prophezeiungen von IBM: Ein Artikel weckt Karpathy auf, Diffusionsmodelle könnten der nächste Schritt für LLMs sein.

Die unwiderstehliche Versuchung von Karpathy!

Nathan Barry, ein ehemaliger Apple-Mitarbeiter und Informatikstudent an der Universität von Texas in Austin (UT Austin), kam zu einem erstaunlichen Schluss:

Im Wesentlichen ist BERT nur ein Schritt in der Text-Diffusion!

Basierend auf dem „verstärkten BERT“ RoBERTa hat er es geschafft, den Representations-Learning-Algorithmus in einen Generierungsalgorithmus umzuwandeln:

Nachdem er den Beitrag gelesen hatte, war der Gründungsmitglied von OpenAI und ehemalige AI-Direktor von Tesla, Karpathy, in tiefes Nachdenken versetzt:

Das menschliche Denken neigt vielleicht eher zur autoregressiven Art — das Gefühl, Schritt für Schritt voranzukommen. Aber in unserem mentalen Latentraum kann man nicht ausschließen, dass es auch Mechanismen gibt, die eher der Diffusion ähneln.

Vielleicht kann man zwischen diesen beiden Ansätzen noch interpolieren oder sogar weiter verallgemeinern.

Dieser Teil der Generierungslogik ist in der LLM-Architektur immer noch ein relativ „variabler“ Bestandteil.

Karpathy ist aber derzeit damit beschäftigt, ein ultimatives Praxisprojekt „ChatGPT für 100 Dollar“ für den Kurs „LLM 101n“ von Eureka Labs zu entwickeln. Deshalb muss er sich „mit schwerem Herzen“ zurückhalten:

Jetzt muss ich mich davor enthalten, nanochat mit einem Diffusionsmodell zu trainieren. Ich darf mich nicht von der Hauptaufgabe ablenken und auf Nebenthemen abweichen.

Übrigens, kurz danach wurde er von DeepSeek-OCR zu neuen Gedanken angeregt.

Das vergessene Juwel von Google

Als Nathan Barry erstmals die Artikel über Sprach-Diffusionsmodelle las, war er überrascht zu entdecken, dass deren Trainingsziel nur eine Verallgemeinerung des Masked Language Modeling (MLM) ist.

Seit 2018 mit der Entstehung von BERT ist das Masked Language Modeling allgegenwärtig.

Preprint: https://arxiv.org/abs/1810.04805

Plötzlich kam ihm die Idee, ob man ein BERT-ähnliches Modell feinabstimmen könnte, um es auch für die Textgenerierung zu nutzen.

Aus Neugierde führte er ein schnelles Validierungsexperiment durch. Dann stellte er fest, dass das schon jemand getan hatte — DiffusionBERT basiert im Wesentlichen auf dieser Idee, aber wurde rigoroser umgesetzt.

Interessanterweise wurde DiffusionBERT vor etwa 3 Jahren von Forschern chinesischer Hochschulen entwickelt, 100 % „Made in China“!

Preprint-Link: https://arxiv.org/abs/2211.15029

Anfangs wurden Diffusionsmodelle in der Bildgenerierung sehr erfolgreich eingesetzt.

Bei der Bildgenerierung fügt das Diffusionsmodell zunächst schrittweise Gaußsches Rauschen zum Bild hinzu (Vorwärts-Prozess) und trainiert dann ein neuronales Netzwerk, um es iterativ zu entrauschen (Rückwärts-Prozess).

Wenn man diesen Ansatz auf den Textbereich anwendet, muss man Methoden finden, um Texten Rauschen hinzuzufügen und es später schrittweise zu entfernen.

Die einfachste Umsetzung ist ein maskenbasierter Rauschverarbeitungsprozess:

Im Vorwärts-Prozess bleibt der ursprüngliche Text unverändert. In jeder Iteration wird gemäß einem vordefinierten Plan (von 0 % bis 100 %) ein bestimmter Anteil der Wörter zufällig durch das spezielle <MASK>-Token ersetzt.

Im Rückwärts- (Entrauschen-) Prozess wird das Modell trainiert, um für jedes <MASK> das richtige ursprüngliche Wort vorherzusagen. Dies ähnelt dem Masked Language Model (MLM), aber es wird eine dynamische Maskierungsrate verwendet.

Um die Probleme früherer Methoden zu lösen, führte BERT das Masked Language Modeling (Masked LM) ein.

Genauer gesagt: Bei jeder Trainings-Eingabesequenz werden zufällig 15 % der Wörter maskiert, und nur für diese maskierten Wörter wird vorhergesagt. In Bildern ausgedrückt:

Mit anderen Worten: Das Trainingsziel von BERTs MLM kann tatsächlich als Spezialfall der Text-Diffusion angesehen werden, nur dass es eine feste Maskierungsrate verwendet.

Wenn wir einen dynamischen Maskierungsratenbereich von 0 bis 1 einführen, können wir das Trainingsziel von BERT natürlich zu einem vollständigen Textgenerierungsprozess erweitern.

Erweiterungen sind überall: Von selbstüberwachenden Modellen zu Generierungsmodellen

Das 2019 veröffentlichte RoBERTa-Modell ist eine Verstärkung und Weiterentwicklung des ursprünglichen BERT.

Preprint: https://arxiv.org/abs/1907.11692

Es hat die Hyperparameter angepasst, das Trainingskorpus erweitert und das Trainingsziel vereinfacht —

Es behält nur das MLM (Masked Language Modeling) bei und entfernt die „Next Sentence Prediction“-Aufgabe.

Nathan Barry hat das Open-Source-Framework von HuggingFace verwendet, um die vortrainierten Gewichte, den Tokenizer und die Trainer-Klasse von RoBERTa zu laden und das Modell feinabzustimmen. Als Datensatz wurde WikiText ausgewählt. Der Kerncode (der vollständige Code ist im Originaltext zu finden) sieht in etwa so aus:

In der aktuellen Implementierung sind 10 Diffusionsschritte festgelegt. Bei jedem Trainingsbatch wird zufällig eine Maskierungsrate p aus der Menge [1,0, 0,9, ..., 0,1] ausgewählt, und dann werden die Tokens in diesem Anteil maskiert. Diese Logik ist in der benutzerdefinierten diffusion_collator-Klasse gekapselt:

Bei der Inferenz beginnt man mit einem Eingabevektor der Länge 256: Die ersten 16 Positionen sind die Token-IDs des Prompts, die restlichen 240 sind alle <MASK>. Dann wird die Maskierungsrate schrittweise verringert, und in jedem Schritt werden Vorhersagen getroffen, Samples gezogen und erneut maskiert. Der Ablauf sieht wie folgt aus:

Der entsprechende vereinfachte Code sieht wie folgt aus:

Nach 30 Minuten Training auf einer H200-Grafikkarte hat das Modell basierend auf dem folgenden Prompt den folgenden Text generiert:

...dominion over Europe beginning about the early 19th. There conflict took place on the island, between British and Irish Ireland. British officialsadministered British Ireland, a Celtic empire under the control of the Irishnationalist authorities, defined as a dominion of Britain. As the newly Forticstates acquired independent and powerful status, many former English colonies played their part in this new, British @-@ controlled colonial system. Following this period the Non @-@ Parliamentaryist Party won its influence in Britain in1890, led by the support of settlers from the Irish colonies. Looking inwards,Sinclair, Lewis questioned, and debated the need to describe " The New Britain "

Der Prompt war: Following their victory in the French and Indian War, Britain began to assert greater...

Der generierte Text ist erstaunlich kohärent! Die meisten „merkwürdigen Stellen“ hat Nathan Barry auf die Formatierungsprobleme des WikiText-Datensatzes zurückgeführt — beispielsweise Leerzeichen vor und nach Satzzeichen und die Behandlung des Bindestrichs „-“ als @-@ usw.

Die Daten zeigen, dass GPT-2 in Bezug auf die Kohärenz der Ausgabe und die Generierungsgeschwindigkeit etwas besser abschneidet (etwa 9 Sekunden gegenüber 13 Sekunden).

Aber RoBERTa Diffusion ist noch nicht optimiert, und dennoch ist das Ergebnis sehr überraschend.

Dieser Proof-of-Concept war zweifellos sehr erfolgreich — wenn man neuere Techniken wie AR-Diffusion und Sprungschritt-Diffusion integriert und tiefgreifend optimiert, wird sowohl die Generierungsqualität als auch die Inferenzgeschwindigkeit sprunghaft verbessert.

Die Rückkehr der Diffusionsmodelle

Die Experimente haben gezeigt, dass Masked Language Modelle wie RoBERTa (ursprünglich für Füllwortaufgaben entwickelt), indem man die variable Maskierungsrate in einen diskreten Diffusionsprozess umwandelt, vollkommen in einen allumfassenden Generierungsmotor transformiert werden können.

Indem man schrittweise <MASK>-Token in den Text einfügt und das Modell trainiert, den Text bei zunehmender Maskierungsstärke iterativ zu entrauschen, wird das Standard-MLM-Ziel erfolgreich in einen schrittweisen Textgenerierungsprozess umgewandelt.

Es ist bemerkenswert, dass selbst ohne Anpassung der Modellarchitektur, sondern nur durch Feinabstimmung des Trainingsziels, RoBERTa visuell kohärente Texte generieren kann.

Dies bestätigt eindrucksvoll die wichtige Erkenntnis: Im Wesentlichen sind BERT-ähnliche Modelle Text-Diffusionsmodelle, die mit einer festen Maskierungsrate trainiert werden.

Karpathy hat Nathans Barry kurzen Beitrag geliked: