Überspringen Sie die "wortgetreue Generierung". Zhao Junbo von Ant Group: Diffusionsmodelle ermöglichen es uns, direkt Tokens zu ändern.
Während die gängigen großen Sprachmodelle immer noch das Auto-Regressive-Architekturmodell verwenden, hat jemand sich bereits auf das Diffusions-Architekturmodell konzentriert.
Während der diesjährigen Quantum Bit MEET2026 Intelligent Future Conference hat Dr. Zhao Junbo, Professor an der Zhejiang-Universität und leitender Technologieexperte bei Ant Group, festgestellt:
Das Diffusions-Architekturmodell kann direkt Tokens während des Inferenzprozesses ändern und kontrollieren, ohne wie das Auto-Regressive-Modell den gesamten Text neu zu generieren.
Dies bedeutet, dass das Diffusionsmodell theoretisch im Vergleich zum Auto-Regressive-Modell eine schnellere Generationsgeschwindigkeit und geringere Rechenkosten erzielen kann.
Basierend auf diesen Erkenntnissen setzt er und sein Team auf das Diffusions-Architekturmodell und arbeitet an der Erforschung der einzigartigen Skalierungsgesetze für Diffusionssprachenmodelle.
Als wichtiges Meilenstein in dieser Richtung hat sein Team kürzlich das LLaDA 2.0 veröffentlicht und open-sourced, das erstmals ein Diffusionssprachenmodell in einer Größenordnung von 100 Milliarden Parametern darstellt.
Zhao Junbo räumt ein, dass das Feld der Training und Inferenz von Diffusionssprachenmodellen noch in den Kinderschuhen steckt, aber es entwickelt sich rasant und hat die Aufmerksamkeit von Techriesen wie Google und ByteDance sowie einer Reihe von Start-ups auf sich gezogen.
Editor's Note: Kurz nach der MEET2026 Intelligent Future Conference hat Zhao Junbo und sein Team einen neuen Technologiebericht veröffentlicht, der die Schlüsseltechnologien hinter dem 100-Milliarden-Parameter-Diffusionssprachenmodell aufzeigt. Titel des Berichts: LLaDA2.0: Scaling Up Diffusion Language Models to 100B
Link zum Bericht (GitHub): https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
Um Zhao Junbos Gedanken vollständig wiederzugeben, hat Quantum Bit seine Redeinhalt bearbeitet und zusammengefasst, ohne dabei die ursprüngliche Bedeutung zu verändern. Wir hoffen, dass dies Ihnen neue Inspirationen geben wird.
Die MEET2026 Intelligent Future Conference ist eine Branchenkonferenz, die von Quantum Bit organisiert wird. Fast 30 Branchenvertreter haben an der Konferenz teilgenommen, und es waren fast 1.500 Besucher vor Ort und über 3,5 Millionen Zuschauer online. Die Konferenz hat breite Berichterstattung in den gängigen Medien erhalten.
Zusammenfassung der Kernaussagen
- Alle Generierungsmodelle versuchen im Wesentlichen, die Datenverteilung anzupassen. Das Auto-Regressive-Modell bietet eine Möglichkeit, die Gesamtverteilung in eine Reihe von bedingten Wahrscheinlichkeiten aufzuteilen, die einer einseitigen kausalen Reihenfolge folgen, um die Verteilung schrittweise zu modellieren. Dies ist jedoch nicht der einzige Weg.
- Das Open-Source-Modell LLaDA basiert auf dem Diffusionssprachenmodell-Architekturmodell. Ohne die MoE-Technologie zu berücksichtigen, benötigt LLaDA bei gleicher Rechenleistung und Zielqualität weniger Parameter als das Auto-Regressive-Modell.
- Das Diffusions-Architekturmodell kann direkt Tokens während des Inferenzprozesses ändern und kontrollieren, ohne wie das Auto-Regressive-Modell den gesamten Text neu zu generieren.
- Unter Rechenbeschränkungen verwendet LLaDA eine "Lückentext"-Vorhersage, die im Vergleich zum Auto-Regressive-Modell "datenhungriger" ist und schneller Daten aufnimmt.
- Die Skalierungsgesetze von LLaDA und des Auto-Regressive-Modells unterscheiden sich. Es wurde bestätigt, dass LLaDA auf 100 Milliarden Parameter skaliert werden kann, aber es werden neue Herausforderungen auftreten, wenn man es weiter skaliert.
- ...
Im Folgenden finden Sie den vollständigen Text von Zhao Junbos Rede:
Investition in die Skalierungsgesetze für Diffusionssprachenmodelle
Hallo zusammen! Heute möchte ich etwas anderes erzählen - eine Art technisches Comedy-Show.
Wie die vorherigen Redner bereits erwähnt haben, basieren die meisten gängigen großen Sprachmodelle derzeit auf dem Auto-Regressive-Architekturmodell. Das Modell, das ich Ihnen jetzt vorstellen möchte, ist jedoch völlig anders - es ist ein neues Open-Source-Modell, das wir kürzlich veröffentlicht haben.
Um die Unterschiede zu verstehen, müssen wir zunächst einige grundlegende Konzepte klären.
Ich bin sicher, dass Sie alle mit populären Bild- und Videomodellen wie Midjourney, Sora und Emu Video vertraut sind. Tatsächlich verwenden alle diese Modelle einen Mechanismus namens Diffusion.
Was ist Diffusion? Einfach ausgedrückt, ist es der Prozess, einem Bild Rauschen hinzuzufügen und es dann wieder zu entfernen, um das ursprüngliche Bild wiederherzustellen.
Alle Auto-Regressive-Modelle (AR) folgen im Wesentlichen demselben Mechanismus: Gegeben die ersten N Wörter, wird das Modell gefragt, das (N+1)-te Wort zu generieren. Basierend auf den ersten N+1 Wörtern wird dann das (N+2)-te Wort vorhergesagt, und so weiter.
Das Diffusionssprachenmodell geht einen anderen Weg. Möglicherweise kennen einige von Ihnen die "Masked Diffusion Language Models". Lassen Sie uns uns den Dekodierungsprozess ansehen. Einfach ausgedrückt, ist es eher wie ein "Lückentext" als wie ein "Wortspiel".
Wie in der Abbildung gezeigt, werden einige Wörter in einem Satz maskiert und dann wiederhergestellt. Dies ist sehr ähnlich wie bei den Lückentexten, die wir in der Schule gemacht haben.
Was wir jetzt tun möchten, ist die Skalierungsgesetze für Diffusionssprachenmodelle (dLLM) zu erforschen.
Warum tun wir das? Dies ist eigentlich eine Art Wette.
Im Wesentlichen versuchen alle großen Generierungsmodelle, die Datenverteilung P(X) anzupassen.
Das Auto-Regressive-Modell bietet eine Möglichkeit, die Gesamtverteilung in eine Reihe von bedingten Wahrscheinlichkeiten aufzuteilen, die einer einseitigen kausalen Reihenfolge folgen, um die Verteilung schrittweise zu modellieren. Dies ist jedoch nicht der einzige Weg.
Die folgende Abbildung wurde von Jinjie Ni, einem Forscher am SEA AI der National University of Singapore, zur Verfügung gestellt. Sie enthält einige sehr wichtige Punkte.
Erstens benötigt das Diffusionssprachenmodell, das auf der Basis von "Lückentexten" vorhersagt, unter Rechenbeschränkungen mehr Daten als das normale Auto-Regressive-Modell. Es ist also "datenhungriger" und kann Daten schneller aufnehmen.
Zweitens kann das dLLM bei gleicher Anzahl von Parametern und Rechenleistung im Vergleich zum AR-Modell kleiner sein (vorausgesetzt, dass wir uns auf die Dense-Struktur beschränken und die MoE-Technologie nicht berücksichtigen).
Die sogenannten "Super Data Learners", die Sie kennen, wenn Sie mit Bild- oder Videodiffusionsmodellen vertraut sind, haben das Merkmal, dass Sie sie immer weiter trainieren können.
Beispielsweise erreichen die meisten Auto-Regressive-Modelle nach einigen Epochen ein Plateau, und die Leistung verbessert sich nicht mehr. Die Daten werden also nicht mehr effizient genutzt.
Im Gegensatz dazu kann die rote Kurve, die das Diffusionsmodell repräsentiert, bei demselben Datensatz und derselben Architektur immer weiter trainiert werden - genau wie in der Bildverarbeitung beobachtet wurde.
Drittens hat das Diffusionsmodell eine einzigartige Stärke. Vielleicht kennen Sie die Konzepte von "Chain of Thought" (CoT) und "Reinforcement Learning" (RL) oder haben Sie die Tieftendenzprozesse von DeepSeek gesehen. Ich habe einmal einen Vergleich angestellt: Das AR-Modell ist wie ein Student, der keine Zettel mitnehmen darf:
Nachdem er in die Prüfungskammer gegangen ist, darf er keine Notizen machen. Es ist wie beim Schach: Ein Zug ist endgültig, und er kann nicht zurückgehen. Wenn er einen Token schreibt, ist er festgelegt, und er kann nicht zurückgehen und ihn ändern. Wenn er etwas falsch macht, gibt es eine CoT-Mechanismus, der ihm erlaubt, "plötzlich zu sagen, dass er einen Fehler gemacht hat und von vorne beginnen muss".
Tatsächlich erklärt dies, warum es "test-time scaling" gibt - die Token-Effizienz des AR-Modells bei der Inferenz ist nicht sehr hoch. Es kann lange dauern, um einfache Fragen zu beantworten, und es werden viele Tokens generiert.
Wie in der Abbildung gezeigt, arbeiten wir an einem Projekt namens Editable and Controllable Generation (noch in Bearbeitung). Dies bedeutet, dass wir im Diffusionsrahmen jederzeit "Lückentexte" lösen und Tokens ändern können. Im Gegensatz zu Modellen wie DeepSeek-R1 oder OpenAI-o1 müssen wir nicht den gesamten Text neu generieren. Wir können direkt während des Inferenzprozesses Tokens ändern.
Es gibt viele technische Details, die ich aus Zeitgründen nicht ausführlich besprechen kann.
Veröffentlichung und Open-Sourcing eines 100-Milliarden-Parameter-Diffusionssprachenmodells
Erstens gibt es das Problem der Anpassung der Attention Mask.
Unser Modell besteht aus feingranularen Blöcken und größeren Blöcken, die aus diesen Blöcken zusammengesetzt sind. Zwischen den Blöcken wird ein Auto-Regressive-Attention-Mechanismus verwendet, um die Gesamtkohärenz der Sequenz sicherzustellen, während innerhalb der Blöcke parallel dekodiert wird, um die Rechenleistung zu verbessern.
Daher gibt es im Modell zwei Arten von Attention-Modi: Global Attention, um langfristige Abhängigkeiten zu erfassen, und Causal Attention, um die Auto-Regressive-Einschränkung aufrechtzuerhalten.
Dies umfasst auch die Verarbeitung von Sequenzen variabler Länge, die Integration der geometrischen Gewichtungsmethode von Professor Lingpeng Kong der Universität von Hongkong und die Implementierung von Long-Sequence-Split-Attention für Texte und Dokumente.
Wir haben ein Trainings- und Inferenzframework open-sourced, damit die Community unsere auf Hugging Face veröffentlichten Modelle direkt ausführen kann. Dies umfasst die Integration von 5D-Parallelität, die Flex-Attention und die Anpassung der Attention Mask im Rahmen der Blockweise-Diffusion. Die Details werden hier nicht weiter ausgeführt.
Dies ist das erste Open-Source-Trainingsframework für Diffusionssprachenmodelle, das SFT (Supervised Fine-Tuning) und DPO (Direct Preference Optimization) unterstützt.
Hier möchte ich Ihnen den gesamten Prozess kurz erklären:
Das Team von Professoren Wen Jirong und Li Chongxuan der Renmin-Universität von China hat das erste Diffusionssprachenmodell, LLaDA 1.0, open-sourced.
Die Forschung an LLaDA 1.0 war sehr schwierig, da die Trainings- und Inferenzframeworks damals noch sehr primitiv waren. Trotzdem hat die 8-Milliarden-Parameter-Version von LLaDA 1.0 auf Hugging Face ohne jegliche Promotion über 200.000 Downloads erreicht.
Dies war das erste Diffusionssprachenmodell, das auf 8 Milliarden Parameter skaliert wurde. Seine Leistung ist mit der von LLaMA-3-8B vergleichbar.
Später hat das Ant Technology Research Institute zusammen mit der Renmin-Universität, der Zhejiang-Universität und der Westlake-Universität das Projekt übernommen und viel in die Entwicklung dieses Bereichs investiert, um die "Nicht-Konsens"-Ideen in "Konsens"-Ideen umzuwandeln.
Das erste Problem, das wir lösen mussten, war das Architekturproblem. LLaDA ist ein Dense-Modell, und die Probleme von Dense-Modellen sind bekannt. Beispielsweise ist es schwierig, die MoE-Technologie in das Diffusionsmodell zu integrieren.
Im September dieses Jahres haben wir LLaDA-MoE veröffentlicht, ein Diffusionssprachenmodell mit einem Gesamtparameter von 7 Milliarden (1 Milliarde aktive Parameter), das das erste weltweit nativ trainierte MoE-Architekturmodell ist.
In letzter Zeit hat sich die Forschung in diesem Bereich weltweit verbreitet. Google hat Gemini Diffusion, eine US-amerikanische Start-up arbeitet an der Mercury-Serie, und auch ByteDance ist in diesem Bereich aktiv.
Das größte Merkmal dieser Modelle ist, dass sie schnell sind.
Das liegt daran, dass sie wie bei einem "Lückentext" arbeiten. Beispielsweise kann man beim Dekodieren zuerst das letzte Token bestimmen und dann die fehlenden Wörter in der Mitte einfügen. Dies ist tatsächlich im Dekodierungsprozess zu beobachten.
Vor zwei Wochen haben wir LLaDA 2