Meilenstein: Erstes 100-Milliarden-Parameter-Diffusionssprachmodell

Haben die Diffusionssprachmodelle bereits Parameter im Bereich von hunderten von Milliarden erreicht? Der Technischer Bericht von LLaDA 2.0 ist erschienen.

Es war vollkommen unerwartet, dass das ursprünglich noch eine Nischenrichtung darstellende "Diffusionssprachmodell (dLLM)" inzwischen auf eine Größe von hunderten Milliarden von Parametern skaliert wurde.

Vor kurzem haben wir auf der HuggingFace-Seite zwei neue Modelle entdeckt: LLaDA2.0-mini und LLaDA2.0-flash. Sie stammen von einem Verbundteam aus Ant Group, Renmin University, Zhejiang University und Westlake University und verwenden beide die MoE-Architektur. Das erste Modell hat insgesamt 16 Milliarden Parameter, das zweite sogar 100 Milliarden – in der Welt der "Diffusionssprachmodelle" ist dies eine bisher nie dagewesene Größe.

Was noch erfreulicher ist, ist, dass das Modell nicht nur größer, sondern auch tatsächlich stärker geworden ist: In 47 Benchmark-Tests, die Wissen, logisches Denken, Programmieren, Mathematik, Agentenfähigkeiten und Ausrichtung an menschlichen Anweisungen umfassen, erzielte LLaDA2.0-flash durchschnittlich 73,18 Punkte. Das ist auf Augenhöhe mit dem starken AR- (Autoregressiven) Modell Qwen3-30B-A3B-Instruct-2507 (73,60), und es zeigt deutliche Vorteile bei komplexen Aufgaben wie Programmieren (z. B. HumanEval, MBPP) und Agentenfähigkeiten (BFCL).

Seit langem dominiert das autoregressive Generierungsparadigma im Bereich der großen Modelle. Diese Methode, bei der nacheinander das nächste Token generiert wird, war lange Zeit vielversprechend. Doch allmählich haben sich auch ihre inhärenten Nachteile gezeigt: Die Berechnungskosten für die Generierung langer Texte sind hoch, die Inferenzgeschwindigkeit ist langsam, und es ist schwierig, die bidirektionalen Abhängigkeiten zwischen Tokens zu erfassen. Wenn in den früher generierten Teilen Fehler auftreten, können diese nicht direkt korrigiert werden, und die nachfolgende Ausgabe wird ebenfalls gestört, was schließlich zu einer Akkumulation von Fehlern führt.

Der erfolgreiche Skalierungserfolg von dLLM lässt eine andere Möglichkeit erkennen. Noch bemerkenswerter ist, dass die schnelle Entwicklung dieser Modelle nicht auf einem einzigen Weg erfolgt, sondern aus der "Mehrfachansatz" -Forschung der Forscher stammt.

Im September dieses Jahres haben die Forscher des LLaDA-Modell-Serien gerade die Machbarkeit des Training von dLLM von Grund auf mit der MoE-Architektur bestätigt und das 7-Milliarden-Parameter-Modell LLaDA-MoE vorgestellt, was eine neue Umsetzungsmöglichkeit für das Diffusionsparadigma bietet. Nur drei Monate später hat das Team einen Durchbruch auf einem anderen Weg erzielt – die reibungslose Migration von einem etablierten AR-Modell in das Diffusionsframework – und direkt die Modellgröße auf 100 Milliarden Parameter erweitert.

Demonstration der Generierungsleistung von LLaDA2.0. Man kann sehen, dass das Modell an mehreren Stellen parallel generiert und dass bereits generierter Inhalt geändert werden kann.

Welche wichtigen technischen Entscheidungen liegen hinter diesem Erfolg? Welche Methoden funktionieren bei dLLM? In einem kürzlich veröffentlichten technischen Bericht haben die Hintermänner von LLaDA2.0 viele Details preisgegeben.

Berichtstitel: LLaDA2.0: Scaling Up Diffusion Language Models to 100B
Berichtlink: https://github.com/inclusionAI/LLaDA2.0/blob/main/tech_report.pdf
HuggingFace-Link: https://hf.co/collections/inclusionAI/llada-20

Die Skalierung von dLLM auf 100 Milliarden Parameter – ein anerkanntes Problem

Kürzlich wurde festgestellt, dass dLLM bei unzureichenden Datenmengen mit zunehmender Trainingsdauer stärker wird und schließlich die traditionellen autoregressiven Modelle übertrifft. Je länger das Training dauert, desto deutlicher wird der Vorteil. Wenn die Daten reichhaltiger oder von höherer Qualität sind, tritt dieser "Überholpunkt" später ein; wenn das Modell größer ist, tritt er früher ein.

Das Auftauchen dieser Beweise macht das "Training von dLLM" immer attraktiver. Doch die Frage, wie man dLLM "größer und stärker" macht, ist ein anerkanntes Problem. In den letzten ein bis zwei Jahren haben die Forscher bereits viele Methoden ausprobiert.

Zunächst ist es das Training von Grund auf. Die früheren Modelle LLaDA und LLaDA-MoE sind erfolgreiche Versuche in dieser Richtung und haben gezeigt, dass die Leistung von von Grund auf trainierten dLLM der von AR-Modellen gleicher Größe nahekommen kann und dass dLLM mit der MoE-Architektur effizienter und stärker werden kann. Doch aufgrund von Faktoren wie der verfügbaren Datenmenge, der Reife der Infrastruktur, den Berechnungskosten und der Trainingsdauer sind von Grund auf trainierte dLLM normalerweise kleiner (≤ 8 Milliarden Parameter) und hinter den fortschrittlichsten AR-Modellen in der Gesamtleistung zurück.

Zweitens ist es der Ansatz, von einem bereits trainierten AR-Modell auszugehen und dLLM seine Kenntnisse und Fähigkeiten zu vererben, um die Trainingskosten zu reduzieren und die Leistungslücke zu schließen. In dieser Richtung gibt es bereits mehrere repräsentative Arbeiten, darunter DiffusionLLaMA, Dream-7B, RND1, Block DLM usw. Sie "übertragen" die vortrainierten Sprachfähigkeiten von AR-Modellen in die Diffusionsstruktur mithilfe von Methoden wie Masken-Temperierung und blockweiser Diffusion. Doch auch diese Versuche haben die Größe von 30 Milliarden Parametern nicht überschritten. Hinzu kommt, dass die Trainingsleistung der blockweisen Diffusion nicht hoch ist, und es ist schwierig, diese Methode direkt auf das Training von riesigen Datenmengen für große Modelle anzuwenden.

Drittens ist es die Bemühungen in der Nach-Trainingsphase. Bei der feinen Einstellung (Fine-Tuning) haben bereits veröffentlichte Arbeiten gezeigt, dass dLLM nach dem SFT (Supervised Fine-Tuning) in Aufgaben wie Codegenerierung und komplexer Planung mit Spitzen-AR-Modellen mithalten kann. Bei der verstärkten Lernweise mussten die Forscher aufgrund der Schwierigkeit, die logarithmische Likelihood von dLLM zu berechnen, neue Algorithmen entwickeln und haben sogar das erste dLLM mit der Fähigkeit zur langfristigen logischen Schlussfolgerung trainiert. Bei der Beschleunigung der Inferenz hat dLLM durch dynamisches Pruning oder das hybride AR - Diffusionsparadigma erstmals die Inferenzgeschwindigkeit von AR-Modellen gleicher Größe übertroffen. Doch insgesamt befindet sich die Nach-Training-Forschung noch in der Anfangsphase, und die Fragen, wie diese Technologien zusammenwirken und wie sie auf die Größe von hunderten Milliarden Parametern skaliert werden können, sind noch offen.

Das Auftauchen des LLaDA2.0-Modells bietet eine Lösungsidee für diese Probleme.

LLaDA2.0 bietet eine bessere Lösung für das stabile Training von Milliardenparameter-Diffusionsmodellen

Im Gegensatz zu früheren Modellen wie LLaDA-MoE hat LLaDA2.0 nicht das Training von dLLM von Grund auf gewählt, sondern ein vorhandenes AR-Modell "reibungslos" in ein Diffusionsmodell umgewandelt und auf dieser Grundlage eine großangelegte Training und Ausrichtung durchgeführt.

Um diese Umwandlung zu bewältigen, hat LLaDA2.0 ein systematisches Lösungskonzept entwickelt. Von der Neuausrichtung des Trainingsparadigmas, der verstärkten Zusammenarbeit zwischen Vor-Training und Nach-Training, bis hin zur Anpassung und Optimierung der Trainings- und Inferenzinfrastruktur bietet es einen einzigartigen Implementierungsweg, der sich von früheren Methoden unterscheidet.

Insgesamt hat LLaDA2.0 durch die Schaffung eines segmentierten, skalierbaren Trainingssystems das Ziel der Umwandlung von einem AR-Modell in ein dLLM effizient erreicht.

Wie in Abbildung 2 gezeigt, wird zunächst ein AR-Basis-Modell durch kontinuierliches Vortraining (CPT) in ein maskiertes Diffusionssprachmodell (MDLM) umgewandelt, das in der Lage ist, bidirektionale Entrauschungsfähigkeiten zu erlernen, um so reibungslos in das Diffusionsparadigma überzugehen, während die ursprüngliche Repräsentationsgeometrie des AR-Modells beibehalten wird.

Als nächstes wird auf dem bereits trainierten MDLM blockweises Diffusions-Vortraining (Block Diffusion Pre-training) eingeführt. Anstatt sich auf einzelne Tokens zu konzentrieren, trainiert das Modell nun die Entrauschung von kontinuierlichen Textsegmenten (d. h. Blöcken). Der Übergang von Tokens zu Blöcken verbessert deutlich die langfristige Kohärenz der Generierung und bringt eine höhere Berechnungseffizienz.

Schließlich, nachdem das Modell sowohl token- als auch blockweise AR-Generierungsfähigkeiten besitzt, erhält es durch Nach-Training (einschließlich SFT und DPO) stärkere Eigenschaften zur Befolgung menschlicher Absichten und Anweisungen und kann besser den Anforderungen von Downstream-Aufgaben entsprechen. Nach dieser Phase kann die starke Generierungsfähigkeit, die im Diffusions-Vortrainingsprozess erworben wurde, effizient in die Leistung bei praktischen Aufgaben umgesetzt werden.

Trainingsablaufdiagramm von LLaDA2.0.

Als nächstes werden wir diese wichtigen Schritte einzeln untersuchen.

Kontinuierliches Vortraining

Da die kausale Modellierungsweise von AR-Modellen und der bidirektionale Entrauschungsmechanismus von dLLM natürlich unterschiedlich sind, kann die Umwandlung des einen in das andere nicht einfach durch das Ersetzen des Trainingsziels erreicht werden. Deshalb hat LLaDA2.0 eine kontinuierliche Vortrainingsstrategie namens Warmup–Stable–Decay (WSD) gewählt.

Im Warmup (Aufwärm-)Phase betrachtet das Team AR-Basis-Modelle wie Ling-mini-2.0 (16 Milliarden Parameter) als Ausgangspunkt für ein blockweises Diffusionssprachmodell (BDLM) mit Blockgröße = 1 und erhöht die Blockgröße schrittweise gemäß der Sequenz "1 → 4 → 32 → 64 → 4096". Jede Anpassung der Blockgröße erfolgt auf einer mittelgroßen Datenmenge, um einen reibungslosen Übergang des Modells sicherzustellen. Wenn die Blockgröße den Maximalwert von 4096 erreicht, wird das BDLM in ein standardmäßiges maskiertes Diffusionssprachmodell (MDLM) umgewandelt, und die strukturelle Migration von der kausalen Generierung zur globalen bidirektionalen Entrauschung ist abgeschlossen.

Als nächstes ist es die Stable (Stabilisierungs-)Phase. Nachdem die Blockgröße auf 4096 festgelegt und das Modell in das globale bidirektionale Entrauschungsparadigma umgewandelt wurde, wird das MDLM auf einer großen Datenmenge trainiert, um die Fähigkeiten der diffusionsbasierten Generierung und der bidirektionalen Kontextmodellierung zu erlernen.

Nachdem das MDLM-Training abgeschlossen ist, kommt die Decay (Abkling-)Phase. Das Team reduziert die Blockgröße schrittweise von 4096 auf eine Größe, die für die Inferenz besser geeignet ist (z. B. 32), um so wieder in ein effizientes BDLM zurückzukehren. Auf diese Weise wird das globale Kontextwissen, das das Modell in der MDLM-Phase gelernt hat, in eine kompaktere blockweise Struktur zurückdestilliert, so dass sowohl die bidirektionale semantische Fähigkeit der Diffusion als auch die Inferenzleistung der blockweisen Generierung erreicht werden können.

Darüber hinaus kann das Aneinanderfügen mehrerer Dokumente zu einer langen Sequenz während des Trainings zu langfristigen Abhängigkeiten zwischen semantisch nicht verwandten Texten führen. Deshalb hat das Team ein dokumentenbasiertes Attention-Masken-Schema (Document-level Attention Mask) eingeführt, das diese Störungen zwischen Dokumenten vermeiden, die semantische Verschmutzung verhindern und die Stabilität der bidirektionalen Modellierung sicherstellen kann.

Um die Generalisierungsfähigkeit und Robustheit des BDLM weiter zu verbessern, hat das Team eine Top-k-Checkpoint-Fusionsstrategie angewandt. Nach dem Vortraining werden die k besten Modell-Checkpoints anhand von Validierungsmetriken wie der Perplexität ausgewählt, und die Parameter wie Gewichte und Bias werden arithmetisch gemittelt, um eine robusteres BDLM-Initialisierung zu erhalten.

Nachdem dieser gesamte Prozess abgeschlossen ist, bietet LLaDA2.0

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Meilensteinmoment: Das erste 100-Milliarden-Parameter-Diffusionssprachmodell ist da. Der technische Bericht enthüllt die Details dahinter.

Die Skalierung von dLLM auf 100 Milliarden Parameter – ein anerkanntes Problem

LLaDA2.0 bietet eine bessere Lösung für das stabile Training von Milliardenparameter-Diffusionsmodellen