Wang Guan, ehemaliger Tsinghua-Student aus den 2000ern, bringt neues Werk: Umstürzt Transformer-Pretraining-Modell mit 1/900 Token und 1/432 Rechenleistung

Die Vorhersage-Trainingsschwelle wird deutlich gesenkt.

Brechen Sie die traditionelle Vorabtrainingsparadigma großer Modelle, und das Team von Wang Guan, einem Alumni aus der Klasse der 2000er von Tsinghua-Universität, bringt wieder ein neues Werk hervor:

Sie ersetzen den Standard-Transformer durch das hierarchische Rekursionsmodell (HRM) und stellen das hoch effiziente Vorabtraining HRM-Text vor, das die Skalierung übersteigt.

Link zur Studie: https://arxiv.org/abs/2605.20613

Mit nur etwa 100 - 900 Mal weniger Trainings-Tokens und 96 - 432 Mal weniger geschätzten Rechenaufwand im Vergleich zum Standard-Baseline-Modell erreicht HRM-Text dennoch eine Leistung, die mit offenen Modellen mit 2 - 7 Milliarden Parametern vergleichbar ist.

Zugleich erzielt HRM-Text mit 1 Milliarde Parametern, 40 Milliarden nicht wiederholten Tokens und einem Trainingskostensatz von etwa 1.500 US-Dollar in den Hauptbenchmarks die folgenden Ergebnisse: MMLU 60,7%, ARC-C 81,9%, DROP 82,2%, GSM8K 84,5%, MATH 56,2%.

Abbildung | Vorabtrainingseffizienz.

Basierend darauf stellen sie klar fest: Strukturvorwissen und gezielte Trainingsziele können die Vorabtrainingsschwelle deutlich senken. Dieses Trainingsschema kann es ermöglichen, Basis Modelle von Grund auf neu zu trainieren.

Wie wurde HRM-Text entwickelt?

Das Vorabtraining von großen Sprachmodellen (LLM) hängt zunehmend von wenigen Institutionen ab, die über ausreichende Rechenleistung und Datenressourcen verfügen. Um ein wettbewerbsfähiges Basis Modell zu trainieren, werden oft Billionen von Tokens, Tausende von GPUs und sogar Millionen von US-Dollar an Rechenleistung benötigt.

Die aktuelle Trainingsmethode ist jedoch nicht effizient. Ein Großteil der Rechenleistung wird für Prompting, Formatauffüllung und Webrauschen und andere irrelevante Tokens verbraucht, was dazu führt, dass ein Großteil der Trainingsrechenleistung nicht direkt für die Inferenz genutzt wird.

In dieser Arbeit hat das Forschungs-Team die Architektur und die Trainingsziele neu gestaltet, um das Vorabtraining von HRM-Text effizienter zu machen.

Architektur: Ein hierarchisches Rekursionsmodell mit doppelter Zeitskala wird eingesetzt, das die Berechnung in ein langsames H-Modul und ein schnelles L-Modul aufteilt. Der Standard-Transformer führt für jeden Token nur eine Vorwärtsberechnung durch, während HRM mehrere iterative Updates an demselben Token vornimmt. Die H- und L-Modelle machen jeweils die Hälfte der Parameter des rekursiven Kerns aus. Die Gesamtberechnungsmenge entspricht ungefähr vier rekursiven Ausdehnungen desselben Parametersatzes, was die Berechnungstiefe erhöht, ohne die Anzahl der Parameter zu erhöhen.

Trainingsziel: Anstatt das Standard-Text-Selbstregressions-Vorabtraining zu verwenden, wird direkt auf Befehls-Antwort-Paaren trainiert. Nur der Antwortteil wird für den Verlust berechnet, und in Kombination mit der PrefixLM-Maske wird der Befehlsteil bidirektional betrachtet, während der Antwortteil gemäß der kausalen Maske generiert wird.

Abbildung | HRM-Text-Architektur.

Um die Stabilität des rekursiven Trainings zu verbessern, hat das Forschungs-Team MagicNorm und Warmup Deep Credit Assignment eingeführt.

MagicNorm ist eine gemischte Normalisierungsstrategie, die die Asymmetrie zwischen Vorwärts- und Rückwärtsberechnungstiefe bei Truncated BPTT (Truncated Backpropagation Through Time) nutzt. Innerhalb des Moduls wird PreNorm angewendet, und am Modulausgang wird zusätzliche Normalisierung durchgeführt, um die Stabilität des tiefen rekursiven Trainings zu verbessern.

Warmup Deep Credit Assignment überträgt in der Anfangsphase des Trainings nur die Gradienten der letzten zwei rekursiven Schritte zurück und erweitert diese dann linear auf die letzten fünf Schritte. Dieser Trainingsmechanismus ermöglicht es dem Modell, auf kürzeren Kreditpfaden stabil zu konvergieren und dann schrittweise längere Abhängigkeiten einzuführen.

Wie ist die Leistung?

Die Experimentergebnisse zeigen, dass HRM-Text in der Architektureffizienz, den Trainingszielen und der Gesamtleistung deutliche Vorteile aufweist.

1. Ist die rekursive Architektur effizienter bei fester Trainingsrechenleistung?

Die Ergebnisse zeigen, dass unter der Bedingung gleicher FLOPs HRM 1B auf den meisten Benchmarks besser als Transformer 1B, Transformer 3B, Looped Transformer 1B und RINS 1B performt. Der Vergleich mit TRM zeigt auch, dass das Training von HRM stabiler ist.

Abbildung | Vergleich der Leistung und Stabilität mit Transformer-Modellen. HRM behält bei allen Größenordnungen stabile Trainingsdynamiken bei, während Transformer-Modelle bei 1 Milliarde Parametern starke Instabilitäten aufweisen. Darüber hinaus benötigt HRM bei 0,6 Milliarden Parametern nur halb so viel Rechenleistung wie Transformer-Modelle, um auf den meisten Benchmarks wettbewerbsfähige Ergebnisse zu erzielen.

2. Hilft das Aufgabenabschlussziel und PrefixLM?

Ablationsversuche zeigen, dass unter der Bedingung gleicher FLOPs die MMLU von 1B Transformer von 40,55 bei Standard-Selbstregression auf 47,72 nach Einführung des Aufgabenabschlussziels, auf 53,15 nach Hinzufügung von PrefixLM und auf 60,73 nach Umstellung auf die HRM-Architektur steigt.

Abbildung | Vergleich der Leistung zwischen verschiedenen Modellarchitekturen und Trainingszielen

3. Wie effizient ist HRM-Text im Vergleich zu aktuellen offenen Modellen?

HRM-Text 1B erreicht auf MMLU, ARC-C, DROP, GSM8K und MATH 60,7, 81,9, 82,2, 84,5 und 56,2. Im Vergleich zu offenen Modellen mit größeren Trainingsbudgets erreicht es mit nur 40 Milliarden einzigartigen Tokens und 1 Milliarde Parametern die Leistung von offenen Modellen mit 2 - 7 Milliarden Parametern. Es benötigt bis zu 900 Mal weniger Tokens und bis zu 432 Mal weniger Rechenleistung.

Abbildung | Bewertungsergebnisse von HRM-Text 1B im Vergleich zu aktuellen vollständig offenen Modellen und Modellen mit offenen Gewichten

4. Bringt die rekursive Struktur eine größere effektive Tiefe?

Die Ergebnisse zeigen, dass der Standard-Transformer und der Looped Transformer auf relativ flachen Ebenen stabil werden, während HRM auf tieferen Ebenen deutlichere Änderungen der Blockrepräsentationen, niedrigere Kosinus-Ähnlichkeiten und höhere Logit-Lens-KL-Werte aufweist.

Abbildung | Analyse der effektiven Tiefe.

Abbildung | Schichtweise Logit-Lens-KL-Analyse.

Limitierungen und zukünftige Forschungsrichtungen

Obwohl HRM-Text in inferenzintensiven Aufgaben starke Leistungen zeigt, gibt es immer noch Grenzen, und es werden zukünftige Forschungsrichtungen aufgezeigt.

1. Entkopplung von "Wissen" und "Inferenz"

Derzeit hängt die Abdeckung von breiterem faktischem Wissen immer noch stärker von der Modellgröße und der Datenbreite ab. HRM-Text wird nur auf 40 Milliarden einzigartigen Tokens trainiert, und die expliziten Wissensquellen machen nur einen Teil der Aufgabenformatierten gemischten Daten aus. In Zukunft müssen die Forscher die kompakte Inferenzkern und die externe Faktenablage getrennt gestalten und die Wissensbreite an ausgewählte Korpora, Retrieval-Enhancement-Module oder lernbare Speicher übergeben.

2. Adaptive Rechenzeit

Die rekursive Planung von HRM-Text bringt eine größere effektive serielle Tiefe, aber das bedeutet auch, dass das Modell bei der Inferenz eine feste Anzahl von rekursiven Schritten ausführen muss. Ein zukünftiger Forschungsansatz ist die Einführung eines Mechanismus für adaptive Rechenzeit, damit einfache Samples früher die Berechnung beenden können und der vollständige Rekursionsbudget für schwierige Samples reserviert bleibt, um die Inferenzkosten zu reduzieren.

3. Der aktuelle Validierungsbereich der Skalierung ist noch begrenzt

Die aktuellen Skalierungsversuche umfassen nur die Transformer-Kontrollgruppe mit 3 Milliarden Parametern und HRM-Text mit 1 Milliarde Parametern. Das Forschungs-Team gibt an, ob die ähnlichen Effizienzvorteile auch bei größeren Modellgrößen bestehen bleiben, muss in zukünftigen Arbeiten noch weiter validiert werden.

4. PrefixLM und Inferenzrahmen

Derzeit gibt es bei der praktischen Implementierung von PrefixLM noch bestimmte technische Einschränkungen. Obwohl es auf Standard-Textgenerierungs-Inferenzrahmen wie vLLM laufen kann, erfordert dies, dass der Rahmen im Prefill-Stadium benutzerdefinierte Attention-Masken unterstützt. Wenn es auf Mehrrunden-Dialog-Szenarien erweitert wird, muss ein KV-Cache-Mechanismus entwickelt werden, um sicherzustellen, dass die Benutzerfragmente intern bidirektional sichtbar sind und dass die Generierungsprozess des Assistenten weiterhin kausalen Einschränkungen folgt.

Weitere technische Details finden Sie in der Originalstudie.

Dieser Artikel stammt aus dem WeChat-Account "Academic Headlines" (ID: SciTouTiao), Autor: Xia Qiansi, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Wang Guan, ein ehemaliger Student der Tsinghua-Universität aus der Jahrgangsgeneration der 2000er, hat erneut ein neues Werk herausgebracht: Mit 1/900 Token und 1/432 Rechenleistung hat er das Transformer-Pretraining-Modell umgeworfen.

Wie wurde HRM-Text entwickelt?

Wie ist die Leistung?

Limitierungen und zukünftige Forschungsrichtungen