Neue Studie von AMD durchbricht die bestehende Erkenntnis: Die Instabilität von FP4-Training liegt nicht an unzureichender Zufälligkeit.
Es ist allgemein bekannt, dass die Trainingskosten für große Modelle extrem hoch sind.
Aber man weiß auch, dass die Reduzierung der Trainingsgenauigkeit die Trainingskosten erheblich senken kann. DeepSeek-V3 hat mit dem Training in FP8 die Kosten auf 5,6 Millionen US-Dollar gebracht, was die gesamte Branche beeindruckt hat.
Nach dem Erfolg von FP8 sucht die Branche weiterhin nach den Grenzen der niedrigen Genauigkeit: Wenn man von FP8 auf FP4 geht, wie viel können die Trainingskosten noch weiter reduziert werden?
Theoretisch kann die Rechenleistung von FP4 doppelt so hoch wie die von FP8 sein. Sowohl die NVIDIA Blackwell- als auch die AMD MI350-Serie unterstützen bereits auf Hardwareebene native FP4-Berechnungen. Letztere hat auf dem B200 eine nominale FP4-Rechenleistung von bis zu 4.500 TOPS (spärlich). Die Hardware ist bereit, aber auf der Software- und Algorithmusseite bleibt es bei einem Problem hängen:
Beim Training eines großen Modells von Grund auf mit FP4 ist der Trainingsvorgang sehr instabil.
In den letzten zwei Jahren haben Arbeiten wie LLM-FP4 und NVFP4-Pretraining diese Route versucht, aber nur wenige Lösungen konnten einen vollständigen Pretraining-Prozess bei 4-Bit-Genauigkeit sauber durchführen und gleichzeitig eine Konvergenzqualität nahe der von FP8 aufrechterhalten.
Was noch schwieriger ist, ist, dass die Ursache des Absturzes bisher unklar war. Analysen deuten darauf hin, dass die Instabilität beim FP4-Training wahrscheinlich auf einen Mangel an Zufälligkeit zurückzuführen ist.
Aber vor kurzem hat AMD in Zusammenarbeit mit der Pennsylvania State University eine Studie veröffentlicht, die die herkömmlichen Vorstellungen auf den Kopf stellt und eine neue klare Diagnose für das native FP4-Training gibt.
- Titel der Studie: Pretraining large language models with MXFP4 on Native FP4 Hardware
- Link zur Studie: https://arxiv.org/abs/2605.09825
Diese Studie hat auf einer AMD Instinct MI355X GPU einen vollständigen Pretraining-Prozess für Llama 3.1-8B mit dem MXFP4-Format durchgeführt. Die Ende-zu-Ende-Trainingsgeschwindigkeit war 9 - 10 % schneller als die FP8-Baseline, und die Token-Kosten waren nur 8 - 9 % höher. Dies ist bisher das erste vollständige Experiment, das ein Pretraining für ein großes Modell auf nativem FP4-Hardware (nicht softwareemuliert) durchgeführt hat.
Noch wichtiger ist, dass die Studie das Kernproblem aufdeckt: Die Instabilität beim FP4-Training kommt nicht von einem Mangel an Zufälligkeit, sondern von der Akkumulation und Verstärkung struktureller Mikroskalierungsfehler entlang empfindlicher Gradientenpfade.
Was ist MXFP4?
Bevor man die Studie zerlegt, ist es wichtig, das MXFP4-Datenformat zu verstehen.
Beim herkömmlichen ganzzahligen Quantisieren wird normalerweise ein Skalierungsfaktor für den gesamten Tensor verwendet. Das Kernkonzept von MXFP4 ist die sogenannte "Mikroskalierung": Ein Tensor wird in kleine Blöcke aufgeteilt (z. B. in Gruppen zu je 32 Elementen), und jedem Block wird ein gemeinsamer Exponent (E8M0-Format) zugewiesen. Jedes Element innerhalb eines Blocks wird als 4-Bit-Fließkommawert dargestellt. Die Rekonstruktionsformel kann wie folgt geschrieben werden:
Dabei ist E_shared der größte Exponent innerhalb des Blocks, und Q_FP4 ist der auf den nächstgelegenen 4-Bit-Fließkommawert gerundete Wert.
Der Vorteil der Mikroskalierung besteht darin, dass jeder kleine Block einen eigenen Dynamikbereich hat und nicht von globalen Ausreißern "eingeschränkt" wird. Dies macht die Darstellungseigenschaften von 4-Bit-Fließkommazahlen viel besser als bei einer einfachen globalen Quantisierung.
Aber auch mit der Mikroskalierung bleibt das FP4-Training instabil.
Fehlerdiagnoseexperiment: Die Ursache der Instabilität
Das Forschungsteam hat zunächst ein kontrolliertes Experiment zur schrittweisen Fehlerdiagnose entworfen.
Eine vollständige Berechnung einer Transformer-Linear-Schicht umfasst drei allgemeine Matrixmultiplikationen:
Fprop (Vorwärtsausbreitung): Berechnung von Y = XW^T zur Erzeugung von Aktivierungswerten
Dgrad (Aktivierungsgradient): Berechnung von ∇X = ∇Y · W zur Rückübertragung des Gradienten an die Eingabe
Wgrad (Gewichtsgradient): Berechnung von ∇W = (∇Y)^T · X zur Erzeugung des Gradienten zur Aktualisierung der Gewichte
Das Forschungsteam hat alle anderen Faktoren konstant gehalten und diese drei Operationen schrittweise von FP8 auf MXFP4 umgestellt, um die Auswirkungen auf die Konvergenz zu beobachten. Alle Experimente wurden auf einer AMD Instinct MI355X mit nativem FP4-Tensor-Core durchgeführt und sind nicht von Softwareemulation abhängig.
Die Trainingsaufgabe war die Standard-Einstellung von MLPerf, nämlich das Pretraining von Llama 3.1-8B auf dem C4-Datensatz. Das Konvergenzziel war eine Perplexität von 3.3 auf dem Validierungsdatensatz.
Die ersten beiden Schritte haben nur einen moderaten zusätzlichen Token-Aufwand verursacht, aber sobald auch Wgrad auf MXFP4 umgestellt wurde, stieg der Aufwand direkt auf 26 - 27 %.
Wgrad ist die Engstelle beim FP4-Training. Die Vorwärtsausbreitung und der Aktivierungsgradient sind relativ tolerant gegenüber FP4-Quantisierung, aber sobald der Gewichtsgradient auf 4 Bit quantisiert wird, verschlechtert sich die Konvergenzqualität deutlich.
Der vorherrschende Gedanke in der Branche war, dass der FP4-Quantisierungsfehler im Wesentlichen ein Rauschproblem ist und dass man daher die Fehlerverteilung durch die Einführung von Zufälligkeit "glätten" kann. Zwei gängige Strategien sind:
Stochastisches Runden (Stochastic Rounding): Die Einführung von Zufälligkeit beim Quantisieren, sodass der Erwartungswert des Rundungsfehlers null ist
Randomisierte Hadamard-Rotation (Randomized Hadamard): Die Verwendung einer Hadamard-Transformation mit zufälligem Vorzeichenwechsel vor der Quantisierung, um die Datenverteilung zu streuen
Nach der Quantisierung von Wgrad haben beide Zufallsstrategien nicht nur das Training nicht stabilisiert, sondern sogar direkt zur Nichtkonvergenz geführt. Die Zufälligkeit hat nicht geholfen, sondern hat stattdessen in den wichtigen Gradientenpfaden mehr effektive Quantisierungsfehler eingeführt.
Im Gegensatz dazu hat die deterministische Hadamard-Rotation den gesamten Token-Aufwand von 26 - 27 % auf 8 - 9 % reduziert, und der Trainingsverlauf folgt eng der FP8-Baseline.
Dies ist ein sehr wertvolles diagnostisches Ergebnis. Sowohl die stochastische als auch die deterministische Hadamard-Rotation sind orthogonale Transformationen, die beide die Energieverteilung von Ausreißern streuen können. Theoretisch sollten sie ähnliche Effekte bei der Reduzierung von Quantisierungsfehlern haben. Aber ihre Leistung im Wgrad-Szenario ist völlig unterschiedlich, was die Natur des Problems aufdeckt:
Die Instabilität beim FP4-Training wird von strukturellen Fehlern getrieben, die durch die MXFP4-Mikroskalierung in empfindlichen Gradientenpfaden entstehen. Die Zufallsstrategien scheitern, weil sie in jedem Schritt unterschiedliche Fehleruster (Pattern) einführen, und diese veränderlichen Fehleruster akkumulieren sich entlang der Gradientenpfade und verstärken somit die Instabilität. Die deterministische Rotation ist effektiv, weil sie in jedem Schritt die gleiche Transformation anwendet, sodass das Fehleruster konstant bleibt und die Akkumulation von Fehlern vermieden wird.
Ende-zu-Ende-Effizienz: +20 % Trainingsschritt-Durchsatz, 9 - 10 % gesamtes Beschleunigung
Nach der Hinzufügung der deterministischen Hadamard-Rotation und des gesamten MXFP4-Prozesses sind die Effizienzdaten wie folgt:
Der Durchsatz pro Trainingsschritt hat sich um 20 % verbessert. Nach Abzug der zusätzlichen 8 - 9 % Token-Kosten beträgt die gesamte Ende-zu-Ende-Beschleunigung immer noch 9 - 10 %.
Angesichts der Tatsache, dass die Genauigkeit von 8 Bit direkt auf 4 Bit reduziert wurde, sind diese Konvergenzqualität und Beschleunigungsrate ziemlich beeindruckend.
Linkes Bild: Kurve der Validierungs-Perplexität von Llama 3.1–8B in Abhängigkeit von der Anzahl der trainierten Tokens während des MLPerf-Pretrainings auf dem C4-Datensatz. Die Ergebnisse zeigen, dass die Leistung von MXFP4 + deterministische Hadamard der von FP8 sehr ähnlich ist, während der nicht stabilisierte gesamte MXFP4-Prozess langsamer konvergiert und eine schlechtere Trainingsstabilität aufweist. Rechtes Bild: Lokale Vergrößerung des Trainingsendes. Das Ziel der Perplexität von MLPerf ist 3.3. Im Vergleich zum nicht stabilisierten MXFP4-Lauf kann die deterministische Hadamard (H16) eine engere Übereinstimmung mit der FP8-Baseline aufrechterhalten.
Es ist wichtig zu beachten, dass die Autoren in der Studie ausdrücklich auf eine wichtige Einschränkung hinweisen: Die Effektivität dieses FP4-Trainingsansatzes (MLPerf C4-Datensatz + Llama 3.1-8B) wurde bestätigt, aber man kann nicht einfach davon ausgehen, dass er nahtlos auf alle Modelle, alle Datensätze und alle Trainingsmethoden übertragbar ist. Das Verhalten des FP4-Trainings kann stark von der Einstellung abhängen, und die spezifischen Stabilisierungsstrategien müssen je nach Szenario neu validiert werden.
Fazit
Wenn man diese Studie in den größeren industriellen Kontext setzt, hat sie zumindest drei Bedeutungen.
Erste Ebene: Sie beantwortet eine grundlegende "Warum"-Frage. Die meisten früheren Arbeiten zum FP4-Training haben sich auf die Frage "Wie kann man es am besten funktionieren lassen" konzentriert. Diese Studie gibt erstmals eine klare kausale Diagnose: Der Absturz kommt von strukturellen Mikroskalierungsfehlern im Wgrad-Pfad und nicht von einem Mangel an Zufälligkeit. Diese Diagnose an sich hat methodische Bedeutung, denn sie sagt den nachfolgenden Forschern: Bei Instabilität beim Training mit niedriger Genauigkeit sollten sie zunächst die strukturellen Fehlerquellen untersuchen, anstatt blindlings die Zufälligkeit zu erhöhen.
Zweite Ebene: Sie bringt FP4 von der "Nur-Inferenz"-Ebene in den "Trainingsbereich". Bisher war die Branchenmeinung, dass FP4 nur für die Inferenz-Quantisierung geeignet ist und dass man für das Training mindestens FP8 verwenden muss. Die Tatsache, dass NVIDIA auf der Blackwell eher die FP4-Inferenz als das Training betont, spiegelte auch diese Einschätzung wider. Diese Studie hat einen vollständigen Pretraining-Prozess auf nativem FP4-Hardware durchgeführt, was bedeutet, dass die für die Inferenz vorgesehenen FP4-Rechenkapazitäten auf MI355X und Blackwell theoretisch auch für das Training verwendet werden können. Wenn sich das FP4-Training in größeren Modellen und in mehr Szenarien als praktikabel erweist, würde dies die verfügbare Trainingsrechenleistung der bestehenden Hardware theoretisch verdoppeln.
Dritte Ebene: Sie verwendet den offenen OCP-Standard. MXFP4 ist Teil des OCP-Mikroskalierungs-Formatstandards und wird von sieben Unternehmen, darunter AMD, NVIDIA, Intel, Meta, Microsoft, Arm und Qualcomm, gemeinsam unterstützt. Die Verwendung eines offenen Standards bedeutet, dass diese Methode auf der Hardware verschiedener Hersteller portierbar ist und nicht auf eine einzelne Ökosystem eingeschränkt ist.
Von FP16 zu FP8 hat DeepSeek-V3 gezeigt, dass die Halbierung der Genauigkeit die Trainingskosten erheblich senken kann. Von FP8 zu FP4 hat diese Studie den ersten wichtigen Schritt gemacht. Mit jeder Reduzierung der Genauigkeit ändert sich die Wirtschaftlichkeit des gesamten Trainings von großen Modellen.
Dieser Artikel stammt aus dem WeChat-Account "Machine Intelligence" (ID: almosthuman2014), redigiert von Leng Mao, und wurde von 36Kr mit Genehmigung veröffentlicht.