Stanford: Der Kampf der Optimierer? AdamW gewinnt dank seiner "Stabilität"
Seit seiner Einführung im Jahr 2014 hat Adam und seine verbesserte Version AdamW lange Zeit die Vorherrschaft bei der Vortrainierung von Open-Weight-Sprachemodellen innegehabt und dazu beigetragen, dass die Modelle bei Massendaten stabil bleiben und schnell konvergieren.
Mit der raschen Vergrößerung der Modellgröße ist die Vortrainierung zu einem typischen Beispiel für rechenintensive Aufgaben geworden und stellt in der Entwicklung von Großmodellen oft die wichtigste Rechenausgabe dar. Vor diesem Hintergrund hängt das Design des Optimierers direkt mit der Konvergenzgeschwindigkeit und den Rechenkosten zusammen.
Die Forscher haben verschiedene Verbesserungsrichtungen erforscht. Die schnellsten Optimierer verwenden oft Matrix-Präkonditionierer (z. B. Muon, Soap, Kron). Im Vergleich zu einem streng optimierten AdamW kann dies eine Iterationsbeschleunigung von etwa 30–40 % bringen.
Eine Studie des Teams von Percy Liang an der Stanford University zeigt, dass trotz vieler Alternativen, die behaupten, eine signifikante Beschleunigung (1,4- bis 2-fach) zu bieten, AdamW immer noch die robuste erste Wahl für die Vortrainierung ist, aber die Matrix-Methoden bei bestimmten Daten-Modell-Verhältnissen deutliche Vorteile aufweisen.
- Titel der Studie: Fantastic Pretraining Optimizers and Where to Find Them
- Link zur Studie: https://www.arxiv.org/pdf/2509.02046v1
- Github: https://github.com/marin-community/marin/issues/1290
- Blog: https://wandb.ai/marin-community/marin/reports/Fantastic-Optimizers-and-Where-to-Find-Them--VmlldzoxMjgzMzQ2NQ
Die Forscher glauben, dass dieses Phänomen auf zwei kritische methodische Mängel zurückzuführen sein könnte:
- Problem 1: Ungerechte Hyperparameteroptimierung.
Die Basismodelle sind normalerweise unzureichend optimiert: Bei dem gängigen AdamW-Basismodell kann bereits die Optimierung des Lernratenparameters allein eine 2-fache Beschleunigung bei einem Modell mit 130 Millionen Parametern erzielen.
Das Festlegen gemeinsamer Hyperparameter garantiert keine faire Vergleichbarkeit: Beispielsweise bevorzugt der Lion-Optimierer im Vergleich zum Standardwert von 0,1 für die Gewichtsabnahme höhere Werte (z. B. 0,6).
Links: Das gängige AdamW-Basismodell hat das Problem der unzureichenden Optimierung. In dem von Brown et al. [2020] vorgeschlagenen und von mehreren nachfolgenden Studien übernommenen GPT-3-Trainingsschema kann die Anpassung des Hyperparameters der Lernrate für ein Modell mit 100 Millionen Parametern allein eine bis zu 2-fache Beschleunigung erzielen, was die Wichtigkeit einer angemessenen Hyperparameteroptimierung unterstreicht. Rechts: Das Festlegen von Hyperparametern zwischen verschiedenen Optimierern garantiert keine faire Vergleichbarkeit. In früheren Studien wurden gemeinsame Hyperparameter wie Lernrate und Gewichtsabnahme normalerweise als Konstanten festgelegt. Doch selbst bei konzeptionell ähnlichen Optimierern können die entsprechenden optimalen Hyperparameter stark variieren.
- Problem 2: Unzureichende Testgröße
Die meisten Tests verwenden nur kleine Modelle (mit weit weniger als 1 Milliarde Parametern) oder folgen dem 1-fachen Datenverhältnis, das in der Chinchilla-Studie vorgeschlagen wurde. Wie würden die Ergebnisse bei größeren Modellen oder höheren Datenverhältnissen aussehen?
Außerdem können Prüfpunkte in der frühen Trainingsphase auch irreführend sein. In der Phase der Lernratenabnahme können sich die Verlustkurven verschiedener Methoden kreuzen, was zu einer Umkehr der endgültigen Rangliste führt. Daher muss eine endgültige Bewertung am Ende des Trainings unter (verschiedenen) Einstellungen durchgeführt werden.
Links: Die Beschleunigungswirkung nimmt mit zunehmender Modellgröße ab. Obwohl einige Optimierer bei Modellen mit weniger als 1 Milliarde Parametern im Vergleich zu AdamW eine höhere Beschleunigungsrate (1,3 - 1,4-fach) aufweisen können, sinkt diese Beschleunigungsrate auf nur 1,1-fach, wenn die Modellgröße auf 1,2 Milliarden Parameter erhöht wird. Rechts: Matrixbasierte Optimierer haben im Allgemeinen eine bessere Leistung als skalare Optimierer. Diese Abbildung zeigt die Verlustkurven von drei skalaren Optimierern (AdamW, Nesterov AdamW, Mars) und drei matrixbasierten Optimierern (Kron, Soap, Muon) während des Trainings mit verschiedenen Chinchilla-Datenverhältnissen. Die matrixbasierten Optimierer haben eine konsistente Beschleunigungswirkung im Vergleich zu den skalaren Optimierern erzielt. Darüber hinaus konvergieren diese drei matrixbasierten Optimierer schließlich bei Übertraining (overtrained) zu ähnlichen Verlustwerten.
Um diese Hypothese zu überprüfen, haben die Forscher eine systematische Vergleichsstudie durchgeführt, die elf verschiedene Deep-Learning-Optimierer umfasst. Sie haben für jeden Optimierer eine gründliche und unabhängige Hyperparameteroptimierung durchgeführt, wobei verschiedene Modellgrößen (von 100 Millionen bis 1,2 Milliarden Parametern) und Daten-Modell-Verhältnisse (1- bis 8-fach des optimalen Chinchilla-Verhältnisses) berücksichtigt wurden.
Die in dieser Studie verwendeten Optimierer.
Die Studie hat folgende Ergebnisse gezeigt:
- Unabhängige Optimierung ist von entscheidender Bedeutung: Die optimale Hyperparameterkonfiguration eines Optimierers kann in der Regel nicht direkt auf einen anderen Optimierer übertragen werden. Ohne unabhängige Optimierung sind die Vergleichsergebnisse nicht fair, und die tatsächliche Beschleunigungswirkung neuer Optimierer im Vergleich zu einem sorgfältig optimierten AdamW ist weit geringer als behauptet.
- Kurzfristige Bewertungen sind irreführend: Die Bewertung der Leistung eines Optimierers nur innerhalb eines kurzen Trainingszeitraums ist unzuverlässig. Mit fortschreitendem Training und Lernratenabnahme kann die Leistungsrangliste verschiedener Optimierer sich umkehren, und ihre Verlustkurven können sich sogar mehrmals kreuzen.
- Matrixmethoden führen in der Leistung an: Alle schnellsten Optimierer verwenden matrixbasierte Präkonditionierer anstelle der herkömmlichen elementweisen Skalierung. Methoden wie Muon, Soap und Kron können im Vergleich zu einem streng optimierten AdamW eine 30–40 %ige Beschleunigung der Einzelschritt-Trainingsgeschwindigkeit erzielen.
Interessanterweise hängt die optimale Wahl auch vom konkreten Anwendungsfall ab: Bei dem Standard-Chinchilla-Datenverhältnis zeigt Muon die beste Leistung. Wenn das Verhältnis von Datenmenge zu Modellgröße auf mehr als 8-fach erhöht wird, ist Soap die bessere Wahl.
Methode
Die Studie hat eine strenge Methodik entwickelt, um diese Optimierer zu bewerten. Diese Methode gliedert sich in drei Hauptphasen. Zunächst ist die Phase der allgemeinen Einstellungen, in der die experimentelle Umgebung festgelegt wurde. Die Studie hat vier Transformer-Modelle verschiedener Größen verwendet, mit Parametern von 130 Mio. bis 1,2 Mrd., wobei die Sequenzlänge jeweils 4096 beträgt. Die genauen Konfigurationen wie Anzahl der Schichten und versteckte Dimensionen der einzelnen Modelle wurden detailliert aufgeführt.
Die detaillierten Architektur-Hyperparameter der verschiedenen untersuchten Modellgrößen.
Beim Datensatz wurden die Datensätze DCLM-baseline, StarCoder V2 und ProofPile 2 gemischt und der LLaMA-3-Tokenisierer verwendet, um die Vielfalt der Trainingsdaten sicherzustellen. Die bewerteten Optimierer umfassen AdamW, NAdamW, Mars, Cautious, Lion, Adam-mini, Muon, Scion, Kron (PSGD), Soap und Sophia, die die derzeitigen Haupt- und führenden Methoden im Bereich der Deep-Learning-Optimierung repräsentieren.
Phase I: Umfassende Parametersuche
Die Studie zielt darauf ab, das Problem zu lösen, dass die Leistung des Baseline-Optimierers unterschätzt wird, weil seine Hyperparameter nicht richtig eingestellt wurden. Die Studie hat die Methode des Koordinatenabstiegs verwendet, um eine umfassende Suche nach den Hyperparametern (einschließlich Lernrate, Gewichtsabnahme, Vorwärmschritte, β₁, β₂, ε, maximale Gradientennorm und Batch-Größe) aller Optimierer auf einem voreingestellten Gitter durchzuführen.
Die experimentellen Einstellungen in dieser Phase umfassten das Training von Modellen mit 130 Mio., 300 Mio. und 500 Mio. Parametern mit 1-fachem Chinchilla-Datensatz sowie das Training eines Modells mit 130 Mio. Parametern mit 2-fachem, 4-fachem und 8-fachem Chinchilla-Datensatz.
Die Studie hat festgestellt, dass eine strenge Hyperparameteroptimierung für jeden Optimierer von entscheidender Bedeutung ist, da sich die optimalen Hyperparameterkonfigurationen zwischen verschiedenen Optimierern stark unterscheiden. Die blinde Übertragung von Hyperparametern führt zu unfairen Vergleichen.
Außerdem hat die Studie beobachtet, dass die tatsächliche Beschleunigungswirkung im Vergleich zu einem sorgfältig optimierten Baseline-AdamW im Allgemeinen geringer ist als in einigen früheren Studien behauptet wurde.
Phase II: Identifizierung von sensitiven Hyperparametern
Auf der Grundlage der Ergebnisse der ersten Phase hat die Studie die sensitiven Hyperparameter identifiziert, deren optimale Werte sich mit der Modellgröße ändern, wie z. B. die Lernrate und die Vorwärmlänge. Anschließend wurde für diese sensitiven Hyperparameter eine weitere Gittersuche für Modelle mit 300 Mio. und 500 Mio. Parametern sowie für 2-fachen, 4-fachen und 8-fachen Chinchilla-Datensatz durchgeführt.
Hauptresultate der ersten und zweiten Phase. Oben: Wir haben die Validierungsverluste der Modelle auf dem C4/EN-Datensatz in den Experimenten der ersten und zweiten Phase aufgetragen. Jeder Punkt in der Abbildung entspricht dem optimalen Verlustwert, den jeder Optimierer bei dem entsprechenden Chinchilla-Datenverhältnis erreichen kann. Unten: Wir haben für einige Optimierer ihre Leistung auf dem HellaSwag-Benchmark aufgetragen. Diese Optimierer umfassen: AdamW-Baseline, die 2 besten skalaren Optimierer und die 3 besten matrixbasierten Optimierer. Die Leistungsdaten stammen aus ihren jeweils optimalen Laufbatches.
Indem die Ergebnisse der ersten beiden Phasen kombiniert wurden, hat die Studie fast optimale Hyperparametersätze und die entsprechenden Verluste für 12 verschiedene Einstellungen erhalten. Um die Beschleunigungswirkung verschiedener Optimierer im Vergleich zu AdamW zu quantifizieren, hat die Studie das Skalierungsgesetz für den AdamW-Verlust in Abhängigkeit vom Datenbudget gefittet und daraus das Verhältnis der für AdamW erforderlichen Datenmenge, um denselben Verlust zu erreichen, zur tatsächlich erforderlichen Datenmenge des Optimierers als Beschleunigungsrate berechnet.
Die Studie hat festgestellt, dass matrixbasierte Optimierer zwar im Allgemeinen besser performen als skalare Optimierer, aber ihre Beschleunigungsrate in den praktischen Tests nie höher als 1,4-fach war. Viele alternative Optimierer scheinen bei kleinen Modellen oder begrenzten Datenverhältnissen Vorteile zu haben, aber mit zunehmender Modellgröße verschwinden oder sogar umkehren diese Beschleunigungsvorteile, und AdamW bleibt immer noch die robusteste erste Wahl für die Vortrainierung.
Phase III: Fallstudie
Diese Phase zielt darauf ab, eine tiefgehende Erforschung größerer Experimente durchzuführen. Die Studie hat zunächst die Anpassungsgüte der Hyperparameter überprüft, indem ein Glättungsgesetz der Form