Nach dreijähriger Verspätung: Der neue lange Artikel von Peking-Universität-Alumna Weng Li geht viral im Internet

Ein Hieb gegen die Scaling Laws

Nach drei Jahren Pause hat Lilian Weng endlich einen neuen Blogbeitrag veröffentlicht.

Gerade eben hat ein über dreijährig verzögerter langer Artikel von Lilian Weng, der ehemalige Vizepräsidentin von OpenAI, die Plattformen in Sturm gesetzt.

In diesem Blogbeitrag mit dem Titel "Scaling Laws, Carefully" zerlegt sie die Scaling Laws von Grund auf -

Das Gesetz, auf das die KI - Branche Hunderte von Milliarden Dollar gesetzt hat, ist viel fragiler, als jeder vermutet.

One - Minute - Überblick: Was behandelt dieser Artikel mit Tausenden von Wörtern?

Eine Formel hat die gesamte Branche fünf Jahre lang beherrscht. Die Scaling Laws sagen: "Je größer das Modell, je mehr Daten und je mehr Rechenleistung, desto höher steigt die Leistung in einem festen Verhältnis." Sie haben die KI von einer Geheimwissenschaft zu einem kalkulierbaren Geschäft gemacht und indirekt die Strömung von hunderten von Milliarden Dollar gelenkt.

OpenAI und DeepMind haben entgegengesetzte Antworten gegeben. Bei der gleichen Frage "Wie soll der Rechenleistungshaushalt verteilt werden?" sagte OpenAI 2020, dass das Modell schneller wachsen sollte als die Daten, und DeepMind 2022, dass beide gleichermaßen wachsen sollten. Später stellte sich heraus, dass die Wurzel der Differenz in der unterschiedlichen statistischen Erfassung eines Parameters lag, zusammen mit einem zu geringen Experimentumfang.

Selbst die Formel des Siegers birgt einen Fehler. Die optimale Verteilung von DeepMind, die von der gesamten Branche zwei Jahre lang kopiert wurde, zeigte bei einer Zeilen - für - Zeilen - Wiederholung im Jahr 2024, dass die Verlustfunktion den Mittelwert anstelle der Summe genommen hatte, was dazu führte, dass der Optimierer vorzeitig stoppte und die ausgegebenen Parameter keine optimalen Lösungen waren.

Man muss äußerst vorsichtig sein, wenn man die Regeln kleiner Modelle auf große Modelle extrapoliert. Diese Kurve wurde an relativ kleinen Modellen gefittet. Beim Extrapolieren auf die Ebene von Billionen von Parametern kann ein Rundungsfehler zu einem großen Unterschied in den Ergebnissen führen. Im Blog ist ein interaktiver Simulator beigefügt. Mit einem Zug an der Schieberegler kann man es selbst sehen.

Es gibt ein noch grundlegendes Problem: Die Daten neigen sich dem Ende zu. Die Formel geht davon aus, dass die Daten unbegrenzt verfügbar sind, aber hochwertige Textdaten sind begrenzt. Deshalb wendet sich die gesamte Branche zunehmend auf die verstärkte Lernmethode, die Berechnung während des Tests und die Synthese von Daten.

Eine Gerade, Milliarden von Dollar

Es ist allgemein bekannt, dass der Kern der Scaling Laws einfach in einem Satz zusammengefasst werden kann -

Je größer das Modell, je mehr Daten und je mehr Rechenleistung, desto besser die Leistung. Und dieses "besser" ist nicht zufällig, sondern folgt einer genauen mathematischen Regel.

Wenn man den Trainingsverlust des Modells in einem logarithmischen Koordinatensystem aufträgt, fällt er linear mit der Anzahl der Modellparameter N, der Datenmenge D und der Rechenleistung C ab.

Die Formel lautet L(x) = E + A/x^α, wobei x N, D oder C sein kann, E der theoretisch optimale Verlust (die Entropie der Daten selbst) ist und A und α gefittete Konstanten sind.

Um ein Modell mit N Parametern mit D Token zu trainieren, benötigt man insgesamt C ≈ 6ND Rechenleistung - 2ND für die Vorwärtsrechnung und 4ND für die Rückwärtsrechnung.

Diese Gerade bedeutet, dass die Leistungserhöhung vorhersagbar ist.

Man kann zuerst einige kleine Modelle trainieren, die Gerade fitten und dann nach rechts extrapolieren, um die Leistung eines großen Modells vorauszusagen. Man muss nicht tatsächlich Millionen von Dollar in die Trainierung eines großen Modells investieren, um herauszufinden, ob es funktioniert.

Bevor die Scaling Laws bekannt wurden, wurde Deep Learning als "Alchemie" verspottet. Man wusste, was funktioniert, aber nicht warum.

Im Jahr 2020 veröffentlichte Kaplan von OpenAI diese Potenzgesetz, das zum ersten Mal die Geheimwissenschaft in den Bereich des "Vorhersagbaren" brachte.

Dies ist der Grund, warum alle großen KI - Firmen bereit sind, Geld zu investieren.

Aber was die wichtigste Empfehlung der Formel betrifft, wie man den Rechenleistungshaushalt zwischen Modell und Daten aufteilen soll, haben OpenAI und DeepMind entgegengesetzte Antworten gegeben.

Dasselbe Problem

OpenAI und DeepMind haben entgegengesetzte Antworten gegeben

Im Jahr 2020 kam das Team von Kaplan bei OpenAI zu dem Schluss: Die optimale Modellgröße N_opt ∝ C^0.73.

Das bedeutet: Wenn die Rechenleistung um den Faktor 10 erhöht wird, sollten 5,5 Mal mehr Ressourcen auf das Modell und 1,8 Mal mehr auf die Daten verwendet werden - das Modell wächst viel schneller als die Daten.

Dies hat direkt das Trainingsschema von GPT - 3 beeinflusst.

Das Modell mit 175 Milliarden Parametern wurde nur mit 300 Milliarden Token gefüttert (ein Token ist die kleinste Einheit, mit der das Modell Texte verarbeitet. Etwa ein Wort entspricht 1 - 2 Token).

Nach späteren Standards war dies eine gravierende Untertrainingssituation.

Im Jahr 2022 kam das Team von Chinchilla bei DeepMind zu dem entgegengesetzten Schluss: N_opt ∝ C^0.50, d. h. das Modell und die Daten sollten im gleichen Verhältnis wachsen.

Die Ingenieure haben es später in eine einfache Zahl zusammengefasst: Das optimale Verhältnis von Token zu Parametern ist ungefähr 20:1.

Dann absolvierte DeepMind einen direkten Vergleich.

Ihr eigenes Gopher - Modell hatte 280 Milliarden Parameter und 300 Milliarden Token. Chinchilla hatte 70 Milliarden Parameter und 1,4 Billionen Token. Beide Modelle verwendeten die gleiche Rechenleistung.

Chinchilla hat Gopher klar geschlagen.

Ein kleineres, aber "fresseres" Modell hat das größere, aber "hungrige" Gegner - Modell geschlagen.

Der Konsens in der gesamten Branche hat sich dadurch gewandelt: Von "Modellgröße maximieren" zu "Die meisten Modelle sind untertrainiert".

0,73 vs. 0,50 - Bei der gleichen Frage und entgegengesetzten Antworten wird der Rechenleistungshaushalt in zwei völlig verschiedene Richtungen aufgeteilt.

Der Grund ist ein "Buchführungsproblem"

Im Jahr 2024 haben zwei Forscher in der führenden Fachzeitschrift für Maschinelles Lernen TMLR einen Artikel veröffentlicht, in dem sie diese Differenz bis auf den Grund untersucht haben.

Das Ergebnis lässt einen lachen und weinen.

Erster Grund: Die beiden Teams zählen die Parameter unterschiedlich.

Im Modell gibt es eine Parameter - Schicht namens "embedding", die für die Umwandlung von Text in numerische Vektoren, die das Modell verstehen kann, verantwortlich ist. In kleinen Modellen macht diese Schicht einen sehr großen Anteil der Gesamtzahl der Parameter aus. In einem Modell mit einigen Millionen Parametern kann es bis zu einem Drittel sein.

Kaplan hat die "embedding" - Parameter bei der Zählung ausgeschlossen, während Chinchilla sie mitgezählt hat.

Diese unterschiedliche statistische Erfassung eines Parameters reicht aus, um den schließlich gefitteten Potenzgesetz - Exponenten zu verfälschen.

Sie haben eine einfache Korrekturformel angegeben: N = N_\E + ω·N_\E^(1/3), wobei N_\E die Anzahl der Parameter ohne "embedding" ist und ω eine Konstante ist. In kleinen Modellen hat der zweite Term einen großen Anteil, und der Einfluss der "embedding" - Parameter ist signifikant. Je größer das Modell wird, desto näher geht der zweite Term gegen Null, und die beiden Zählmethoden führen schließlich zum gleichen Ergebnis.

Zweiter Grund: Kaplans Experimente waren zu klein.

Das größte Modell, das Kaplan getestet hat, hatte nur 1,5 Milliarden Parameter, während die Experimente von Chinchilla auf Modelle mit mehr als 16 Milliarden Parametern erweitert wurden. In einem logarithmischen Koordinatensystem wird ein kleiner Fitting - Fehler beim Extrapolieren drastisch vergrößert.

Sie haben die Formel von Chinchilla mit einem einheitlichen Parameter - Zählverfahren neu abgeleitet und eine Schlüsselregel entdeckt -

Der Potenzgesetz - Exponent ändert sich mit der Größe der Rechenleistung. Im Rahmen von Kaplans kleinen Experimenten war der Exponent tatsächlich nahe bei 0,73. Aber bei größeren Experimenten konvergiert der Exponent gegen 0,50.

Kaplan hat nicht "falsch" gemacht. Er war im Rahmen seiner Experimente richtig.

Aber er hat eine lokal gültige Regel auf eine globale Schlussfolgerung extrapoliert.

Ein Buchführungsproblem bei der Zählung der Parameter und ein zu kleiner Experimentumfang haben dazu geführt, dass zwei Spitzenteams entgegengesetzte Ressourcenverteilungsempfehlungen gegeben haben.

Die gesamte Branche hat nach diesem Schlussfolgerung zwei Jahre lang das Trainingsrezept angepasst.

Selbst der Sieger hat einen Fehler

Es ist allgemein bekannt, dass Kaplan von Chinchilla korrigiert wurde.

Aber Weng hat einen Schritt weiter gegangen - Selbst die Methodik von Chinchilla hat Probleme.

Das Chinchilla - Papier hat drei unabhängige Methoden verwendet, um seine Ergebnisse zu validieren:

Methode 1: Die Modellgröße wird festgelegt, und die Datenmenge wird variiert.

Methode 2: IsoFLOP - Kurven werden gezeichnet.

Methode 3: Direkte Parameter - Fitting der Verlustformel L(N,D) = E + A/N^α + B/D^β

Alle drei Methoden führen zu demselben Ergebnis, was sehr überzeugend aussieht.

Die mathematische Ableitung der Methode 3 ist besonders elegant: Unter der Bedingung C ≈ 6ND kann man die optimale