Vor zwei Jahren hat Tsinghua-Universität eine Vorhersage getroffen, die allmählich zu einem globalen Konsens wird. Drei große KI - Institutionen wie Meta haben dieselbe Schlussfolgerung gezogen.
【Einführung】Es ist verrückt! Die kürzlich von Meta und METR gemessenen Daten zur AI-Evolution stimmen perfekt mit dem von einem chinesischen Team vor zwei Jahren vorgeschlagenen 「Dichtegesetz」 überein. Das Silicon Valley schaut sich plötzlich um und stellt fest, dass chinesische Forscher auf diesem Weg schon zwei Jahre voraus sind!
Drei der seriösesten globalen AI-Forschungsinstitute haben in der vergangenen Woche alle aufeinander gestoßen!
Am 3. April hat das amerikanische Forschungsinstitut METR stillschweigend einen Technologiebericht aktualisiert. Die Kernaussage lässt sich in einem Satz zusammenfassen.
Die Fähigkeiten der Künstlichen Intelligenz verdoppeln sich alle 88,6 Tage.
Fünf Tage später, am 8. April, hat das Meta Super Intelligence Lab ein neues Modell namens Muse Spark veröffentlicht und eine interne Trainingswirkungsgradkurve namens scaling ladder offen gelegt. Die Schlussfolgerung ist ebenfalls ein Satz.
Um die Leistung des Llama 4 Maverick von vor einem Jahr zu erreichen, benötigt das neue Modell nur weniger als ein Zehntel der Trainingsrechenleistung.
Einer der Berichte misst die Aufgabenlänge, der andere die Trainingsrechenleistung. Die beiden Institute haben keine Verbindung zueinander, und ihre Forschungsmethoden überschneiden sich nicht.
Aber wenn die beiden Kurven in dasselbe Koordinatensystem umgerechnet werden, stimmen die Steigungen fast vollständig überein.
Bis hierher war die Sache schon ziemlich verrückt.
Was noch verrückter ist, ist, dass diese Kurve von einem chinesischen Team vor zwei Jahren bereits vollständig gezeichnet wurde und in einer Nature-Nachschlagewerk veröffentlicht wurde.
Es heißt Dichtegesetz.
Vor zwei Jahren hat jemand diese Linie bereits gezeichnet
Dieses Konzept tauchte erstmals in einer Dissertation namens 「Densing Law of LLMs」 auf.
Die Autoren sind ein gemeinsames Team aus Mianbi Intelligence und der Tsinghua-Universität, angeführt von den Professoren Sun Maosong und Liu Zhiyuan. Der erste Autor ist der Doktorand Xiao Chaojun.
Die Dissertation wurde im Dezember 2024 auf arXiv hochgeladen und im November 2025 von Nature Machine Intelligence angenommen.
Dissertationslink: https://arxiv.org/abs/2412.04315
Dissertationslink: https://www.nature.com/articles/s42256-025-01137-0
Die Kernaussage der Dissertation lässt sich in einem Satz zusammenfassen.
Die Intelligenzdichte des Modells steigt exponentiell mit der Zeit. Die Anzahl der Parameter, die erforderlich sind, um ein bestimmtes Intelligenzniveau zu erreichen, halbiert sich alle 3,5 Monate.
Ende 2024 klang diese Aussage etwas übertrieben.
Zu der Zeit verehrte die gesamte Branche das Skalierungsgesetz. OpenAI, Anthropic und Meta haben alle an der Entwicklung von Modellen gearbeitet.
Alle dachten, dass je mehr Parameter, desto intelligenter das Modell ist, und dass es am besten ist, die GPU bis zum Limit zu nutzen.
Aber das Forschungsteam sah es anders.
Sie haben alle damals einflussreichen Open-Source-Basismodelle, von Llama-1 bis hin zu Gemma-2 und MiniCPM-3, insgesamt 51 Modelle, in dasselbe Maßsystem gebracht.
Nachdem fünf Benchmarks durchgeführt wurden, zeigte sich ein fast perfektes exponentielles Verhältnis, mit einem R²-Wert von 0,934.
Angesichts der Tatsache, dass die Bewertung von großen Modellen leicht durch Datenkontaminationen gestört werden kann, haben sie es erneut mit einem neu erstellten kontaminationsgefilterten Datensatz namens MMLU-CF getestet. R² = 0,953.
Beide Anpassungen ergaben einen R²-Wert nahe bei 1. Statistisch gesehen ist dies fast kein Zufall.
Mit anderen Worten, jedes der in den letzten zwei Jahren veröffentlichten Open-Source-Modelle, unabhängig von dem Team oder der Architektur, liegt auf derselben exponentiellen Linie, die alle 3,5 Monate verdoppelt wird.
Bis hierher war die Geschichte nur 「ein chinesisches Team hat eine scheinbar radikale Erfahrungsregel vorgeschlagen」.
Was diese Geschichte wirklich zu einem 「Moment」 macht, sind die Ereignisse in den letzten sechs Monaten.
Drei Institute, drei Methoden, dieselbe Steigung
Werfen wir einen Blick auf die Schlussfolgerungen von Mianbi, Meta und METR.
- Das Dichtegesetz von Mianbi misst, 「wie viele Parameter für dasselbe Intelligenzniveau erforderlich sind」. Die Schlussfolgerung ist, dass der Parameterbedarf alle 3,5 Monate halbiert wird.
- Die scaling ladder von Meta misst, 「wie viel Trainingsrechenleistung für dasselbe Intelligenzniveau erforderlich ist」. Die Schlussfolgerung ist, dass Muse Spark im Vergleich zu Llama 4 Maverick von vor einem Jahr eine Größenordnung an Rechenleistung spart.
- Der Zeitraumbericht von METR misst, 「wie lange eine Aufgabe von demselben Modell bewältigt werden kann」. Die Schlussfolgerung ist, dass die Aufgabenlänge alle 88,6 Tage verdoppelt wird.
Drei Maßstäbe. Drei akademische Institute. Drei nicht überlappende Forschungspfade.
Aber wenn alle Zahlen in dasselbe Koordinatensystem umgerechnet werden, stimmen die Steigungen ihrer Kurven fast vollständig überein.
Das am leichtesten zu übersehende ist, dass das Dichtegesetz das erste der drei war. Es wurde fast zwei Jahre vor der scaling ladder von Meta und mehr als ein Jahr vor der vollständigen Modellierung von METR vorgeschlagen.
Als Meta im Anfang April in einem Blogbeitrag die scaling ladder veröffentlichte, waren sie sich wahrscheinlich selbst nicht bewusst, dass die Form dieser Grafik fast dieselbe ist wie die Kurve in einer Präsentation auf einer akademischen Konferenz in Peking im Jahr 2024.
Welche Beobachtung verdient es, 「Gesetz」 zu heißen?
In der Wissenschaft gibt es ein ungeschriebenes Standard, um zu beurteilen, ob eine empirische Beobachtung das Recht hat, 「Gesetz」 genannt zu werden.
Es geht nicht darum, wie schön die Daten sind, sondern darum, ob sie in mehreren unabhängigen Messsystemen gleichzeitig gelten.
Das Moore-Gesetz ist ein Gesetz, weil die Halbleiterindustrie es über Jahrzehnte hinweg aus drei völlig verschiedenen Dimensionen - Lithografiegenauigkeit, Transistordichte und Kosten pro Einheit Rechenleistung - immer wieder bestätigt hat.
Das Dichtegesetz geht denselben Weg.
Es war zunächst nur eine Anpassungskurve von einem einzelnen Team. Als es von der Nature-Nachschlagewerk angenommen wurde, konnte es bereits auf einem kontaminationsgefilterten Datensatz wiederholt werden. In diesem Monat wurde es erneut unabhängig in den Trainingsdaten von Meta und in der Aufgabenbewertung von METR bestätigt.
In einem größeren Koordinatensystem sieht dieser Moment sehr ähnlich aus wie als der Strom Anfang der 1880er Jahre in New York eingeführt wurde.
Damals haben verschiedene Erfinder, Ingenieure und Städte ihre eigenen Stromnetze entwickelt. Erst als jemand die Entwicklungskurven aller Projekte auf einem Blatt Papier zeichnete, wurde den Menschen klar, dass es sich nicht um einige vereinzelte technische Fortschritte handelt, sondern um die Entstehung einer neuen Ära.
Nur diesmal dauerte es weniger als ein Jahr, bis die Dissertation von der globalen Fachöffentlichkeit bestätigt wurde.
Drei Schlussfolgerungen, jede von ihnen ändert die Branchenannahmen
Wenn das Dichtegesetz stimmt, wird es viele Dinge gleichzeitig ändern.
Erstens wird die Inferenzkosten schneller sinken, als alle erwartet haben.
Eine Schlussfolgerung des Dichtegesetzes ist, dass die Inferenzkosten eines LLMs mit derselben Leistung alle 2