Das Hermes-Team überarbeitet das Vortraining: Die Rechenleistungskosten sinken um 60%, ein neuer Weg zur Effizienzsteigerung nach DeepSeek
Die Fähigkeiten des Modells müssen noch verbessert werden, aber die Trainingskosten dürfen nicht mehr unbegrenzt erhöht werden – dies ist wahrscheinlich der stärkste Konsens in der gegenwärtigen KI-Branche.
Von Entwicklern bis hin zu Modellunternehmen interessiert man sich nicht nur für die Frage, welches Modell stärker ist, sondern für ein praktischeres Problem: Kann man bei der gleichen Anzahl von GPUs und der gleichen Trainingszeit mehr effektive Experimente durchführen, mehr effektive Daten verarbeiten und bessere Loss-Werte und downstream-Metriken erzielen?
Das Nous Research-Team, das mit Hermes Agent (140K Star) schnell Bekanntheit erlangte, hat gerade eine Methode für das Token-Überlagerungstraining vorgeschlagen: Token Superposition Training (TST), die es verspricht, die Vorhersagekosten von Großmodellen um eine Größenordnung zu senken.
Derzeit hat der Beitrag bereits über 410.000 Aufrufe erreicht. Hugging Face: http://huggingface.co/papers/2605.06546
In der Studie "Efficient Pre-Training with Token Superposition" ist eine Reihe von Experimenten mit einem MoE-Modell mit 10 Milliarden Parametern (Qwen3-ähnlich, 10B-A1B MoE) am interessantesten. Die Ergebnisse sind sehr anschaulich:
- Beim Baseline-Training werden 1,05 T Tokens in 12.311 B200-Stunden verarbeitet.
- Beim TST-Training werden 2 T Tokens in nur 4.768 B200-Stunden verarbeitet, was etwa 38,7 % des Baseline-Werts entspricht.
- Zugleich sinkt der finale Loss-Wert von 2,252 auf 2,236, und die 0-Shot-Evaluierungen wie HellaSwag, ARC-E, ARC-C und MMLU verbessern sich synchron.
Mit anderen Worten: Mit nur etwa 40 % der GPU-Zeit erzielt TST einen niedrigeren Loss-Wert und bessere downstream-Metriken. Dies entspricht einer Komprimierung der Vorhersagezeit auf 40 % des ursprünglichen Werts bei demselben endgültigen Loss, was einer Beschleunigung um den Faktor 2,5 entspricht.
Wenn das Hermes Agent, das OpenClaw übertrifft und global auf OpenRouter an der Spitze steht, beweist, dass das Nous Research-Team sowohl in der Modelltraining als auch in der Optimierung der Fähigkeiten mit Agenten bewandert ist, so lenkt das neu vorgeschlagene TST den Blick von der Frage, wie das Modell genutzt wird, zurück zur Quelle der Fähigkeiten und greift direkt auf das Vorhersagetraining zu.
Der Grund, warum man Nous Research mit DeepSeek vergleicht, liegt nicht nur darin, dass dieses amerikanische Team lange Zeit im Open-Source-Bereich aktiv ist, sondern auch darin, dass die Kostenreduktionsstrategien beider Teams völlig unterschiedlich sind.
DS steht für die systemweite Neukonstruktion. Ob MoE, MLA oder Sparsefizierung und parallele Optimierung, alles basiert auf der systemweiten Ingenieurskunst, um die Rechenleistung zu maximieren. Effizienzsteigerungen sind nie kostenlos, und die Ingenieurskunst muss an anderer Stelle für die Komplexität bezahlen.
NR hingegen überschreibt den Lernpfad in der frühen Phase des Vorhersagetrainings. Es berührt nicht die Architektur, sondern greift direkt auf die Art und Weise zu, wie das Modell Tokens lernt. Der Ansatz ist leichter und einfacher umsetzbar.
TST: Lassen Sie das Modell zuerst "flüchtig lesen", dann "genau lesen"
Um TST zu verstehen, gehen wir zunächst zurück zu der grundlegendsten Aktion des Vorhersagetrainings: der Vorhersage des nächsten Tokens (next-token prediction).
Beim Standardtraining sieht das Modell die vorherigen Tokens und prognostiziert das nächste Token. Dieser Mechanismus ist einfach und stark. In den letzten Jahren wurden fast alle Mainstream-LLM in diesem Paradigma entwickelt.
Aber TST stellt eine sehr einfache Frage: Muss das Modell am Anfang des Vorhersagetrainings wirklich jedes Token genau lesen?
Die Antwort von NR lautet: Nein, nicht unbedingt. Sie unterteilen das Vorhersagetraining in zwei Phasen.
Bildunterschrift: Vergleich von TST mit Standard-next-token prediction, MTP und SuperBPE. TST ändert die Eingabegranularität und das Ausgabesupervisionsziel in der frühen Trainingsphase, ohne die endgültige Modellarchitektur zu ändern.
Die erste Phase heißt Superpositionsphase ("Token-Überlagerungsphase"). In der frühen Trainingsphase liest das Modell nicht mehr Token für Token, sondern gruppiert mehrere aufeinanderfolgende Tokens zu einem "Bag". Wenn die Bag-Größe beispielsweise 8 beträgt, werden 8 aufeinanderfolgende Tokens als eine Gruppe betrachtet.
Auf der Eingabeseite berechnet das Modell den Durchschnitt der Embeddings (die "Vektordarstellung") dieser Gruppe von Tokens und erstellt daraus ein komprimiertes Superposed Token ("überlagertes Token"). Auf der Ausgabeseite prognostiziert das Modell nicht mehr das nächste einzelne Token, sondern welche Tokens in der nächsten Gruppe auftreten werden.
Die zweite Phase heißt Recovery-Phase ("Wiederherstellungsphase"). Nach einem bestimmten Trainingsfortschritt wird TST entfernt, und das Modell kehrt zur Standard-next-token prediction zurück. Das heißt, in der zweiten Hälfte des Trainings wird das Modell wie ein normaler LLM trainiert, um die in der frühen Phase erlernten "groben" Darstellungen in eine generierbare und deployierbare autoregressive Modellform zurückzuführen.
Die Studie bezeichnet TST als eine drop-in-pretraining-Methode ("plug-and-play-Vorhersagemethode"). Der Schwerpunkt liegt hier: Es ist nicht erforderlich, die parallele Strategie, den Optimierer, den Tokenizer, die Trainingsdaten oder die Modellarchitektur zu ändern. Was wirklich geändert wird, ist die Eingabegranularität und das Supervisionsziel in der frühen Trainingsphase.
Dies ist auch der Unterschied zu vielen anderen Trainingsoptimierungslösungen: TST ändert nur den Trainingsvorgang, nicht das Inferenzmodell.
Viele aktuelle Methoden, die die Trainingsoptimierung betreffen, beeinflussen auch die Inferenz. Wenn man beispielsweise den Tokenizer ändert, muss die Ökosystemkompatibilität neu aufgebaut werden; wenn man die Modellstruktur ändert, muss die Deploymentschleife angepasst werden; wenn man die Attention oder das Inferenzmechanismus ändert, muss auch der Online-Service angepasst werden.
Aber TST behält die Komplexität in der Trainingsphase und liefert am Ende immer noch ein normales LLM.
Naturgemäß reicht es nicht aus, nur mit TST zu trainieren. Die Studie weist auch deutlich darauf hin, dass, wenn das Modell nur mit TST trainiert wird, es die gemischten Wahrscheinlichkeiten mehrerer zukünftiger Tokens ausgibt, und die Generierungsergebnisse werden ungeordnet. Daher muss TST später zur Standard-autoregressive Training zurückkehren.
Dies erklärt auch, warum TST eher als eine "phasengerechte Trainingsstrategie" als als Ersatz für die next-token prediction verstanden werden sollte.
Einfacher ausgedrückt, macht TST etwas ähnliches wie das "flüchtige Lesen" des Modells in der frühen Phase des Vorhersagetrainings: Zuerst lernt es die lokale Semantik, die Wortko-Occurrenz und die grobe Verteilung; nachdem die grundlegende Darstellung aufgebaut ist, kehrt es zur Standard-autoregressive Training zurück, um die Generierungsfähigkeit und die Token-genaue Genauigkeit wiederherzustellen.
D.h., während des Trainings werden die Tokens komprimiert, während beim Inferenzvorgang es immer noch ein normales LLM ist.
Warum spart es GPU-Ressourcen? Jedes Trainingselement verarbeitet mehr Text
Die Beschleunigung durch TST ist keine Magie. Ihr Kern ist eine Ressourcenabwägung: Mit einer gröberen Token-Darstellung wird eine höhere Datenverarbeitung erreicht.
Die hier genannte Datenverarbeitung entspricht dem data throughput per FLOPs in der Studie und kann als "wie viel ursprünglicher Text pro Rechenoperation verarbeitet werden kann" verstanden werden. Mit anderen Worten, es ist nicht, dass die GPU plötzlich schneller wird, sondern dass das Modell bei jeder Berechnung mehr Text sehen kann.
Beim Standardtraining verarbeitet das Modell an jeder Position ein Token. Wenn die Sequenzlänge L beträgt, muss der Transformer L Darstellungen verarbeiten.
Aber in der Superpositionsphase von TST werden s aufeinanderfolgende Tokens zu einem Superposed Token zusammengefasst. Die interne Sequenzlänge, die das Modell verarbeitet, wird kürzer, aber die Menge des ursprünglichen Texts, der jeder Position entspricht, wird größer.
Da das Modell auf einer gröberen Darstellung berechnet, kann es bei derselben Anzahl von FLOPs (Floating Point Operations Per Second) s-mal so viele Daten-Tokens verarbeiten.
Bildunterschrift: In einem Experiment mit einem 3B-Modell erreicht TST bei gleicher Loss-Einstellung den Baseline-Loss mit weniger Trainingsschritten, was zeigt, dass der Hauptgewinn aus der höheren Datenverarbeitung in der frühen Trainingsphase stammt.
Das traditionelle Vorhersagetraining ist wie das genaue Lesen jedes Wortes; das frühe Training mit TST ist eher wie das schnelle Überfliegen eines Absatzes, um das lokale Thema, die Wortko-Occurrenz und die Semantikverteilung zu erfassen. Nachdem das Modell die grundlegende Darstellung aufgebaut hat, kehrt es zum genauen Lesen jedes Wortes zurück.
Dieses "flüchtige Lesen" hat seinen Preis: Es geht die Wortreihenfolge innerhalb des Bags verloren, daher kann es nicht über den gesamten Trainingszeitraum angewendet werden. Aber wenn das Modell erstmals mit der statistischen Struktur der Sprache konfrontiert wird, reicht diese niedrigauflösende Eingabe aus und ist effizient.
Die Studie definiert dies als eine coarse-to-fine (von grob nach fein) Strategie: Zuerst lernt das Modell die grobe statistische Struktur in einer einfachen, hochdurchsatzfähigen Verteilung, und dann wird die vollständige Auflösung der Sprachmodellierung wiederhergestellt.
Dies unterscheidet sich deutlich von der derzeitigen Mainstream-Effizienzstrategie: MoE reduziert die Anzahl der aktivierten Parameter pro Token; sparse Attention reduziert die Anzahl der betrachteten Positionen pro Token; MTP (Multi-Token Prediction) prognostiziert mehrere zukünftige Tokens an jeder Position; und TST ändert die Token-Granularität in der frühen Trainingsphase.
Es ist nicht darum, das Modell kleiner zu machen oder die Inferenz direkt zu beschleunigen, sondern darum, dass jeder Schritt in der frühen Phase des Vorhersagetrainings "wertvoller" wird.
Dies ist für Entwickler von entscheidender Bedeutung. Das Vorhersagetraining ist kein Einmalkauf, sondern ein Prozess des ständigen Fehlersuchens. Je früher das Training in den effektiven Bereich gelangt, desto früher können Experimente wie die Datenformel und die Hyperparameter-Einstellungen validiert werden.
Einfacher ausgedrückt: TST spart nicht nur die GPU-Stunden für ein einzelnes Training, sondern auch die Fehlersuchkosten für den gesamten Experimentzyklus.
Der größte Gewinn kommt von Modellen mit 10 Milliarden Parametern
Die Studie hat nicht nur Experimente mit kleinen Modellen durchgeführt, sondern auch an dichten Modellen mit 270M, 600M und 3B Parametern sowie an einem 10B-A1B MoE-Modell validiert. Hierbei handelt es sich bei dem 10B-A1B MoE um ein MoE-Modell mit insgesamt etwa 10 Milliarden Parametern und etwa 1 Milliarde aktivierten Parametern pro Token. Wie am Anfang erwähnt, ist dies das am meisten profitierende Modell.
Bildunterschrift: Kernresultate von TST an Modellen unterschiedlicher Größe