Elon Musk hat Kimi's Paper weitergeleitet, was in Silicon Valley zu einer großen Diskussion geführt hat. Was ist das nächste Schlachtfeld für Attention?
Am 16. März 2026 hat das Kimi-Team eine Dissertation namens Attention Residuals auf arXiv hochgeladen, und dann hat sich die Situation schnell außer Kontrolle geraten. Elon Musk hat sie weitergeleitet, und Andrej Karpathy hat kommentiert: „Wir haben den Titel Attention is All You Need noch nicht wirklich ernst genommen.“ Der ehemalige Mitbegründer von OpenAI, Jerry Tworek, hat es einfach als „Deep Learning 2.0“ bezeichnet. Die letzte Zeit, als eine Architektur-Dissertation eines chinesischen Teams in Silicon Valley eine solche Diskussion ausgelöst hat, reicht vermutlich bis zu DeepSeek-V3 zurück.
Trotz der Aufregung bleiben die meisten Diskussionen auf der Ebene von „Kimi hat etwas Neues entwickelt, und die Experten sind begeistert“. Vergessen wurde, dass am gleichen Tag das Seed-Team von ByteDance und die Huazhong-Universität für Wissenschaft und Technologie eine andere Dissertation namens Mixture-of-Depths Attention (MoDA) veröffentlicht haben, die dasselbe Problem löst, aber auf einem völlig anderen Weg. In derselben Woche hat eine dritte Dissertation namens When Does Sparsity Mitigate the Curse of Depth in LLMs von Dilxat Muhtar aus der Nanjing-Universität, Shiwei Liu aus dem MPI und anderen die präziseste pathologische Analyse aus theoretischer Sicht geliefert.
Das gleichzeitige Erscheinen dieser drei Dissertationen, die auf dasselbe Ziel abzielen, ist kein Zufall. Ein strukturelles Problem, das fast zehn Jahre lang ignoriert wurde, hat endlich einen kritischen Punkt erreicht, an dem es unbedingt gelöst werden muss.
Das Problem liegt nicht in der Sequenzdimension der Attention. Die Attention hat in den letzten Jahren viele Generationen entwickelt, von Multi-Head Attention über Grouped Query Attention bis hin zu MLA von DeepSeek und verschiedenen sparsen Varianten. Jede Generation hat die Interaktion zwischen Tokens optimiert. Dieser Wettlauf um die Verbesserung war beeindruckend, aber er hat eine Tatsache verdeckt: Die Art und Weise der Informationsübertragung zwischen den Schichten ist seit der Veröffentlichung der Transformer-Dissertation im Jahr 2017 immer dieselbe geblieben. Die Residualverbindung, h = h + f(h), eine einfache Addition ohne lernbare Parameter.
Die Ausgaben aller historischen Schichten werden gleichgewichtet summiert. Es gibt keine Auswahl, kein Vergessen und kein Lernen. Der Beitrag jeder Schicht wird gleichermaßen in den Residualstrom eingegeben, unabhängig davon, ob es sich um Schlüsselmerkmale oder Rauschen handelt.
Die Residualverbindung ist das erfolgreichste „Provisorium“ in der Geschichte des Deep Learning.
Das erfolgreichste Provisorium
Die Residualverbindung wurde 2015 von He Kaiming in ResNet eingeführt. Die Idee ist sehr einfach: Wenn das Netzwerk mehr als zwanzig Schichten hat, wird es schwierig, zu trainieren, da der Gradientenverlust dazu führt, dass die Parameter der tiefen Schichten kaum aktualisiert werden. Deshalb wird jeder Schicht eine „Schnellstraße“ hinzugefügt, damit die Eingabe diese Schicht direkt überspringen und an die Ausgabe angeschlossen werden kann. Selbst wenn diese Schicht nichts lernt, können Informationen und Gradienten zumindest über diesen Weg weitergeleitet werden. Das Ergebnis war unmittelbar: ResNet hat die Anzahl der Schichten von zwanzig auf über hundert erhöht. Zwei Jahre später wurde der Transformer eingeführt, und die Residualverbindung wurde unverändert übernommen. Seitdem hat sich nichts an diesem Design geändert.
Es gab Versuche, das zu ändern. ReZero, FixUp und Highway Network haben Varianten entwickelt, um die Residualgewichte lernbar zu machen. Aber keine davon hat sich in die Architekturauswahl der Hauptstrom großen Modelle geschafft, weil die Residualverbindung einfach zu gut funktioniert. Sie ist einfach, stabil und erhöht die Rechenkosten kaum. Bei der damaligen Modellgröße waren die Nebenwirkungen noch nicht sichtbar.
44 % der Schichten laufen im Leerlauf
Was sind die Nebenwirkungen? Anfang 2025 hat das Team von Shiwei Liu aus der Westlake-Universität, Emory und MPI die Dissertation The Curse of Depth veröffentlicht. Im März dieses Jahres hat die Dissertation When Does Sparsity Mitigate the Curse of Depth in LLMs von Dilxat Muhtar und anderen aus der Nanjing-Universität eine quantitative Diagnose geliefert. Unter der Architektur der heutigen Hauptstrom großen Modelle nähern sich die Transformationen in den tiefen Schichten immer mehr der Identitätsabbildung. Das heißt, was eingegeben wird, wird auch ausgegeben, und diese Schicht ist praktisch wirkungslos.
Die Zahlen sind ernüchternd. Die Forscher messen die Nützlichkeit jeder Schicht anhand eines „Nützlichkeitswerts“. Bei einem Modell mit 12 Schichten arbeiten alle Schichten. Bei 16 Schichten sind drei Schichten wirkungslos. Bei 24 Schichten sind neun Schichten wirkungslos. Bei 32 Schichten sind 14 Schichten wirkungslos, was 44 % der gesamten Schichten entspricht. Wenn die Anzahl der Parameter von 900 Millionen auf 2,3 Milliarden erhöht wird, steigen die Kosten um 156 %, aber die Anzahl der effektiven Schichten steigt nur von 12 auf 18.
Abbildung 2 | Quantitative Diagnose des Tiefenfluchs – Die Effizienz der effektiven Schichten nimmt mit der Modellgröße ab. Dieses Bild wurde mit KI generiert.
Der Grund hängt direkt mit der Funktionsweise der Residualverbindung zusammen. Die Ausgabe jeder Schicht wird über die Residualverbindung zu einem „Hauptweg“ addiert. Mit zunehmender Anzahl der Schichten wächst das auf dem Hauptweg akkumulierte Signal immer größer (man kann es sich wie ein zunehmendes „Hintergrundrauschen“ vorstellen), aber die Amplitude des von jeder Schicht neu erzeugten Signals ist begrenzt. In den tiefen Schichten wird das neue Signal im Hintergrundrauschen untergegangen, und die Eingabe und die Ausgabe sind fast identisch. Diese Schicht ist somit wirkungslos.
Die Residualverbindung hat das Problem der Gradientenübertragung gelöst, aber gleichzeitig das Problem geschaffen, dass die tiefen Schichten nicht mehr sinnvoll lernen können.
In der Ära der großen Modelle bedeutet dies echte Kosten. Eine Schicht entspricht Milliarden von Gleitkommaoperationen. Wenn bei einem 128-Schichten-Modell 44 % der Schichten im Leerlauf laufen, bedeutet dies, dass fast sechzig Schichten an Rechenleistung vergeudet werden. Die Community hat in den letzten Jahren viel Zeit und Energie in die Optimierung der Inferenzeffizienz investiert, wie Quantisierung, Distillation, Pruning, sparse Attention und KV-Cache-Kompression. All dies bezieht sich auf die Optimierung der „nützlichen Berechnungen“.
Die größte Effizienzschlucht liegt nicht in der quadratischen Komplexität der Attention, sondern in einer einfachen Addition, die seit 2015 unverändert ist.
Statt die alte Straße zu reparieren, eine neue bauen
Das Ziel des Seed-Teams von ByteDance und der Huazhong-Universität für Wissenschaft und Technologie war nicht, die Residualverbindung zu ersetzen. Ihre Frage war viel direkter: Wenn die Attention-Mechanik es Tokens ermöglicht, sich gegenseitig zu „ansehen“, warum kann sie dann nicht auch Informationen in der Tiefendimension nutzen?
Die traditionelle Attention hat nur eine Dimension, die Sequenzdimension. Ein Token in der 20. Schicht kann bei der Attention-Berechnung nur die Informationen anderer Tokens in derselben Schicht sehen. Es kann nicht auf seinen Zustand in der 3. oder 10. Schicht zugreifen, auch wenn diese Merkmale für die aktuelle Berechnung sehr nützlich wären. Diese Merkmale befinden sich zwar immer noch im Residualstrom, aber sie wurden durch die wiederholte Aktualisierung der Residualverbindungen in den dazwischenliegenden Schichten allmählich verdünnt. Die tiefen Schichten können diese Merkmale nur in einer stark verdünnten Form nutzen.
MoDA fügt der Attention eine zweite Dimension hinzu, die Tiefendimension. Jeder Attention-Head führt gleichzeitig eine normale Sequenz-Attention (Token sieht Token) und eine Tiefen-Attention durch (greift direkt auf die unveränderten KV-Paare aller vorherigen Schichten zu). Beide Informationen werden unter demselben Softmax normalisiert, und das Modell entscheidet selbst, ob es sich stärker auf den Kontext der aktuellen Schicht oder auf die Merkmale der früheren Schichten konzentrieren soll. Die Residualverbindung bleibt bestehen, wird aber nicht mehr als einzige Möglichkeit zur Informationsübertragung von den tiefen Schichten auf die früheren Schichten genutzt.
Die Idee ist einfach zu verstehen, aber es ist schwierig, sie in der Praxis umzusetzen, ohne die Geschwindigkeit zu beeinträchtigen.
Abbildung 3 | MoDAs zweidimensionale Attention-Mechanik – Die Sequenz- und die Tiefendimension werden unter demselben Softmax normalisiert.
Die verstreuten Akten an den Arbeitsplatz bringen
Das Problem liegt in der Speicherzugriffsweise der GPU. Bei der normalen Attention-Berechnung stammen alle KV-Paare aus derselben Schicht und sind im GPU-Speicher kontinuierlich gespeichert. Die GPU kann diese Daten sehr effizient lesen. Aber MoDA muss die KV-Paare aus allen vorherigen Schichten abrufen, und diese Daten sind im GPU-Speicher an verschiedenen Stellen verteilt. Die GPU ist sehr empfindlich gegenüber diesem „zerstückelten“ und zufälligen Zugriff, was die Geschwindigkeit drastisch verringert. Wenn man naiv alle historischen KV-Paare zusammenfügt, muss bei einem 48-Schichten-Modell jede Schicht bei der Attention-Berechnung auf die „Akten“ der vorherigen 47 Schichten zugreifen. Der Speicherzugriff wird fast vollständig zufällig, und die Trainingsgeschwindigkeit wird so stark verlangsamt, dass das Modell praktisch unbrauchbar wird.
MoDAs Lösung ist die Grouped Rearrangement. Der Kerngedanke ist, dass man die Daten vor der Berechnung so umsortiert, dass sie kontinuierlich im Speicher liegen, um den langsamen zufälligen Zugriff zu vermeiden.
Die Umsetzung erfolgt in zwei Schritten. Zuerst werden die Abfragen (Query) der aktuellen Schicht in Gruppen fester Größe aufgeteilt (z. B. 64 Tokens pro Gruppe). Dann werden für jede Gruppe die benötigten Tiefen-KV-Paare (KV-Paare aus allen vorherigen Schichten) aus den verstreuten Speicherstellen an einen kontinuierlichen Speicherbereich verschoben und neu sortiert. Anschließend wird die Attention-Berechnung in einem Schritt durchgeführt. Man kann sich das so vorstellen, dass man nicht die Arbeiter die gesamte Fertigungsstraße entlanglaufen lässt, um die Akten zu suchen, sondern dass man einen Assistenten die benötigten Akten an den Arbeitsplatz bringt und ordnet, so dass der Arbeiter sie bequem von seinem Platz aus lesen kann. Die Kosten für das Verschieben der Daten sind viel geringer als die Kosten für das wiederholte Hin- und Herlaufen.
Der Schlüssel bei diesem Design liegt in der Granularität der Gruppen. Wenn die Gruppen zu groß sind, müssen zu viele Tiefen-KV-Paare verschoben werden, und das Verschieben wird zum Engpass. Wenn die Gruppen zu klein sind, kann die parallele Rechenleistung der GPU nicht voll ausgeschöpft werden. MoDA wählt dieselbe Blockgröße wie FlashAttention (der derzeitige Standard für schnelle Attention-Berechnungen in der Branche), so dass die Berechnung der Tiefen-Attention direkt die unterliegende Implementierung von FlashAttention wiederverwenden kann, ohne dass eine neue GPU-Operation geschrieben werden muss.
Bei einer Sequenzlänge von 64K erreicht die Effizienz der MoDA-Operation 97,3 % der Effizienz von FlashAttention-2. Trotz der Hinzufügung des gesamten Tiefen-Attention-Mechanismus verlangsamt sich die Geschwindigkeit nur um weniger als 3 %.
Abbildung 4 | Die Grouped Rearrangement-Strategie – Die KV-Paare der historischen Schichten, die im GPU-Speicher verstreut liegen, werden an einen kontinuierlichen Speicherbereich verschoben.
Diese Zahlen zeigen, dass die Tiefen-Attention kein einfacher Plug-In ist. Sie erfordert, dass jede Schicht auf die KV-Caches aller vorherigen Schichten zugreift. Wenn die Implementierung unzureichend ist, kann diese schichtübergreifende Datenabhängigkeit die Trainingsgeschwindigkeit um ein Vielfaches verlangsamen. MoDA hat die zusätzlichen Kosten auf einen FLOPs-Zuwachs von 3,7 % reduziert, was zeigt, dass die Grouped Rearrangement-Strategie das Problem des zufälligen Speicherzugriffs sehr effektiv gelöst hat.
Ein Preis von 3,7 % für einen Gewinn von 2,11 %
Bei einem Modell mit 1,5 Milliarden Parametern (basierend auf dem Trainingsrezept von OLMo2) hat MoDA die durchschnittliche Leistung auf zehn downstream-Aufgaben um 2,11 % verbessert, mit einem zusätzlichen Rechenaufwand von nur 3,7 %. Dies mag auf den ersten Blick nicht sehr viel erscheinen, aber es handelt sich um eine Verbesserung auf Architekturebene, nicht um eine Verbesserung durch mehr Daten oder längeres Training. Diese Verbesserung wird mit zunehmender Modellgröße noch stärker. Darüber hinaus gibt es große Unterschiede zwischen den Aufgaben. Bei der Commonsense-Inferenz (WinoGrande) ist die Verbesserung 2,37 %, bei der wissenschaftlichen Inferenz (ARC-Challenge) 4,35 %. Aufgaben, die eine schichtübergreifende Merkmalsintegration erfordern, profitieren deutlich stärker.
Abbildung 5 | Leistungsvergleich von MoDA auf zehn downstream-Aufgaben
Die Schulden von Pre-Norm
Das Wertvollste in der MoDA-Dissertation ist möglicherweise nicht MoDA selbst, sondern ein Experiment über die Normalisierungsstrategie.
Hier muss etwas Hintergrundinformation gegeben werden. Nach jeder Schicht des Transformers wird eine Normalisierung durchgeführt, um den Wertebereich zu stabilisieren und zu verhindern, dass die Zahlen während des Trainings explodieren oder verschwinden. Es gibt zwei gängige Methoden, diese Normalisierung anzuwenden: Pre-Norm (auch Pre-LN genannt), wenn die Normalisierung vor der