Die Wahrheit hinter Kimi's "Brechung der Transformer - Architektur": Alles, was Sie wissen müssen!

Es ist nicht das, das die Legende des Transformers umstößt, sondern es ist ein entscheidender Baustein, der diesem Gebäude hinzugefügt wird.

Diese Woche hat eine Studie mit dem Titel "Attention Residuals" Kimi in den Mittelpunkt des globalen Künstlichen - Intelligenz - Bereichs gerückt. Einer der Autoren der Studie ist sogar ein erst 17 - jähriger Highschool - Schüler. Elon Musk, der CEO von xAI, und Shubham Saboo, ein Senior - Produktmanager für Künstliche Intelligenz bei Google, haben sich öffentlich zur Veröffentlichung der Studie beglückwünscht. Letzterer hat sogar behauptet, dass Kimi Teile der Transformer - Architektur erreicht, die seit zehn Jahren unbehelligt geblieben sind.

Plötzlich war das öffentliche Meinungsklima in Aufruhr. Schlagzeilen wie "Brechen der Transformer - Architektur", "Silicon Valley in Schock" und "Umstellung der Branchenregeln" haben schnell die Spitzenplätze besetzt.

Zunächst die Schlussfolgerung: Dies ist eine geniale Idee und eine äußerst anspruchsvolle Studie, aber im Wesentlichen bleibt sie innerhalb des grundlegenden Rahmens der Transformer - Architektur. Die aufsehenerregenden Labels stammen größtenteils von Marketing - Accounts und haben keine Tatsachenbasis.

Tatsächlich ist die Erforschung von Residualverbindungen kein Alleingang. Von DeepNorm im Jahr 2022 bis zu DenseFormer im Jahr 2024 war die Optimierung dieses Grundpfeilers des tiefen neuronalen Netzwerks ein anhaltendes Anliegen der Branche. Das Kimi - Forschungsteam war nicht der Pionier dieser Technologie, hat aber auf diesem bestehenden Weg eine Lösung vorgeschlagen, die zugleich radikal, elegant und mit hohem technologischen Potenzial ist.

01 Die strukturellen Probleme des tiefen Transformers

Getrieben durch die Skalierungsgesetze hängt der Weg zur Verbesserung der Modellleistung zunehmend von der Expansion der Parameter und der Größe ab. Eine Zunahme der Anzahl der Schichten des neuronalen Netzwerks ist daher unvermeidlich. Das Forschungsteam hat jedoch ein Schlüsselphänomen bemerkt: Beim Übertragen von Daten zwischen den Schichten des neuronalen Netzwerks gibt es das "PreNorm - Verdünnungsproblem". PreNorm, eine Normalisierungstechnik, ist aufgrund ihrer Fähigkeit, das Training zu stabilisieren und die Konvergenz zu beschleunigen, zur Standardwahl in modernen Architekturen geworden.

Um es einfacher zu verstehen, stellen wir uns ein großes Modell als eine Fertigungsstraße aus hundert Programmierern vor. Jeder Programmierer entspricht einer Schicht des neuronalen Netzwerks und arbeitet zusammen, um ein großes Softwareprojekt abzuschließen.

Im traditionellen Standard - Residualverbindungsmodell folgt die Zustandsaktualisierung zwischen den Schichten der folgenden Formel:

Die Ausgabe der aktuellen Schicht ist die direkte Summe der Ausgabe der vorherigen Schicht und des "veränderten Teils" (d. h. der Ausgabe der Transformationsfunktion) dieser Schicht. In unserem Vergleich nimmt jeder Programmierer den Code des Vorgängers, fügt seine eigenen Änderungen hinzu und gibt ihn an den Nachfolger weiter.

Diese einfache Summenbildung führt in der Praxis zu einer Kette von Problemen. Mathematisch betrachtet führt sie zu zwei voneinander abhängigen Trainingsschwierigkeiten:

Erstens werden die frühen Informationen verdünnt und überdeckt. Die ursprünglichen Merkmale, die von der ersten Schicht des neuronalen Netzwerks extrahiert werden - wie die anfängliche Semantik eines Tokens - verlieren ihre relative Wichtigkeit nach mehreren Schichten an Summenbildung und werden unscharf. Der Programmierer am Ende der Fertigungsstraße weiß nicht, welche grundlegende Logik am Anfang geschrieben wurde. Je tiefer das Modell wird, desto schwieriger wird es, die frühen niedrigen Merkmale präzise zu ermitteln und zu nutzen.

Zweitens kommt es zu einer Expansion der numerischen Skala und einer Ungleichgewichtung der Gradienten. Die kontinuierliche Summenbildung der Residuen ist wie die unendliche Erweiterung eines Projektcode - Repositories. Programmierer, die später hinzukommen, müssen mehr Code hinzufügen, um ihre Änderungen sichtbar zu machen. Im Netzwerk müssen die tiefen Schichten größere numerische Signale ausgeben, um in der Summenbildung eine Rolle zu spielen. Dieser Effekt kann in der Vorwärtsverarbeitung noch toleriert werden, aber in der Rückwärtsverarbeitung birgt er Gefahren: Die Gradienten der oberen Schichten können stark schwanken, während die Gradienten der tiefen Schichten sehr klein werden. Die Gradientenverteilung im gesamten Netzwerk ist extrem ungleichmäßig, und das Training wird instabil.

Das Kernproblem der Forschung lautet daher: Wie kann der "Programmierer" in der tiefsten Schicht des Netzwerks weiterhin die Grundcode - Informationen des ersten "Programmierers" klar erkennen und nutzen?

02 Das duale Mapping zwischen Zeitdimension und Tiefendimension

Das Schlüssel - Erkenntnis des Kimi - Forschungsteams besteht darin, dass es ein duales Verhältnis zwischen der Verarbeitung von Zeitreihen und der Konstruktion der Netzwerk - Tiefe in der Geschichte der Entwicklung von neuronalen Netzwerken gibt.

Der Transformer ist nicht die ursprüngliche Form des neuronalen Netzwerks. Vor etwa 2018 waren rekurrente neuronale Netzwerke (RNNs) die dominierende Methode für die Sequenzmodellierung. RNNs verarbeiten Texte wortweise in zeitlicher Reihenfolge und komprimieren die historischen Informationen in einen einzigen verborgenen Zustand, der an die nächste Einheit weitergeleitet wird. Dadurch kann die nachfolgende Einheit nur ein "Komprimat" mit gemischten historischen Informationen empfangen, und die frühen Eingaben werden leicht vergessen - ein Prozess, der erstaunlich ähnlich der Informationsübertragungsmechanik der Standard - Residualverbindung ist.

Der Transformer hat dieses Paradigma mit dem Attention - Mechanismus umgeworfen. Bei der autoregressiven Dekodierung kann jedes Token an einer bestimmten Position direkt alle vorherigen Token in der Sequenz "betrachten" und die wichtigen Informationen durch Gewichtung fokussieren. In der Zeitdimension löst der Attention - Mechanismus perfekt das Problem der Informationskomprimierung und des Vergessens.

Eine natürliche Analogie ergibt sich daraus: Könnte man im Bereich der Netzwerk - Tiefe das "RNN - Denken", das in der Residualverbindung enthalten ist, ablehnen und stattdessen den Attention - Mechanismus einführen?

Das ist die Kerninnovation der Kimi - Studie - Attention Residuals (AttnRes). Die traditionelle Residualsummenformel wird in eine auf Softmax basierende Attention - Gewichtungsform umgestaltet:

Die neue Formel addiert nicht einfach die Ausgaben der oberen Schichten. Stattdessen erhält jede Schicht einen "Pseudo - Abfragevektor", der die Ausgaben aller vorherigen Schichten dynamisch untersuchen kann und den Schichten, die wichtige Informationen enthalten, ein hohes Softmax - Gewicht zuweist. Die Gewichte der Schichten mit unwichtigen Informationen werden nahezu auf Null gedrückt.

Dieser inhaltliche, eingangsabhängige Auswahlmechanismus überträgt im Wesentlichen das Kerngedanke des Transformers auf das Design der Residualpfade. Die Residualverbindung wandelt sich von einer passiven "Informationsübertragung" zu einer aktiven "bedarfsorientierten Suche", wodurch das Problem der Informationsverdünnung in den tiefen Schichten effektiv vermieden wird.

03 Von der theoretischen Idee zur systemischen Technologie

Wäre die Entwicklung bei diesem Punkt stehen geblieben, hätte Attention Residuals möglicherweise nur in der idealen Welt des Labors verblieben. In der praktischen Anwendung von großen Modellen, insbesondere unter den strengen Bedingungen der Verteilungstraining mit Milliarden von Parametern, würde die direkte Anwendung dieses Mechanismus einen "Explosion" des Grafikspeichers und der Kommunikation verursachen.

Unter der Voraussetzung, dass bei der Verteilungstraining Techniken wie Aktivierungsneuberechnung und Pipeline - Parallelität weit verbreitet sind, müsste ein tiefes Netzwerk bei einer vollständigen Verknüpfung zwischen den Schichten die vollständigen Ausgabetensoren aller oberen Schichten über physische GPU - Knoten hinweg abrufen. Mit der Zunahme der Anzahl der Schichten L würde der Datenübertragungsaufwand zwischen den Stufen und der Grafikspeicherbedarf in einem O(Ld) - Maß stark ansteigen, was eine katastrophale Belastung für die Rechenleistungskluster darstellen würde.

Das Kimi - Team hat daher mit der Block - Attention Residuals eine äußerst praktische Lösung für die technische Umsetzung vorgeschlagen.

Um die Theorie in die Praxis umzusetzen, hat das Kimi - Team ein raffiniertes Dimensionsreduktionsschema entwickelt:

Der Kerngedanke ist die "Block - Dimensionsreduktion".

Zurück zum Vergleich mit der Programmierer - Fertigungsstraße: Wenn der letzte Programmierer den Beitrag jedes Vorgängers kennen muss, müsste jeder Vorgänger ein vollständiges "Entwurfsprotokoll" aufbewahren - was in der physischen Welt nicht möglich ist. Die Lösung besteht darin, die Programmierer in N Abteilungen aufzuteilen. Innerhalb der Abteilungen wird die Standard - Residualverbindung beibehalten, und die Ausgaben mehrerer Schichten werden zu einer einzigen "Block - Repräsentation" komprimiert. Zwischen den Abteilungen wird der Attention - Residual - Mechanismus eingesetzt, der nur auf diese N Block - Repräsentationen achtet, ohne auf die Ausgabe jeder einzelnen Schicht zurückzugreifen.

Diese einfache und mutige Strategie reduziert die Komplexität des Grafikspeichers und der Kommunikation von O(Ld) auf O(Nd) und beseitigt somit das größte Hindernis für die technische Umsetzung.

Zweitens optimiert das Design des Zwischenstufen - Caches während des Trainings die Kommunikationskosten. Im gängigen Staggered - Pipeline - Scheduling - Modell muss jeder physische GPU normalerweise mehrere Rechenstufen verarbeiten. Das Team hat daher ein lokales Caching - System entwickelt, um sicherzustellen, dass die zuvor empfangenen Block - Repräsentationen im lokalen Grafikspeicher verbleiben, wodurch wiederholte Übertragungen zwischen den Knoten vermieden werden. Dies reduziert die Kommunikationsspitzen bei der Pipeline - Parallelität erheblich und ermöglicht es, dass die Kommunikationszeit zwischen den Blöcken während des Rechenprozesses effektiv überdeckt wird.

Schließlich löst die zweistufige Berechnung und die Online - Softmax - Fusion während der Inferenz die Engpässe der Speicherbandbreite. Das wiederholte Lesen einer großen Anzahl von historischen Block - Repräsentationen während der Inferenz kann zu einem erheblichen Druck auf die Speicherbandbreite führen. Das Forschungsteam hat eine zweistufige Strategie eingesetzt: In der ersten Stufe wird die Block - Attention in Batch - Verarbeitung berechnet, um die Kosten für das Lesen aus dem Speicher zu amortisieren. In der zweiten Stufe wird die lokale Attention innerhalb des Blocks sequenziell berechnet. Die Ergebnisse beider Stufen werden durch die Online - Softmax - Technologie nahtlos zusammengeführt und mit Operatoren wie RMSNorm in einem Kern integriert.

Die technischen Details brauchen nicht näher erläutert zu werden, aber das Ergebnis ist beeindruckend: Nach der Überlagerung des komplexen Inter - Layer - Attention - Mechanismus ist der zusätzliche Trainingsaufwand von Block AttnRes nahezu vernachlässigbar. In einem typischen autoregressiven Inferenzszenario steigt die End - zu - End - Latenz um weniger als 2 %. Das Kimi - Team hat es geschafft, die zugrunde liegende Netzwerktopologie großer Modelle zu verändern und gleichzeitig eine solche Optimierung zu erreichen, was ein technologisches Wunder darstellt.

04 Empirische Ergebnisse und industrielle Bedeutung

Schließlich hat das Kimi - Forschungsteam diese Architektur in ein kleines Mixture - of - Experts - Modell mit 48 Milliarden Parametern (3 Milliarden aktivierten Parametern) integriert und es mit 1,4 Billionen Tokens in einer realen Umgebung vorab trainiert.

Die Skalierungsgesetze zeigen: Bei gleicher Rechenleistung erzielt das Modell mit Block AttnRes immer niedrigere Verlustwerte. Einfache Umrechnung zeigt, dass diese Architektur es dem Modell ermöglicht, die Leistung zu erreichen, die ein traditionelles Basismodell mit 1,25 - facher Rechenleistung erfordert. Bei den Vorab - Trainingsstufen, die leicht Millionen von Dollar kosten können, bedeutet die "kostenlose" Gewinnung von 25 % zusätzlicher Rechenleistung einen großen kommerziellen Wert.

Bei den Tests der unteren Aufgaben profitieren die Aufgaben, die mehrstufige logische Schlussfolgerungen erfordern, am meisten:

GPQA - Diamond steigt um 7,5 %, Math um 3,6 % und HumanEval um 3,1 %. Dieses Ergebnis ist logisch konsistent: Sowohl mathematische Ableitungen als auch Codegenerierung erfordern von einem Modell die Fähigkeit, lange Zeiträume lang zu schließen und Informationen zu behalten. Der Tiefe - Suchmechanismus von AttnRes entspricht genau diesem Bedarf, "die ursprüngliche Absicht nicht zu vergessen".

Der offene Vortrag von Yang Zhilin, dem Gründer von Yuezhi Anmian, auf der NVIDIA GTC - Konferenz 2026 bestätigt ebenfalls indirekt den Wert dieser Architektur: "Um die Intelligenzgrenze

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。