Kimi's neues Architekturkonzept hat Elon Musk beeindruckt, und der 17-jährige Schülerautor ist damit berühmt geworden.
Ein 17-jähriger Highschool-Schüler hat als Erstautor in der Kimi-Team die von Ilya vorgeschlagene Idee in die Realität umgesetzt.
Ilya hatte zuvor eine Vorhersage getroffen: Wenn man das LSTM-Netzwerk, das Daten in zeitlicher Reihenfolge verarbeitet, um 90 Grad "dreht", d. h. die Zeitachse durch die Modell-Tiefenachse ersetzt, entsteht das heutige Residual-Netzwerk.
Die Kimi-Team ist der Meinung, dass, wenn das zeitliche LSTM einem tiefen Residual entspricht, das spätere "Attention-Mechanismus", das das LSTM abgelöst hat, natürlich auch auf die gleiche Weise funktionieren kann.
Die von ihnen neu entwickelte Attention Residuals-Technologie entspricht im Wesentlichen einer "90-Grad-Drehung" des Attention-Mechanismus.
Nach der Anwendung dieser neuen Methode kann das Modell beim Berechnen der aktuellen Schicht intelligent "zurückschauen" und frei entscheiden, welche Informationen aus den vorherigen Schichten extrahiert werden sollen.
Dieser Artikel hat auch Musk zu einem Besuch veranlasst, der ihn als beeindruckend bezeichnet hat.
Außer Musk hat dieser Artikel auch den großen Karpathy zu Nachdenken angeregt, der direkt sagte, dass unser Verständnis des bahnbrechenden Artikels "Attention is All You Need" über Transformer immer noch unzureichend ist.
Wenn diese neue Mechanik auf das eigene Kimi Linear 48B-Großmodell (3B Aktivierungsparameter) von Kimi angewendet wird, steigt die TrainingsEffizienz um 25 %, und die Inferenzverzögerung erhöht sich um weniger als 2 %.
Die "Gedächtnisbelastung" der Residualverbindung
Schauen wir uns zunächst das Arbeitsprinzip der Residualverbindung an.
Die herkömmliche Methode lautet: Die Ausgabe der N-ten Schicht = das Berechnungsergebnis der N-ten Schicht + die Ausgabe der (N-1)-ten Schicht. Auf diese Weise wird sukzessive aufaddiert, und jede Schicht kann die Informationen aller vorherigen Schichten "merken".
Hier kommt das Problem: Im Rahmen des PreNorm-Hauptparadigmas von Großmodellen werden die Beiträge aller Schichten in der Residualverbindung gleichgewichtet aufaddiert.
Es ist wie ein "Mensch mit zu gutem Gedächtnis", der alle Erfahrungen mit gleicher Gewichtung in seinem Gehirn speichert. Die Beiträge werden allmählich verdünnt, frühe Informationen sind schwer abrufbar, und viele Schichten können mit minimalem Verlust beschnitten werden. Dies wird als "PreNorm-Dilutionsproblem" bezeichnet.
Was noch schwieriger ist, ist, dass die Norm des verborgenen Zustands mit der Tiefe stetig zunimmt. Die Forscher haben festgestellt, dass in tiefen Netzwerken dieses unbegrenzte Wachstum zu instabilem Training führen kann.
Das Team von MoonshotAI hat einen anderen Ansatz gewählt: Da das Problem auf der "unterschiedslosen Addition" beruht, lassen wir das Netzwerk selbst entscheiden, was es sich erinnern soll.
Selektives Erinnern mit Attention
Das Team hat eine interessante Dualität beobachtet: Die Tiefendimension des Netzwerks und die Zeitdimension der Sequenz sind im Wesentlichen isomorph.
Wenn Transformer eine Sequenz verarbeitet, verwendet es den Attention-Mechanismus, um die aktuelle Position "selektiv auf" frühere Positionen zu "achten". Warum sollte die aktuelle Schicht in der Tiefendimension nicht "selektiv auf" frühere Schichten "achten" können?
So ist die Attention Residuals entstanden:
Der lernbare Pseudo-Abfragevektor der aktuellen Schicht dient als query (lernbare Pseudo-Abfrage)
Die Ausgaben aller vorherigen Schichten dienen als key und value
Es wird mit dem Attention-Mechanismus gewichtet aggregiert
Somit kann das Netzwerk lernen, welche Informationen von welchen Schichten für die aktuelle Berechnung am wichtigsten sind, und mehr auf diese achten; die Gewichtung von irrelevanten Schichten wird natürlich verringert.
Aber dies bringt ein neues Problem mit sich: Explosion des Rechenaufwands.
Wenn ein Netzwerk mit 100 Schichten für jede Schicht eine vollständige Attention Residual auf die vorherigen 99 Schichten anwendet, beträgt die Komplexität O(L²), was in der Praxis nicht durchführbar ist.
Block AttnRes: Blockweise Kompression
Die Lösung in der Studie ist Block AttnRes.
Der Kerngedanke ist, dass mehrere aufeinanderfolgende Schichten zu einem Block zusammengefasst werden und die Ausgabe innerhalb des Blocks komprimiert wird, wobei nur ein "Zusammenfassungsvektor" beibehalten wird.
Die genaue Vorgehensweise ist wie folgt:
Das Netzwerk mit L Schichten wird in B Blöcke aufgeteilt, wobei jeder Block mehrere Schichten enthält
Am Ende jedes Blocks wird die Information innerhalb des Blocks zu einem einzelnen Vektor komprimiert
Wenn die folgenden Schichten Attention anwenden, müssen sie nur auf die Block-zwischen-Repräsentationen + die aktuelle Schichtausgabe innerhalb des Blocks achten, anstatt auf alle L Schichten
Somit sinkt die Komplexität der Attention von O(L²) auf O(L·B). In der Praxis kann B sehr klein gewählt werden (in der Studie wurde 8 - 16 verwendet).
Darüber hinaus hat das Team mehrere technische Optimierungen vorgenommen: Pufferbasierte Pipeline-Kommunikation, Vorbefüllung von Sequenz-Segmenten, Optimierung der KV-Puffer-Granularität usw.
Validierung mit Kimi Linear: 1,25-fache Effizienzsteigerung
Die Theorie ist plausibel, aber was wirklich überzeugend ist, ist die Validierung auf einer großen Skala.
Das Team hat Tests an seinem eigenen Kimi Linear-Architektur-Modell durchgeführt. Dies ist ein Großmodell mit linearer Attention, mit insgesamt 48 Milliarden Parametern und 3 Milliarden Aktivierungsparametern (MoE-Architektur).
Bei gleichem Rechenbudget kann Attention Residuals bessere Leistung in nachgelagerten Aufgaben erzielen. Umgekehrt kann die für die gleiche Leistung erforderliche Trainingsrechenleistung um etwa 20 % reduziert werden, was einer 1,25-fachen Effizienzsteigerung entspricht.
Bei konkreten Aufgaben wie mathematischer Inferenz (MATH, GSM8K) und Codegenerierung (HumanEval, MBPP) ist die Leistung gleich oder leicht besser, und die Konsistenz bei der mehrsprachigen Verständnisfähigkeit hat sich ebenfalls verbessert.
Wichtig ist auch, dass Attention Residuals ein direkt einsetzbarer Ersatz ist und keine Änderungen an anderen Teilen des Netzwerks erforderlich sind. Man kann einfach die Residualverbindung ersetzen.
In der Studie wird auch ein interessanter Blickwinkel erwähnt.
Das Team bezeichnet diese Arbeit als Anwendung der "Zeit-Tiefe-Dualität" (time-depth duality).
Nach ihrer Ansicht sind die "Schichten" eines tiefen neuronalen Netzwerks und die "Zeitschritte" eines rekurrenten neuronalen Netzwerks im Wesentlichen beide iterative Verarbeitungen von Informationen.
Der Erfolg von Transformer liegt darin, dass er die feste Wiederholung in RNN durch Attention ersetzt hat.
Sollte in der Tiefendimension ebenfalls die feste Residualverbindung durch Attention ersetzt werden?
17-jähriger Highschool-Schüler als Mit-Erstautor
Interessanterweise ist einer der Mit-Erstautoren dieses Artikels, der Musk, Karpathy und andere beeindruckt hat, ein nur 17-jähriger Highschool-Schüler - Chen Guangyu (Nathan).
Die anderen beiden Mit-Erstautoren sind einer der Schlüsselpersonen von Kimi, Su Jianlin, der der Erfinder von RoPE (Rotating Position Encoding) ist, und Zhang Yu, der der Erstautor von Kimi Linear ist.
Zwar ist Attention Residuals ein Ergebnis der Teamarbeit, aber dass ein Highschool-Schüler in einem solchen Team auftaucht und als Mit-Erstautor mit zwei Großnamen aufgelistet wird, ist schon beeindruckend genug.
Marc Andreessen, der Gründer von a16z, und Mitgründer von Thinking Machines haben seinen X-Account beobachtet.
Chen Guangyu, der erst vor einem Jahr mit der Erforschung von Großmodellen begann, hat seinen Weg von einer Hackathon in Peking nach Silicon Valley eingeschlagen.
Als er später nach China zurückkehrte, entschied er sich, sich der Kimi anzuschließen.
Dong Kehan, ein Gründungsmitglied von MiraclePlus (ehemals YC China), das von MoonshotAI finanziert wurde, hat auch in seinem persönlichen WeChat-Account eine Autobiografie von Chen Guangyu veröffentlicht.
Im Februar des vergangenen Jahres zeigte Chen Guangyu auf einer Highschool-Hackathon in Peking ein innovatives Konzept für ein "drittes mechanisches Hilfsarm" des Menschen - ThirdArm.
Genau dieses Projekt brachte ihn mit Dong Kehan, dem Hackathon-Juror, in Kontakt, der später sein Startup-Mentor wurde.
Damals fragte Dong Kehan ihn, ob er in Zukunft diese Technologie vertiefen würde, was ihn dazu brachte, seine berufliche Richtung neu zu überdenken.
Anschließend wurde er in das von Dong Kehan initiierte Jugendprogramm aufgenommen, das nur wenigen Menschen offen steht, und begann, sich mit Goldmedaillengewinne