Huaweis neue Architektur hat die Hauptader von Transformer gekappt, und die Inferenzfähigkeit beliebiger Modelle hat sich plötzlich sprunghaft verbessert.
Es ist an der Zeit, an der Transformer-Hauptader operativ anzugreifen.
Dennoch, obwohl es als Grundpfeiler der heutigen KI-Welt gilt, hat es auch sehr offensichtliche Probleme:
Sobald es komplexe mathematische Aufgaben oder Aufgaben mit mehrstufiger logischer Schlussfolgerung zu lösen hat, beginnt es, in aller Ernstheit Unsinn zu erzählen...
Wo liegt eigentlich das Problem?
Die Antwort verbirgt sich im Kernmechanismus des Transformers – Attention.
Der traditionelle Attention-Mechanismus ist im Wesentlichen eine Art Paarvergleich: Jedes Wort steht nur in direktem Zusammenhang mit einem anderen Wort und erzeugt ein Attention-Gewicht.
Diese Architektur ist zwar gut darin, langfristige Abhängigkeiten zu erfassen, aber wenn es darum geht, komplexe, mehrstufige und mehrpunktige logische Beziehungen zu modellieren, kommt sie an ihre Grenzen.
Beispielsweise kann es leicht verstehen, dass „A B kennt“. Aber wenn es darum geht, dass „Zhang San durch Li Si Wang Wu kennengelernt hat“, also komplexe und indirekte Beziehungen zwischen mehreren Punkten und über mehrere Stufen hinweg zu verstehen, reicht seine Denkweise nicht aus, und die Obergrenze seiner Schlussfolgerungsfähigkeit wird sofort erreicht.
Jetzt hat dieses Limit von der Noah's Ark Lab von Huawei durchbrochen!
Gerade kürzlich hat das Team eine brandneue Architektur namens Nexus vorgestellt, das heißt Higher-Order Attention Mechanism (Höherer Ordnung Attention-Mechanismus).
Es zielt direkt auf die Kernprobleme des Attention-Mechanismus ab. Mit einem höheren Ordnung Attention-Mechanismus kann effektiv die komplexe Verbindung zwischen mehreren Punkten und über mehrere Stufen hinweg modelliert werden.
Und die Experimentergebnisse sind ziemlich beeindruckend.
Wenn man die neue Architektur Nexus einsetzt, kann die Fähigkeit des Modells bei komplexen Schlussfolgerungsaufgaben wie Mathematik und Wissenschaft sofort stark gesteigert werden, und das sogar ohne zusätzliche Parameter.
Wunderbar, wirklich wunderbar.
Als nächstes wollen wir uns genauer die raffinierte Architektur von Nexus anschauen.
Der raffinierte Schnitt des höheren Ordnung Attention-Mechanismus
Um die Bedeutung des höheren Ordnung zu verstehen, müssen wir zunächst die grundlegenden Mängel des traditionellen Self-Attention-Mechanismus betrachten.
Der Standard-Self-Attention-Mechanismus erzeugt im Wesentlichen aus der Eingabesequenz X durch drei lineare Transformationen WQ, WK, WV Query (Q), Key (K) und Value (V), und berechnet dann das Attention-Gewicht über die Softmax-Funktion:
Aber hier tritt ein entscheidendes Problem auf: Sowohl Q als auch K sind statische, kontextunabhängige lineare Projektionen.
Das heißt, der Query-Vektor eines Tokens wird nur von ihm selbst bestimmt und kann das Vorhandensein anderer Token nicht wahrnehmen. Dadurch kann das Attention-Gewicht nur die direkte Beziehung zwischen zwei Token widerspiegeln.
Der erste raffinierte Schnitt: Die Revolution von Q und K
Der erste Schnitt der Noah's Ark Lab von Huawei trifft genau hier: Nexus macht den Erzeugungsprozess von Q und K selbst zu einem Attention-Vorgang.
Mit anderen Worten, bevor ein Token das endgültige Q und K berechnet, führt es zunächst eine „Vor-Schlussfolgerung“ durch. Dieser Prozess ist eigentlich ein verschachtelter Self-Attention-Mechanismus.
Ein Token aggregiert zunächst über diesen internen Zyklus Informationen aus dem globalen Kontext, um eine präzisere, kontextbewusste Repräsentation zu bilden, und verwendet dann diese Repräsentation, um das endgültige Q und K zu berechnen.
Das ist so, als würde jeder Token, bevor er Q und K berechnet (wie Sie mich fragen und ich antworte), zunächst in sich selbst nachdenken und die Informationen aus seinem gesamten Kontext aufnehmen.
So erzeugte Q und K entkommen der Starrheit der linearen Projektion und können die komplexe Beziehung dynamisch erfassen.
Der zweite raffinierte Schnitt: Die geschickte Verwendung des rekursiven Rahmens
Das Raffinierteste an der Nexus-Architektur ist ihr rekursiver Rahmen (Recursive Framework).
Dieser interne Attention-Zyklus kann rekursiv verschachtelt werden.
Wenn wir eine Ebene des Attention-Mechanismus als eine erste Ordnung Beziehung betrachten (A kennt B), dann kann man durch die Eingabe der Ausgabe eines Attention-Mechanismus in den nächsten Attention-Mechanismus eine zweite Ordnung Beziehung bilden (Zhang San kennt Wang Wu durch Li Si), und sogar noch höhere Ordnung Beziehungen.
In Nexus ist diese rekursive Verschachtelung geschickt in einer einzigen Ebene integriert, um eine hierarchische Schlussfolgerungskette zu bilden.
Die Studie definiert den m-ten Ordnung Attention-Mechanismus rekursiv wie folgt:
Hierbei bedeutet m = 1 der Standard-Attention-Mechanismus; m = 2 bedeutet, dass Q und K durch einen internen Attention-Mechanismus erzeugt werden; m = 3 bedeutet, dass Q und K durch einen zweiten Ordnung Attention-Mechanismus erzeugt werden, was gleichbedeutend mit „Attention von Attention von Attention“ ist.
Diese Struktur unterstützt natürlich die Schlussfolgerungskette über mehrere Stufen hinweg, ähnlich wie ein Mensch, der eine mathematische Aufgabe löst. Zunächst versteht er die Schlüsselvariablen in der Aufgabenstellung (Erste Ebene), dann überlegt er sich die Formelbeziehung zwischen ihnen (Zweite Ebene), und schließlich überprüft er, ob die gesamte Logik stimmt (Dritte Ebene).
Der dritte raffinierte Schnitt: Keine zusätzlichen Parameter
Eine komplexe Architektur bedeutet normalerweise höhere Rechenkosten und mehr Parameter. Aber Nexus vermeidet diese Probleme durch eine raffinierte Gestaltung – die Strategie des Parameter-Sharing.
Genauer gesagt, verwenden sowohl der interne als auch der externe Attention-Modul die gleichen Projektionsgewichte WQ, WK, WV.
Das bedeutet, dass obwohl der Rechenpfad komplexer ist, die Anzahl der Parameter des Modells genau dieselbe wie beim ursprünglichen Transformer ist.
Hinter dieser Gestaltung liegt eine Schlüsselannahme: Unabhängig von der Ebene der Rekursion ist die semantische Transformationsweise, die ein Token in einen Query oder Key projiziert, ähnlich.
Das Team hat durch Experimente bewiesen, dass diese Annahme stimmt.
In einem Ablations-Experiment mit Pythia-70M hat die Version von Nexus-QK-Shared mit Parameter-Sharing immer noch eine durchschnittliche Genauigkeit von fast 1 Prozentpunkt höher als die Basisversion, und die Anzahl der Parameter hat sich nicht erhöht.
Das macht Nexus zu einem äußerst effizienten Verstärker der Expressionsdichte – mit denselben Parametern kann eine stärkere Schlussfolgerungsfähigkeit erreicht werden.
Mit Nexus sofort bessere Schlussfolgerungsergebnisse
Wie gut ist die Leistung von Nexus eigentlich?
Die Studie hat dies in zwei Dimensionen validiert: Einmal mit einem kleinen Modell, das von Grund auf trainiert wurde, und einmal mit der Architekturumwandlung eines bestehenden großen Modells.
Das kleine Modell führt in allen Bereichen an
Das Forschungsgruppe hat Nexus von Grund auf auf der Pythia-Serie (70M bis 1B) trainiert und es auf sechs Standard-Schlussfolgerungsdatensätzen evaluiert: ARC-C, ARC-E, HellaSwag, LogiQA, PiQA und SciQ.
Die Ergebnisse sind sehr einheitlich: Nexus ist in allen Größen besser als der ursprüngliche Transformer.
Insbesondere bei Aufgaben, die mehrstufige Schlussfolgerungen oder wissenschaftliche Allgemeinwissen erfordern, ist die Verbesserung deutlich. Beispielsweise:
Bei SciQ (Wissenschaftliche Fragen) ist die Genauigkeit des 70M-Modells von 61,5 % auf 68,5 % gestiegen, was einer Verbesserung von 7 Prozentpunkten entspricht;
Bei PiQA (Physikalisches Allgemeinwissen Schlussfolgerung) ist die Genauigkeit des 1B-Modells von 62,5 % auf 63,6 % gestiegen.
Das zeigt, dass Nexus besonders gut darin ist, Probleme zu lösen, die nicht durch einfache Mustererkennung gelöst werden können. Es kann wirklich Schlussfolgerungen ziehen.
Das große Modell kann einfach umgerüstet werden
Bei größeren Modellen zeigt Nexus auch die Fähigkeit, einfach integriert zu werden.
Das Team hat die Standard-Attention-Ebene der 1,5B- und 7B-Versionen von Qwen2.5 direkt durch die Nexus-Struktur ersetzt und nur in der SFT-Phase (Supervised Fine-Tuning) trainiert, ohne die vortrainierten Gewichte zu ändern.
Die Ergebnisse zeigen, dass Nexus bei drei schwierigen mathematischen Schlussfolgerungsdatensätzen (MATH-500, AIME24, GPQA-Diamond) eine stabile Verbesserung bringt:
Bei MATH-500 ist die Genauigkeit von Qwen2.5-1.5B von 78,6 % auf 80,1 % gestiegen;
Bei AIME24 ist die Genauigkeit von Qwen2.5-7B von 45,2 % auf 47,5 % gestiegen.
Insbesondere die Verbesserung bei AIME24 ist bemerkenswert, da diese Aufgaben eine strenge mehrstufige logische Ableitung erfordern. Ein Fehler in einem Schritt führt zum Totalausfall. Die Verbesserung von Nexus zeigt, dass es tatsächlich eine kohärentere Schlussfolgerungskette im Inneren aufgebaut hat.
Von dieser Perspektive aus gesehen ist Nexus nicht nur ein neues Trainingsparadigma, sondern auch ein Architektur-Upgrade-Set. Man muss kein neues Milliarden-Parameter-Modell trainieren, sondern kann einfach die Attention-Ebene in der Fine-Tuning-Phase ersetzen, um eine stärkere Schlussfolgerungsfähigkeit zu erhalten.
Die Schlussfolgerungsfähigkeit kann in die Architektur eingebaut werden
Obwohl Nexus derzeit auf Sprachmodelle konzentriert ist, ist seine Idee universell anwendbar.
Das Modellieren von höheren Ordnung Beziehungen ist auch in der Bildverarbeitung, Graphen-Neural-Netzwerken und Multimodal-Aufgaben von entscheidender Bedeutung. Beispielsweise ist in der Videoverarbeitung die Beziehung „A sieht, dass B C schlägt“ ein typisches Dreierverhältnis, das der traditionelle Attention-Mechanismus nicht direkt erfassen kann.
Das Team der Noah's Ark Lab von Huawei hat angekündigt, dass es als nächstes die Anwendung von Nexus in visuellen Transformer und Multimodal-Großmodellen erforschen und seine Rechenleistung optimieren wird.
Die Intelligenzgrenze des Transformers liegt vielleicht nie in der Anzahl der Parameter, sondern in der Expressionsfähigkeit seines Attention-Mechanismus. Die Nexus-Architektur der Noah's Ark Lab von Huawei hat auf eine elegante und effiziente Weise die Fähigkeit der höheren Ordnung Schlussfolgerung in diesen Kernmodul eingebaut.
Es verzichtet auf Überdimensionierung und auf die Technik des Prompt-Engineering, sondern rekonstruiert die Denkweise des Modells von der Architekturbasis aus.
Deshalb erinnert uns Nexus auch daran: Manchmal ist eine intelligente Architektur wichtiger als die Größe des Modells.
Link zur Studie:
https://arxiv.org/abs/2512.03377