StartseiteArtikel

Meng Weikang von der Harbin Institute of Technology: Lasse die Aufmerksamkeit "Kanten" bekommen | Attention

绿洲资本2025-10-20 15:57
参赞生命力

In den letzten Jahren hat der Transformer als Kernarchitektur der generativen KI fast die technologische Richtung der gesamten Branche definiert. Sein Kernmodul, die Self-Attention (Selbst-Attention), ist aufgrund ihrer starken Expressivität in den Bereichen visueller und sprachlicher Modelle fast zum Standard geworden.

Dennoch, trotz seiner beeindruckenden Leistung, sind die daraus resultierenden realen Probleme nicht zu übersehen - das Selbst-Attention-Mechanismus ist eine Herausforderung mit quadratischer Raumkomplexität, was teure Investitionen und hohen Energieverbrauch bedeutet. Somit geriet das Modelltraining einmal in einen Rüstungswettlauf um die Ressourcen, was kleine und mittlere Teams und Unternehmen abschreckte.

Vor diesem Hintergrund hat die akademische Welt und die Industrie nie aufgehört, nach einem Gleichgewicht zwischen Effizienz und Leistung zu suchen.

Linear Attention (Lineare Attention) ist ein repräsentativer Versuch dieser Bemühungen. Der grundlegende Gedanke besteht darin, die Komplexität zu reduzieren, indem man anstelle der Softmax-Funktion in der Self-Attention eine Kernfunktion (Kernel Function) zur Berechnung verwendet. Allerdings hat die Linear Attention, obwohl sie die Komplexität reduziert, immer noch zwei gravierende Schwächen:

Da die exponentielle Skalierung der Softmax-Funktion nicht mehr verwendet wird, wird die Verteilung der Attention "flacher" (hohe Entropie). Diese "Flachheit" schwächt die Unterscheidungsfähigkeit des Modells, und es verliert in einigen feinen Details oder wichtigen Merkmalen die Spitzenheit (Spikeness).

Ein weiteres zentrales Problem der Linear Attention ist: Wenn man eine nicht-negative Kernfunktion (z. B. ReLU) verwendet, um die Softmax-Funktion zu approximieren, werden alle negativen Informationen "abgeschnitten", sodass das Modell nur "positive Korrelationen" sehen kann, aber keine "negativen Korrelationen" oder "Hemmungsbeziehungen". Somit wird die Attention-Karte einseitig, was die Expressivität beeinträchtigt.

In diesem Attention-Interview hat die Oase Dr. Meng Weikang, den ersten Autor der Dissertation "PolaFormer: Polarity-aware Linear Attention for Vision Transformers" (ICLR'25), ein gemeinsam von der Harbin Institute of Technology (Shenzhen) und dem Pengcheng Laboratory ausgebildeter Doktorand, eingeladen, um zu erfahren, wie das PolaFormer die obigen beiden Probleme der Linear Attention löst und um tiefer in seine Überlegungen hinter der technologischen Erforschung einzudringen.

Der gesamte Text umfasst etwa 7.000 Wörter und wird etwa 18 Minuten zum Lesen benötigen. Enjoy!

In der Arbeit des PolaFormer haben die Forscher angesichts der beiden Probleme der Linear Attention einen innovativen Ansatz - die Polarity-Aware Linear Attention (Polaritätsbewusste Lineare Attention) - für deren Leistung in visuellen Aufgaben vorgeschlagen, um zu versuchen, dass das Modell bessere Leistung und höhere Rechenleistung erreicht.

Genauer gesagt, bezüglich des Problems der hohen Entropie glauben die Forscher, dass man die Entropie der Gewichtsverteilung reduzieren kann, indem man eine neue Kernfunktion (Kernel Function) entwirft. Die spezifische Theorie lautet: Wenn die erste und zweite Ableitung einer elementweise berechneten Abbildungsfunktion beide größer als 0 sind (streng monoton wachsend + konvex), kann man die Antworten von q und k (Gewichtsmatrizen) neu skalieren, um die Entropie zu reduzieren. Daher wurde in dieser Arbeit bei der konkreten Umsetzung der Kernfunktionsauswahl eine lernbare kanalweise Potenzfunktion (Learnable Channel-wise Power Function) gewählt, und es wurde in der Dissertation eine mathematische Machbarkeitsbeweis erbracht.

Bezüglich des Problems des Verlusts negativer Werte glaubt diese Arbeit, dass man die Ähnlichkeitsberechnung aller Elemente der Q-Matrix und der K-Matrix (Attention-Gewichtsmatrizen) auf eine polaritätsbewusste Weise durchführen kann, um das Ziel zu erreichen, die Leistung des Modells nicht zu verringern.

(In der Abbildung ist das Bild, das mit PolaFormer verarbeitet wurde, besser und näher an dem Ergebnis der Softmax-Attention, was das Ziel erreicht, die Expressionslücke zwischen Linear Attention und Softmax Attention zu verringern)

Einfach ausgedrückt, lautet der Entwurfsgedanke des PolaFormer: Da sowohl positive als auch negative Informationen wichtig sind, aber man nicht möchten, dass die Rechenkosten stark erhöht werden, kann man sie besser getrennt behandeln. Dies ist ein Ansatz, der auf einer Mischstrategie basiert, um Subtraktionsoperationen auszugleichen.

Der grundlegende Implementierungsrahmen ist: Doppelstrangige Polaritätsmodellierung + Lernbare Potenzfunktion

Zunächst teilt es die Query- und Key-Vektoren in positive und negative Teile auf. Dann entwarf man zwei parallele Stränge:

Der obere Strang behandelt speziell die "Interaktionen mit gleichem Vorzeichen" (positiv-positiv, negativ-negativ)

Der untere Strang behandelt speziell die "Interaktionen mit unterschiedlichem Vorzeichen" (positiv-negativ, negativ-positiv)

Auch der Value-Vektor wird entsprechend in zwei Hälften aufgeteilt und in die beiden Stränge eingespeist. So kann jeder Strang die entsprechenden Beziehungen unabhängig behandeln. Schließlich werden zwei lernbare Matrizen G^s und G^o eingeführt, um die Ergebnisse der beiden Stränge gewichtet anzupassen und dann zusammenzufügen. Gleichzeitig wird im Rahmen eine lernbare kanalweise Potenzfunktion hinzugefügt, deren Aufgabe es ist, die Attention-Verteilung "spitzer" zu machen, sodass sie nicht mehr "flach" wird, und damit die Expressivität nahe der Softmax wiederherzustellen.

Zur Wirksamkeit des PolaFormer wurde in dieser Arbeit eine experimentelle Prüfung in verschiedenen Aufgaben durchgeführt. Dies umfasst Zielerkennung, semantische Segmentierung, Bildklassifizierung und das Long Range Arena (LRA).

Eine Vielzahl von Experimenten zeigt, dass die Polarity-Aware Linear Attention (Polaritätsbewusste Lineare Attention) das Self-Attention-Modul im Vision Transformer-Framework effektiv ersetzen kann und in den grundlegenden visuellen Aufgaben und den LRA-Aufgaben eine deutliche Leistungssteigerung zeigt.

Oase: Können Sie zunächst kurz über Ihren Hintergrund erzählen und warum Sie zu diesem Forschungsthema, dem PolaFormer, gekommen sind?

Dr. Meng: Ich studiere derzeit für meinen Doktor an der Harbin Institute of Technology (Shenzhen) unter der Leitung von Professor Zhang Zheng. Eigentlich habe ich dieses Problem aus der Perspektive des Unterschieds zwischen Industrie und Wissenschaft betrachtet. In der Industrie wird inzwischen angenommen, dass große Modelle wie der Transformer in Bezug auf die Genauigkeit ausreichen. Aber wenn Unternehmen diese Modelle einsetzen möchten, legen sie mehr Wert auf die Effizienz, z. B. ob es auf mobilen Geräten oder reinen Clients laufen kann. Modelle in der Größenordnung von mehreren zehn Milliarden Parametern wie LLaMA und die qwen-Serie sind in ressourcenbeschränkten Umgebungen immer noch schwer umsetzbar.

Somit hat sich das von der akademischen Welt seit langem verfolgte Ziel "höhere Genauigkeit" allmählich in "höhere Effizienz" und "bessere Anpassbarkeit" gewandelt. Dies ist eine Veränderung. Unternehmen verfügen über Daten und Maschinen und haben daher mehr Möglichkeiten, Fehler zu korrigieren und sich ständig zu verbessern. Aber für kleine Forschungsgruppen oder Start-up-Unternehmen müssen sie diese Lücke schließen und versuchen, effizienter zu arbeiten, um in der überfüllten Welt der großen Modelle einen Durchbruch zu erzielen.

Oase: Wir verstehen, dass es viele Varianten des Attention-Mechanismus gibt, wie z. B. neben der Linear Attention auch die Sparse Attention. Wir möchten wissen, warum Sie ursprünglich beschlossen haben, die Linear Attention zu optimieren? Was waren die Hintergründe?

Dr. Meng: Die Linear Attention ist an sich keine völlig neue Architektur. Sie wurde um 2020 bereits von jemandem vorgeschlagen. Sie hat einige sehr stabile Eigenschaften. Im Vergleich dazu glaube ich, dass das Sparse Attention hauptsächlich andere Kernprobleme hat. Zum Beispiel in Bezug auf die Expressivität kann es möglicherweise zufällig einige Ähnlichkeitsinformationen verlieren. In unseren Experimenten haben wir auch festgestellt, dass die Leistung des Sparse Attention bei zunehmender Modellgröße nicht gut aufrechterhalten werden kann. Bei kleinen Aufgaben mag es noch funktionieren, z. B. bei kleinen Netzwerken mit ein oder zwei Schichten, kann es ein Gleichgewicht zwischen Effizienz und Leistung finden. Aber wenn die Modellgröße zunimmt, gehen viele Informationen verloren.

Die Linear Attention hingegen hat kein Risiko des "zufälligen Verlusts". Was sie tut, ist eigentlich, den Prozess der Ähnlichkeitsberechnung durch eine Matrixzerlegung umzuschreiben, um sicherzustellen, dass die Komplexität sinkt, ohne dass globale Informationen verloren gehen. Daher kann sie sowohl bei der Verarbeitung kurzer Texte als auch langer Sequenzen eine relativ stabile Leistung aufrechterhalten.

Oase: Wenn ich richtig verstehe, konzentrieren Sie sich in Ihrer Dissertation hauptsächlich auf die Lösung zweier Probleme: Einerseits ist die Attention-Verteilung der Linear Attention zu gleichmäßig und nicht spitz genug; andererseits werden aufgrund der nicht-negativen Einschränkung einige Informationen über negative Interaktionen verloren. Der Entwurf des PolaFormer zielt genau auf diese beiden Punkte ab, richtig?

Dr. Meng: Ja, ungefähr. Insgesamt hat die Softmax-Funktion einige gute Eigenschaften für die Gewichte des Attention-Mechanismus, aber sie kann nicht linearisiert werden. Was wir tun müssen, ist, diese Eigenschaften der Softmax-Funktion so gut wie möglich beizubehalten.

In der Dissertation habe ich das Problem in zwei Teile aufgeteilt: Das erste ist die nicht-negative Einschränkung (non-negativity constraint), die dazu führt, dass die Linear Attention negative Interaktionen verliert; das zweite ist das Fehlen von Spitzenheit (spikiness), was zu einer zu flachen Verteilung führt.

Beide Probleme hängen im Wesentlichen mit der Kernfunktion (kernel function) zusammen. Die Kernfunktion der Softmax-Funktion hat einige Vorteile, aber aufgrund ihrer Rechencharakteristik kann sie nicht direkt in eine lineare Form umgewandelt werden. Daher zerlegen wir die Kernfunktion der Softmax-Funktion und approximieren sie mit einer neuen Kernfunktion, die sowohl die Nicht-negativität aufrechterhalten kann als auch die Spitzenheit der Verteilung durch eine Potenzfunktion wiederherstellen kann, um so näher an der Standard-Attention zu sein.

Oase: Können Sie uns kurz über den gesamten Entwurf des PolaFormer erzählen?

Dr. Meng: Der Kern des PolaFormer ist eine zweisträngige Architektur (dual-stream structure). Wir teilen zunächst die eingegebenen Query- und Key-Vektoren in positive und negative Komponenten auf und senden sie dann jeweils in zwei Stränge. Ein Strang behandelt Interaktionen mit gleichem Vorzeichen (same-signed interactions), d. h. positiv-positiv und negativ-negativ; der andere behandelt Interaktionen mit unterschiedlichem Vorzeichen (opposite-signed interactions), d. h. positiv-negativ und negativ-positiv.

Bei den Value-Vektoren teilen wir sie entlang der Kanaldimension (channel dimension) in zwei Hälften auf. Jeder Zweig wirkt auf die Hälfte der Value-Vektoren, ohne die Komplexität zu erhöhen. Schließlich werden die Ergebnisse der beiden Zweige durch zwei lernbare polaritätsbewusste Matrizen zusammengefügt.

Oase: Aus der Abbildung scheint es so, dass die zweisträngige Struktur wie zwei separate Attention-Berechnungen aussieht. Wir möchten wissen, wie Sie sicherstellen, dass die Gesamtkomplexität der Berechnung auch bei der Hinzufügung der zwei Stränge noch kontrollierbar bleibt? Wird die Kosten bei der Umsetzung auch deutlich erhöht?

Dr. Meng: Das Problem ist folgendermaßen. Bei der Umsetzung haben wir die V-Matrix in den drei Matrizen Q, K und V entlang der Kanaldimension in zwei Hälften aufgeteilt. So wirkt jeder Strang nur auf die Hälfte der V-Matrix, was insgesamt der ursprünglichen V