StartseiteArtikel

Yang Yuqing von Microsoft Research: Das Aufmerksamkeitssystem von Agenten | Attention

绿洲资本2025-09-05 11:41
Botschafter der Vitalität

Die Fähigkeit zur Langzeit-Kontextverstehens ist der Schlüsselweg für große Modelle auf dem Weg zu komplexen Aufgaben und Systemsteuerungen.

Was die Lösung der Rechenengpässe in der Prefill-Phase angeht, ist TriangleMix derzeit eine der wenigen Methoden für die strukturelle Optimierung auf unterster Ebene, die sowohl Leistung als auch Genauigkeit berücksichtigt.

Diese Methode wurde von Dr. Yang Yuqing, dem leitenden Forschungs- und Entwicklungsmanager des Microsoft Research Institutes, und anderen in der Studie "TriangleMix: A Lossless and Efficient Attention Pattern for Long-Context Prefilling" vorgestellt: Eine trainingsfreie (Training-free) Attention-Musterkombination, die für extrem lange Eingaben geeignet ist. Durch eine strukturelle Gestaltung mit einer dichten Schicht auf der Oberfläche und einer dreieckig-sparlichen Schicht in der Tiefe verringert diese Methode die Latenz in der Vorauffüllphase erheblich, während die Qualität der Modellausgabe aufrechterhalten bleibt.

TriangleMix ist ein strukturelles Schichtungskonzept für Attention, das die Latenz des ersten Tokens (Time to First Token, im Folgenden TTFT) im Bereich von 32K - 128K Länge um 12% - 32% reduzieren und die Latenz des Attention-Kerns um das 3,7 - 15,3-fache verbessern kann;

Die dahinterliegende Logik besteht darin, dass durch eine Analyse der Gradientensensitivität die unnötigen Middle Q-K-Blöcke entfernt werden und nur der Streaming-Bereich und der Endaggregationsbereich beibehalten werden;

Diese Optimierung ist trainingsfrei und kann mit dynamischer Sparsamkeit (z. B. MInference, FlexPrefill) kombiniert werden, um Kosteneinsparungen und Effizienzsteigerungen von Ende zu Ende zu erzielen, ohne die Architektur zu ändern;

Für Dr. Yangs Team ist TriangleMix keine eigenständige Arbeit, sondern ein Teil der Überlegungen zur Attention-Mechanik, zur Informationsorganisation, zur Context-Orchestrierung und sogar zur Denkweise über das native System von Agenten.

Aber welche Veränderungen haben sich tatsächlich in Bezug auf das Verständnis von Attention hinter TriangleMix ergeben? Warum kann es einen großen Teil der Berechnungen "fast verlustfrei" streichen? Kann diese Methode auch auf Memory, Retrieval und größere Agentensystemarchitekturen erweitert werden? Gerade aufgrund dieser Fragen haben wir ein tiefgreifendes Gespräch mit Dr. Yang geführt.

Bevor wir den eigentlichen Gesprächsinhalt beginnen, lernen wir zunächst schnell die technische Motivation und die Kernstruktur von TriangleMix kennen.

Beim Umgang mit Aufgaben im langen Kontext stoßen große Modelle in der Attention-Mechanik häufig auf das Problem eines sprunghaft steigenden Rechenaufwands in der Vorauffüllphase (Prefill). Die Komplexität wächst dabei mit der Eingabelänge im Verhältnis O(N²). Vor allem bei Eingabegrößen zwischen 32K und 128K bringt dies einen erheblichen Speicherdruck und eine hohe TTFT mit sich und wird somit der Hauptengpass bei der tatsächlichen Implementierung und der Leistungssteigerung.

TriangleMix schlägt für dieses Problem eine schichtweise-sparliche Attention-Architektur vor: Durch die Analyse der Gradientensensitivität jeder Attention-Schicht in Bezug auf die endgültige Ausgabe haben die Autoren festgestellt, dass das Modell in den tieferen Schichten nur einen sehr geringen Bezug zum Middle Q-K-Bereich hat. Daher behalten sie in den oberen Schichten die Standard-Dense-Attention bei und wechseln in den tieferen Schichten zu einer dreieckigen Maske – sie überspringen den mittleren Teil und behalten nur den Anfangsteil (Streaming-Bereich) und das Ende (Last Q-K-Bereich) bei, wodurch die Rechenkosten der tiefen Attention erheblich verringert werden und die Komplexität von O(N²) auf O(N) sinkt.

In der praktischen Anwendung wendet TriangleMix eine Strategie zur Schichtung der Attention an: Die ersten 16 Schichten verwenden die Standard-Full-Attention, während die letzten 16 Schichten auf die Triangle-Attention umschalten und nur den unteren Dreiecksbereich der Attention-Matrix aktivieren (d. h. jedes Q kann nur auf die K vor ihm zugreifen).

Diese Struktur unterstützt die Kombination mit bestehenden Methoden für dynamische Sparsamkeit (z. B. MInference, FlexPrefill) und ermöglicht die Erstellung eines Hybrid-Modus; gleichzeitig ist es eine trainingsfreie Methode zur strukturellen Optimierung, die direkt auf gängige große Modelle wie Llama-3.1 und Qwen2.5 eingesetzt werden kann, ohne erneutes Training erforderlich zu sein.

Experimente in der Studie haben gezeigt, dass das Modell auf Llama‑3.1‑8B‑Instruct und Llama‑3‑8B‑262K immer noch 99,7 % seiner ursprünglichen Leistung behält, wenn die Triangle-Attention auf 62,5 % der hinteren Schichten angewendet wird (d. h. L_tri_start = 12).

Das bedeutet: TriangleMix kann in den meisten tiefen Schichten eine Attention-Struktur mit O(N) verwenden, ohne die Ausdrucksfähigkeit erheblich zu verlieren, wodurch eine deutliche Beschleunigung der Inferenz erreicht wird.

Die Messergebnisse in der Studie zeigen auch, dass TriangleMix die Latenz und den Speicherverbrauch erheblich reduzieren kann, während die Genauigkeit fast unverändert bleibt.

Darstellung der Messergebnisse

Im Llama‑3.1‑8B‑Instruct-Modell komprimiert die Triangle-Attention die Kernlatenz pro Schicht von 750 ms (128K-Kontext) auf 49 ms, was einer Beschleunigungsrate von 15,3-fach entspricht, und die TTFT sinkt um 12% - 32%.

Bei mehreren Benchmark-Aufgaben wie RULER (Revisiting Long Context Benchmark) und LongBench zeigt TriangleMix fast die gleiche Genauigkeit wie die Dense-Attention, was die  "trainingsfrei + fast verlustfrei" strukturellen Vorteile bestätigt.

Wir haben das tiefe Interview mit Dr. Yang zusammengefasst, das sich um die Forschungsinsights hinter der Studie und den gesamten Systementwicklungspfad, den TriangleMix verbindet, dreht und die Themen von der strukturellen Gestaltung bis zur Implementierungseffizienz abdeckt.

Dies ist der zusammengefasste Interviewinhalt, der etwa 15 Minuten zum Lesen erfordert.

Genießen Sie!

"Deshalb denke ich, dass wir die Attention nicht isoliert betrachten sollten, sondern dass wir sie aus einer höheren Perspektive betrachten sollten – in den größeren Themenbereichen des Agentensystems, des Trainingsmechanismus, der Context-Darstellung und der Aufgabenstruktur."

– Dr. Yang

Oase: Guten Tag, Dr. Yang. Sie arbeiten im Microsoft Research Institute, einem Ort, an dem Wissenschaft und Industrie zusammenkommen. Können Sie uns von der Perspektive des Austauschs zwischen Industrie und Wissenschaft erklären, wie man die Forschung zu TriangleMix betrachten und denken sollte?

Dr. Yang: Zunächst möchte ich das aktuelle Arbeitsgebiet und das Forschungsrahmenwerk vorstellen.

Unser Team (das Team für maschinelles Lernsystem in Shanghai des Microsoft Research Institutes Asien) beschäftigt sich hauptsächlich mit der kooperativen Innovation von Systemen und Algorithmen für große Modelle und Agentensysteme. Unsere Arbeit konzentriert sich hauptsächlich auf zwei Bereiche:

Erster Bereich: Effiziente Berechnung für große Modelle, insbesondere im Langzeit-Kontext. Hier liegt der Schwerpunkt auf der Forschung und Beschleunigung des sparlichen Attention-Mechanismus (Sparse Attention).

In diesem Bereich umfassen die Hauptleistungen unseres Teams neben TriangleMix, über das wir heute sprechen, auch:

MInference (NeruIPS 24) und MMInference (ICML 25) führen die sparse Berechnung in die Attention ein und verringern hauptsächlich den Rechenaufwand und die Latenz (Time-to-First-Token, TTFT) in der Prefill-Phase;

Retrieval Attention und die Folgearbeit RetroInfer führen die Suchtechnologie des Vektorindex in die Berechnung der Attention und die Organisation des KV-Cache ein, um einen hohen Durchsatz bei der Inferenz mit geringem GPU-Speicher zu erreichen;

SCBench (ICLR 25) klassifiziert und vergleicht verschiedene Methoden zur Sparsamkeit systematisch aus der Perspektive des KV-Cache-Sharing;

LeanK (EMNLP 25) untersucht die Auswirkungen der gängigen Positionskodierungstechniken auf die Frequenzverteilung des KV-Cache (Dimension) und verringert den Speicher- und Rechenbedarf, indem es die Redundanz in der Frequenzdomäne verringert;

Der andere Bereich wird von uns "Agent-natives System" (Agent-Native Systems) genannt und befasst sich mit der systematischen Forschung zur Entwicklung, Optimierung und effizienten Implementierung von Agentensystemen. In diesem Bereich betrachten wir den Agenten als die primäre Einheit der Systemforschung, anstatt uns nur auf das Modell zu konzentrieren.

Wir haben frühzeitig erkannt, dass wenn das System auf Agenten und nicht auf einmalige Aufrufe von großen Modellen ausgelegt ist, das Agent-native System einen größeren Raum für die Leistungssteigerung und Effizienzoptimierung bietet, wodurch die Agenten nicht nur effizienter und kostengünstiger werden, sondern auch ihre Arbeitsqualität verbessern und Probleme besser lösen und reale Werte schaffen können.

Nehmen wir beispielsweise das im Jahr 2024 von uns vorgestellte Parrot (OSDI 24)-System. Der Ausgangspunkt ist, dass im "Agentensystem" der Rechengraph zusätzlichen Optimierungsraum für das Inferenzsystem bietet. Traditionelle Inferenzsysteme für große Modelle sind hauptsächlich auf die Optimierung von "einmaligen Anfragen" ausgelegt, aber in der Realität kann kein Agent seine Aufgabe mit einem einzigen Aufruf erfüllen. Ein System, das nur auf einmalige Aufrufe ausgelegt ist, ist auf Agentenebene in der Regel nicht optimal.

Oase: Bitte erklären Sie genauer, warum ein Agent seine Aufgabe nicht mit einem einzigen Aufruf erfüllen kann.

Dr. Yang: Ein Agent ist im Wesentlichen ein Softwareprogramm, das mehrere Modellaufrufe umfasst. Zwischen diesen Aufrufen bestehen bestimmte Abhängigkeiten (z. B. wird die Ausgabe eines Modells die Eingabe für das nächste Modell), und es kann auch die Verwendung von Tools oder die Abfrage von Datenbanken erforderlich sein. Dies erfordert, dass die Systemoptimierung die "gesamte Aufgabenkette" berücksichtigt und nicht nur die einmalige Inferenz.

Bei der tatsächlichen Implementierung haben wir zwei bemerkenswerte Punkte beobachtet:

Erstens: Wenn man das System auf Agentenebene optimiert, kann man in der Regel zusätzliche Leistungssteigerungen erzielen. In einigen Szenarien haben wir sogar eine Steigerung um das 10-fache im Vergleich zu traditionellen Methoden beobachtet. Dies liegt daran, dass sich das Optimierungsziel geändert hat – es geht nicht darum, "eine Anfrage schnell zu bearbeiten", sondern darum, "eine ganze Gruppe von Aufgaben besser zu koordinieren".

Zweitens: Es gibt eine sehr interessante Veränderung: Immer mehr Anfragen an große Modelle werden nicht von Menschen, sondern von Programmen selbst ausgelöst. Diese programmatischen Aufrufketten sind eher ein neues System als das traditionelle "Benutzereingabe + Modellausgabe".

Oase: Wirkt sich diese Veränderung auch auf das Design der Trainingsdienstarchitektur aus?

Dr. Yang: Ja, wir haben auch ein neues Projekt namens AgentLightning gestartet, das sich auf das Training und die Optimierung von Agenten konzentriert. Hier befassen wir uns mit der Frage, wie man eine standardisierte Trainingsdienstleistung (Training Service) für die vielfältigen Arten von Agenten aufbauen kann. Das Wichtigste ist, dass dieser Dienst nicht invasiv sein darf. Viele aktuelle Optimierungsmethoden setzen voraus, dass man ein bestimmtes Framework verwendet, aber in vielen realen Projekten gibt es kein einheitliches Framework, und einige Entwickler sehen das Framework sogar als Belastung an.