MITs Attention Matching Methode: 50-facher Arbeitsspeicherspareffekt ohne Genauigkeitsverlust - Kann die Grafikspeicherkrise bei großen Modellen beendet werden?

OpenClaw könnte tatsächlich damit in der Lage sein, das gesamte Wissen der Welt auf einem einzigen Rechner zu verarbeiten.

Stellen Sie sich folgende Szene vor: Sie starren auf den Bildschirm und sehen, wie Ihr autonomer KI - Agent (z. B. OpenClaw) wild arbeitet.

Er überprüft autonom ein episches Open - Source - Projekt mit Hunderttausenden von Codezeilen und bewegt sich zwischen unzähligen Dateien, API - Dokumentationen und Debug - Logs. Er verhält sich wie ein unermüdlicher Super - Programmierer, aber hinter dieser "allmächtigen" Fassade lauert ein Hardware - Alptraum, der jederzeit explodieren kann. Mit zunehmender Länge des Kontexts steigt das "Arbeitsgedächtnis" des großen Modells rapide an und verschlingt wie ein bottomless Pit die teure GPU - Grafikspeicherpool!

Dieser Grafikspeicher - Killer, der alle Unternehmens - KI - Entwickler in Schrecken versetzt, ist KV Cache.

Jetzt gibt es aber eine Lösung von einem Forschungsteam der Massachusetts Institute of Technology (MIT) (Adam Zweiger, Xinghong Fu und andere). Sie haben eine neue Kompressionstechnik für den latenten Raum namens "Attention Matching" (Aufmerksamkeitsanpassung) entwickelt.

Titel der Studie: Fast KV Compaction via Attention Matching

Link zur Studie: https://arxiv.org/pdf/2602.16284

Link zum Code: https://github.com/adamzweiger/compaction

Diese Technik kann in nur wenigen Sekunden den Kontextspeicher großer Sprachmodelle um bis zu 50 Mal komprimieren, und das fast ohne Genauigkeitsverlust!

Das bedeutet, dass Aufgaben wie das Analysieren von überlangen Gesprächen oder riesigen Dokumenten, die bisher nur mit einem ganzen H100 - GPU - Array nur schwer durchgeführt werden konnten, jetzt möglicherweise mit einer einzigen Grafikkarte problemlos ausgeführt werden können. Eine Effizienzrevolution bei der KI - Infrastruktur scheint allmählich loszulegen.

Das teure Arbeitsgedächtnis, die Achillesferse großer Modelle

Um zu verstehen, wie erstaunlich diese Technologie ist, müssen wir zunächst die Schwachstelle großer Modelle betrachten.

LLMs sind autoregressiv. Sie generieren Antworten token für token. Um zu vermeiden, dass bei der Vorhersage jedes neuen Wortes die gesamte Chat - Historie mit Tausenden von Wörtern von Anfang bis Ende neu berechnet werden muss, müssen die Modelle die "mathematische Seele" jedes zuvor verarbeiteten Tokens zwischenspeichern. Diese extrahierten mehrdimensionalen Vektoren sind die "Schlüssel (Key)" und "Werte (Value)" - Paare, also der KV Cache.

Mit zunehmender Länge des Kontexts wächst dieses Arbeitsgedächtnis irreversibel an.

In modernen Unternehmensanwendungen, wie der Analyse von hunderten von Seiten Rechtsverträgen, der Aufrechterhaltung des Gedächtnisses eines persönlichen KI - Begleiters über Monate hinweg oder dem Betrieb eines autonomen Codierungsagents wie OpenClaw, kann der KV Cache eines einzelnen Benutzeranfrages auf mehrere zehn Gigabyte schnell ansteigen.

Wie der erste Autor der Studie, Adam Zweiger, sagt: "Beim Service mit überlangen Kontexten ist der KV Cache der größte physische Engpass. Er begrenzt nicht nur die Parallelität, zwingt Sie auch, die Batch - Größe zu verringern und sogar die Systeme zu extrem leistungsschädigenden häufigen Entladungen zu zwingen."

Den Forschern sind viele Lösungsansätze eingefallen, um diesem Ressourcenfresser Herr zu werden:

Token - Entfernung und - Zusammenführung (z. B. H2O, SnapKV, PyramidKV usw.): Diese Methoden versuchen, die Tokens zu entfernen, die das Modell als "unwichtig" ansieht. Bei leichter Kompression funktioniert es noch, aber sobald die Kompressionsrate erhöht wird (z. B. versucht man, um mehr als 10 Mal zu komprimieren), fällt die Intelligenz des Modells dramatisch ab.

Textzusammenfassung: Dies ist derzeit die unglückliche Standardlösung in der Industrie. Wenn der Speicher knapp wird, wird das System angehalten, das Modell schreibt eine Zusammenfassung des Kontexts und der ursprüngliche Speicher wird geleert. Diese Methode ist äußerst "verlustreich" und kann extrem wichtige Details (z. B. ein seltenes medizinisches Merkmal in einem Krankenakte) vollständig löschen.

Latentraum - Kompression (z. B. Cartridges): Dies ist eine aktuelle Spitzenforschung, die gezeigt hat, dass eine hohe Kompressionsrate nicht nur möglich ist, sondern auch eine hohe Genauigkeit aufrechterhalten kann. Aber der Preis dafür ist extrem hoch: Es erfordert eine äußerst langsame end - to - end - Gradientenabstiegsoptimierung, um diese komprimierten Gedächtnisse zu trainieren. Selbst mit einer teuren GPU kann es Stunden dauern, um einen Kontext zu komprimieren! In Echtzeit - Unternehmensanwendungen, die "Sekundenreaktion" erfordern, ist dies undenkbar.

Wir brauchen eine Magie, die sowohl die Genauigkeit von Cartridges als auch die Geschwindigkeit traditioneller Methoden hat. Und die "Aufmerksamkeitsanpassung" der MIT wurde genau dafür entwickelt.

Die mathematische Magie, die die Regeln bricht: Die Grundlagen von "Attention Matching"

Die Forscher der MIT haben nicht an langsamem maschinellen Lernen gearbeitet, sondern einen genialen mathematischen Trick gefunden. Sie haben einen Schritt zurückgetreten und sich eine sehr grundlegende Frage gestellt: Was interessiert das Modell wirklich, wenn wir das Gedächtnis komprimieren?

Die Antwort ist: Das Modell kümmert sich nicht darum, wie viele Schlüssel und Werte gespeichert werden. Es interessiert sich nur dafür, was es als Ergebnis bekommt, wenn es eine Abfrage (Query, also q) stellt!

Um die KI perfekt zu täuschen und ihr zu machen, dass sie denkt, "das komprimierte Gedächtnis ist genau das gleiche wie das ursprüngliche große Gedächtnis", müssen die komprimierten Schlüssel - Wert - Paare (C_k, C_v) zwei Kernmathematische Eigenschaften des ursprünglichen Gedächtnisses exakt entsprechen:

Aufmerksamkeitsausgabe (Attention Output): Dies ist der tatsächliche Informationsvektor, den die KI extrahiert.

Aufmerksamkeitsqualität (Attention Mass): Dies ist ein äußerst wichtiger Punkt. Beim Zusammenfügen neuer Tokens oder altem Gedächtnis hängt die Einflussnahme eines Gedächtnisses von seiner "Qualität" ab.

Wenn Sie direkt 1000 Tokens auf 20 komprimieren, kann die "Gesamtqualität" dieser 20 Tokens auf keinen Fall mit der der ursprünglichen 1000 mithalten. Dies führt dazu, dass das Modell bei der anschließenden Inferenz diesen komprimierten Teil des Gedächtnisses stark vernachlässigt. Um dieses Dilemma zu lösen, hat das Forschungsteam eine kleine, aber geniale Variable eingeführt: Skalarabweichung β pro Token.

Diese β - Abweichung ist wie ein "Hebelgewicht". Sie multipliziert die verbleibenden Schlüssel auf der Exponentenebene der Aufmerksamkeitsberechnung neu, sodass ein einzelner behaltener Schlüssel die "Qualität" von 50 entfernten Schlüsseln repräsentieren kann!

Wenn man es in präziser mathematischer Sprache (wie in Formel 1 und 2 der Studie) ausdrückt, ist das Ziel, (C_k,β, C_v) zu finden, sodass für alle relevanten Abfragen q:

Und die Gesamtqualität muss übereinstimmen:

Noch erstaunlicher ist, dass aufgrund dieser raffinierten Rahmenkonstruktion dieses scheinbar komplexe nichtlineare Optimierungsproblem sich von selbst auflöst! Die Forscher haben die rechenintensive Rückwärtsverpropagation und Gradientenoptimierung vollständig verlassen.

Zunächst wird, nachdem C_k festgelegt ist, das Qualitätsanpassungsproblem zu einem nichtnegativen kleinsten - Quadrate - Problem (NNLS), und die Abweichung β kann sofort berechnet werden.

Anschließend wird das Problem der Aufmerksamkeitsausgabeanpassung direkt zu einem Standard - gewöhnlichen kleinsten - Quadrate - Problem (OLS). Durch einfache algebraische Matrixoperationen kann der komprimierte Wert C_v in einem Augenzwinkern berechnet werden!

Dies ist eine echte Übermacht. Was ursprünglich Stunden dauern würde, wird durch lineare Algebra auf Sekunden reduziert.

Quelle: VentureBeat, generiert von KI

Vorhersage Ihrer Vorhersage: Wie extrahiert man "Referenzabfragen" und wählt "Goldene Schlüssel" aus?

Mit der mathematischen Waffe ist die anschließende technische Umsetzung ebenfalls beeindruckend. Damit der Kompressionsalgorithmus weiß, was er behalten soll, benötigt das System eine Reihe von "Referenzabfragen" (Q_ref), die als "Stellvertreter" für die zukünftigen Fragen des Modells dienen.

Das Forschungsteam hat einen äußerst intelligenten "Vorbereitungsmechanismus" entwickelt:

Wiederholte Vorbelegung: Es wird heimlich am Ende des Dokuments eine versteckte Anweisung hinzugefügt: "Wiederhole den vorherigen Kontext", und dann werden die internen Query - Vektoren erfasst, die das Modell beim Versuch, den Text zu wiederholen, erzeugt.

Selbstlernen: Das Modell führt schnelle Synthesetasks anhand des Dokuments durch, wie z. B. "Extrahiere alle Kernfakten" oder "Strukturiere die Daten in JSON", um herauszufinden, welche Query - Vektoren das Modell bei tiefgreifender Inferenz erzeugt.

Mit diesen repräsentativen Query - Sonden in der Hand beginnt das System, "Goldene Schlüssel" (C_k) aus dem ursprünglichen Meer von Schlüsseln auszuwählen. Die Studie bietet zwei Methoden:

Methode der höchsten Aufmerksamkeit (Highest Attention Keys): Dies ist eine blitzschnelle heuristische Methode, die direkt die Schlüssel auswählt, die in den Referenzabfragen am meisten beachtet werden. Sie ist sehr schnell und kostengünstig.

Orthogonale Matching Pursuit (OMP): Dies ist ein geekigerer und aggressiverer Algorithmus. Er baut Schritt für Schritt wie ein Baukasten einen Schlüssel aus, der am besten den "Qualitätsfehler" ausgleicht, und kalibriert dann die Gewichte mit NNLS neu. Obwohl er etwas länger dauert (immer noch nur wenige Minuten), kann er die Kompressionsqualität auf ein Maximum bringen (AM - OMP).

Nicht alle "Aufmerksamkeiten" sind gleich: Strategie der ungleichmäßigen Kompression

Das ist noch nicht alles. Bei der Untersuchung der Modellarchitektur haben sie ein interessantes Phänomen entdeckt: Im Multi - Head - Attention - Mechanismus sind nicht alle "Köpfe" gleich fleißig.

Einige Köpfe sind extrem gierig und benötigen eine große KV - Kapazität, um ihre Leistung aufrechtzuerhalten (z. B. die Köpfe, die sich mit langfristigen Abhängigkeiten befassen). Andere Köpfe sind dagegen sehr entspannt und können auch dann perfekt funktionieren, wenn man 90 % ihres Gedächtnisses entfernt (z. B. die Köpfe, die sich nur auf die lokale lexikalische Struktur konzentrieren).

Aufgrund dieser Erkenntnis hat das Team eine Strategie der ungleichmäßigen Kompression (Nonuniform Compaction) entwickelt: Für jedes Modell wird eine "Empfindlichkeitskurve" vorab berechnet, als würde man jedem Attention - Head eine Untersuchung durchführen. Bei der tatsächlichen Kompression verteilt das System den äußerst wertvollen Grafikspeicherbudget nicht einheitlich, sondern gibt ihn den "Kernköpfen" zu, die am empfindlichsten auf Informationen reagieren. Durch diese Strategie hat die Leistung des komprimierten Modells einen qualitativen Sprung gemacht!

Selbst bei gemischten Architekturmodellen wie Gemma - 3 - 12B, die stark von dem gleitenden Fenster - Attention - Mechan

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Der Arbeitsspeicher fällt um das 50-fache, ohne dass die Genauigkeit leidet. Das MIT hat die Attention Matching Methode vorgeschlagen. Kann dies die Grafikspeicherkrise bei großen Modellen beenden?

Das teure Arbeitsgedächtnis, die Achillesferse großer Modelle

Die mathematische Magie, die die Regeln bricht: Die Grundlagen von "Attention Matching"

Vorhersage Ihrer Vorhersage: Wie extrahiert man "Referenzabfragen" und wählt "Goldene Schlüssel" aus?

Nicht alle "Aufmerksamkeiten" sind gleich: Strategie der ungleichmäßigen Kompression