Die Open-Source zweite Generation von InfLLM: Dreimal so schnell, parameterlos und mit trainierbarer sparse Attention!

InfLLM-V2: Effizientes sparses Attention-Modell, verarbeitet lange Texte viermal schneller und erreicht eine Leistung nahezu des dichten Modells.

InfLLM-V2 ist ein sparsparender Attention-Modell, das lange Texte effizient verarbeiten kann. Es kann mit nur wenigen langen Textdaten trainiert werden, und seine Leistung ist der traditionellen dichten Modelle nahe. Durch die dynamische Umschaltung zwischen der Verarbeitungsmodi für kurze und lange Texte wird die Effizienz und Qualität von Aufgaben mit langem Kontext deutlich verbessert. Es ermöglicht eine nahtlose, kostengünstige Umschaltung von kurzen zu langen Texten und beschleunigt sowohl die Vorstufe (Prefill) als auch die Dekodierungsphase, wodurch die eigentliche Produktivität bei langem Kontext freigesetzt wird.

Die effiziente Verarbeitung langer Sequenzen ist zum Schlüssel für die Anwendung von großen Modellen geworden.

Bei der traditionellen dichten Attention wächst der Rechenaufwand exponentiell, wenn die Sequenzlänge zunimmt. Dies schränkt direkt die Verfügbarkeit von Produkten und die Kostenkontrollierbarkeit ein.

Um dieses Problem zu lösen, haben Tsinghua, OpenBMB und die Harbin Institute of Technology InfLLM-V2 vorgeschlagen: Ein natives sparendes Attention-Framework mit null zusätzlichen Parametern und effizienter Trainingsmethode.

InfLLM behält in kurzen Text-Szenarien die ursprüngliche hohe Effizienz bei und wechselt in langen Text-Szenarien in den sparenden Modus, was zu einer deutlichen End-to-End-Beschleunigung führt.

Diese Methode kann die Training des sparenden Attention-Mechanismus mit nur 5 Milliarden Tokens langer Texte abschließen (während DeepSeek-V3.2-Exp fast 1 Billion Tokens an Daten trainierte, um das Training des sparenden Attention-Mechanismus abzuschließen).

Genauer gesagt kann InfLLM-V2 im Vergleich zum dichten Attention-Mechanismus eine Vierfache Geschwindigkeitssteigerung erreichen. Es behält in Aufgaben zur Verständnis von langen Texten 98,1 % der Leistung des dichten Modells und in tiefgründigen Denkaufgaben 99,7 % der Leistung des dichten Modells bei.

InfLLM hat drei Kernvorteile

1. Kostengünstiges Training: Nur 5 Milliarden lange Textdaten sind erforderlich, um die Fähigkeit des sparenden Attention-Mechanismus zu trainieren. Das Training ist kostengünstig und die Anpassungszeit ist kurz.

2. Nahtlose Umschaltung von kurz zu lang und optimale Effizienz für beide: Null zusätzliche Parameter. Für kurze Sequenzen wird die dichte Attention verwendet, für lange Sequenzen wird auf die sparende Attention umgeschaltet. Dies stimmt vollständig mit dem gängigen Paradigma von "Prä-Training auf kurzen Sequenzen - Nach-Training auf langen Sequenzen" überein, was zu einem stabilen Training und einer schnellen Konvergenz führt.

3. Effiziente Implementierung von Operatoren: Das Zeitlimit bei der "Auswahl des relevanten Kontexts" (Blockauswahl) für die sparende Attention wird systematisch optimiert. Eine hardwarefreundliche effiziente Implementierung wird vorgeschlagen, die die HBM I/O- und Rechenkosten deutlich reduziert und das volle Potenzial der sparenden Attention freisetzt.

Link zur Veröffentlichung: https://www.arxiv.org/pdf/2509.24663

Link zum Modell: https://huggingface.co/openbmb/MiniCPM4.1-8B

Wie macht InfLLM-V2 es möglich, "stark" und "schnell" zu sein?

Bei der Selbst-Attention des Standard-Transformers muss jedes Abfrage-Token (Q[t]) die Ähnlichkeit mit allen historischen Tokens (K[:t]) berechnen und an der Attention-Berechnung teilnehmen.

Bei einem langen Kontext (oft Hunderttausende von Tokens) führt dies zu einer unvertretbaren Latenz und hohen Kosten. Erfahrungsgemäß sind die meisten Fern-Attention-Berechnungen in langen Sequenzen nicht gleichermaßen wichtig, und die Attention-Matrix zeigt eine deutliche "Sparsamkeit" (die meisten Attention-Scores sind nahe Null).

Wenn man nur die "wenigen relevanten Kontexte" berechnet, kann man den Rechenaufwand der Attention-Berechnung des Modells deutlich reduzieren.

Die sparende Attention ersetzt das dichte Paradigma, bei dem "jedes Abfrage-Token mit allen Schlüssel-Wert-Paaren interagiert", durch das sparende Paradigma, bei dem "jedes Abfrage-Token nur mit einer ausgewählten Teilmenge interagiert".

Der Kern besteht aus zwei Schritten:

Blockauswahl: Der Kontext wird in Schlüssel-Wert-Blöcke aufgeteilt, und für jede Abfrage wird die Teilmenge der Schlüssel-Werte, die an der Attention-Berechnung teilnehmen müssen, festgelegt.

Berechnung der sparenden Attention: Die Attention-Berechnung wird nur auf der ausgewählten Teilmenge durchgeführt.

Die trainierbare sparende Attention führt den Sparsamkeits-Mechanismus bereits während des Trainings des Modells ein und kann die Effizienz und Qualität des Modells in langen Text-Szenarien systematisch verbessern.

Die derzeitigen repräsentativen Methoden basieren hauptsächlich auf der NSA-Architektur, die von DeepSeek vorgeschlagen wurde.

Obwohl die NSA eine ausgereifte blockweise Sparsamkeitsstruktur und einen speziellen CUDA-Kern verwendet, stimmt ihre Architektur nicht gut mit dem gängigen Paradigma von "Prä-Training auf kurzen Sequenzen - Fein-Tuning auf langen Sequenzen" überein: Es werden drei separate KV-Caches und drei Attention-Zweige eingeführt, was in der "Fein-Tuning-Phase auf langen Sequenzen" zu einer instabilen Konvergenz des Modells führt und in kurzen Text-Szenarien eine große Menge an zusätzlichen Kosten verursacht.

Um die oben genannten Probleme zu lösen, schlägt InfLLM-V2 einen trainierbaren sparenden Pfad mit "null zusätzlichen Parametern und nahtloser Umschaltung zwischen kurz und lang" vor, der die glatte Umschaltung von dicht zu sparend ohne Änderung der ursprünglichen Attention-Parameter ermöglicht.

Nahtlose Umschaltung zwischen kurz und lang: Es wird nur ein gemeinsamer Schlüssel-Wert-Cache verwendet (null zusätzliche Parameter), und die NSA-Mehrzweige werden zu einem einzigen Zweig zusammengefasst. Es stimmt vollständig mit der dichten Attention in Bezug auf die Parameter und die Rechenmethode überein und wechselt dynamisch zwischen dicht und sparend je nach Sequenzlänge, was zu einem stabileren Training führt.

Optimale Effizienz für kurze und lange Sequenzen: Bei kurzen Texten wird direkt der dichte Attention-Mechanismus verwendet, ohne zusätzliche Kosten und Leistungseinbußen. Bei langen Texten wird das einheitliche sparende Paradigma verwendet, was die gesamte Kette von Prefill und Decode beschleunigt.

Hardwarefreundliche Blockauswahl: Die MLP-basierte Block-Kompression wird in eine parameterlose Pooling-Operation umgewandelt. Die komprimierte Attention (Compressed Attention in der Abbildung) wird so modifiziert, dass nur Auswahl-Scores generiert werden, und die Top-K-Werte werden berechnet. In Kombination mit der Top-K-Share innerhalb der GQA-Gruppen wird eine bessere Fusion der Rechen-Kernel erreicht, um zu vermeiden, dass die Blockauswahl anstelle der sparenden Attention der Effizienzengpass wird.

Mit der Unterstützung der obigen Technologien kann InfLLM-V2 die Training des sparenden Attention-Modells mit nur 5 Milliarden Tokens erreichen!

Vergleich mit DeepSeek Sparse Attention

Es ist bemerkenswert, dass am 29. September in DeepSeek-V3.2-Exp eine verbesserte Version der NSA - DeepSeek Sparse Attention (DSA) vorgeschlagen wurde.

DSA verzichtet auf das Design von drei separaten KV-Caches und drei Attention-Zweigen in der NSA und führt den sparenden Attention-Algorithmus in der Nach-Trainingsphase ein.

Experimentelle Ergebnisse

Die Forscher haben die Effekte verschiedener sparender Attention-Algorithmen auf der Basis des MiniCPM4-Grundmodells in Aufgaben zur Verständnis von langen Texten und tiefgründigen Denkaufgaben verglichen.

Aufgaben zur Verständnis von langen Texten

Bei den Bewertungen der Aufgaben zur Verständnis von langen Texten wie RULER, LongBench und LongPPL hat InfLLM-V2 eine Leistung erreicht, die der des dichten Attention-Modells vollständig vergleichbar ist, was die Überlegenheit von InfLLM-V2 zeigt. Andere sparende Attention-Methoden führen in gewissem Maße zu einer Verschlechterung der Modellleistung.

Die NSA-Methode hat eine große Anzahl von zusätzlichen Parametern eingeführt. Nach einem geringen Training mit langen Texten kann das Modell die semantische Beziehung im langen Kontext nicht erfassen.

Tiefgründige Denkaufgaben

In tiefgründigen Denkaufgaben wie Mathematik und Code kann InfLLM-V2 eine Leistung erreichen, die der des dichten Attention-Modells vergleichbar ist, während die NSA-Methode die Modellleistung erheblich beeinträchtigt.

Da immer mehr Aufgaben von Modellen erwartet werden, tiefere Schlussfolgerungen und Analysen durchzuführen, ist "wie man den Denkprozess des Modells effizient beschleunigt" zu einem wichtigen Forschungsgebiet geworden. InfLLM-V2 zeigt das Potenzial der sparenden Attention in tiefgründigen Denkszenarien vollends.

Effizienz-Bewertung

Die Forscher haben die Inference-Effizienz von InfLLM-V2 auf den beiden Chips A100 und 4090 bewertet.

Die Ergebnisse zeigen, dass InfLLM-V2 im Vergleich zur dichten Attention eine deutliche Beschleunigung erzielen kann. Bei einem 128K langen Text kann InfLLM-V2 eine 4- bis 9-fache Beschleunigungsrate der Operatoren erreichen.

Die Zerlegungsanalyse und die Ablations-Experimente zeigen, dass das effiziente Blockauswahl-Design die Schlüsselursache für die Beschleunigung ist.

Bei der End-to-End-Bewertung erreicht InfLLM-V2 eine ca. 2,1-fache Beschleunigung bei Prefill und eine 2,3-fache Beschleunigung bei Decode.

Operator-Geschwindigkeits-Bewertung

End-to-End-Geschwindigkeits-Bewertung

Das erste Open-Source natives sparende Attention-Modell MiniCPM4/MiniCPM4.1

Im Juni dieses Jahres haben OpenBMB und Tsinghua die InfLLM-V2-Architektur vorgeschlagen und auf der Grundlage dieser Architektur das erste Open-Source native sparende Attention-Modell MiniCPM4 veröffentlicht. Anfang September wurde die Mixed-Thinking-Version MiniCPM4.1 Open-Source gemacht.

MiniCPM4.1 hat in vielen tiefgründigen Denkaufgaben den höchsten Durchschnittswert unter den Modellen gleicher Größe erreicht.

MiniCPM4.1 nutzt effiziente Algorithmen wie die sparende Attention und die spekulative Sampling voll aus. In Tests wie LiveCodeBench und AIME für Code- und Mathematik-Schlussfolgerungen ist die Inference-Geschwindigkeit mehr als dreimal schneller als die von Open-Source-Modellen gleicher Größe wie Qwen3-8B.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。