Neues inländisches Large Language Model (LLM), trainiert mit inländischen GPUs: Energieverbrauch um 97,7 % gesunken!

Inspiration aus dem menschlichen Gehirn holend, erzielt ein chinesisches Nicht-Transformer-Modell einen Durchbruch.

Zhidx berichtete am 10. September. Am 5. September veröffentlichte das Institut für Automatisierung der chinesischen Akademie der Wissenschaften einen technischen Bericht über das große hirnähnliche Spiking-Modell "Shunxi 1.0" (SpikingBrain-1.0). Das Open-Source-Modell SpikingBrain-7B erreicht mit nur 2 % der Pretraining-Daten von Mainstream-Großmodellen 90 % der Leistung von Qwen2.5-7B und ist mit vielen Open-Source-Transformer-Modellen wie Llama-3.1-8B vergleichbar.

Das Institut für Automatisierung der chinesischen Akademie der Wissenschaften erklärte, dass dies das erste Mal in China ist, dass ein großskaliges hirnähnliches lineares Basis-Modell-Architektur vorgeschlagen wird und auch das erste Mal in China, dass ein Trainings- und Inferenz-Framework für ein großes hirnähnliches Spiking-Modell auf einem Cluster aus chinesischen GPU-Rechenkapazitäten aufgebaut wird.

Der gesamte Prozess von Training und Inferenz von SpikingBrain wurde auf chinesischen Rechenkapazitäten abgeschlossen, und es wurde ein Cluster aus Xiyun C550 GPUs von Muxi Technology verwendet. Während des Trainings lief der Cluster 2 Wochen lang ohne Unterbrechung, was auch die Machbarkeit der Schaffung einer ökosystem für eine neue nicht-Transformer-Großmodell-Architektur mit eigener Kontrolle in China beweist.

Außer einer extrem hohen Dateneffizienz hat SpikingBrain auch eine um Größenordnungen gesteigerte Inferenzeffizienz erreicht. Bei einem Kontext von 1 Million Tokens ist die Zeit für die Generierung des ersten Tokens von SpikingBrain-7B im Vergleich zu Qwen2.5-7B um 96,2 % gesunken.

Diese Eigenschaft macht SpikingBrain besonders geeignet für Aufgaben der Verarbeitung von ultralangen Sequenzen, wie bei der Analyse von Rechts- und medizinischen Dokumenten, der Simulation von komplexen Multi-Agentensystemen, der Experimente in der hochenergetischen Teilchenphysik, der Analyse von DNA-Sequenzen und der Trajektorien der Molekulardynamik.

In Bezug auf den Energieverbrauch ist der durchschnittliche Energieverbrauch für Multiplikation und Addition dieses Modells im Vergleich zu herkömmlichen FP16- und INT8-Berechnungen um 97,7 % bzw. 85,2 % gesunken.

▲Technischer Bericht zu SpikingBrain-1.0

SpikingBrain-1.0 gibt es in zwei Versionen mit 7 Milliarden Parametern und 76 Milliarden Parametern. Am 3. September wurde die 7B-Version des Modells auf Plattformen wie GitHub und ModelScope open source veröffentlicht. Die 76B-Version des Modells ist noch nicht open source, aber es wird ein Test-Link bereitgestellt.

▲Test-Oberfläche von SpikingBrain-1.0

Open-Source-Adresse: https://github.com/BICLab/SpikingBrain-7B

Technischer Bericht: https://github.com/BICLab/SpikingBrain-7B/blob/main/SpikingBrain_Report_Chi.pdf

Test-Link: https://controller-fold-injuries-thick.trycloudflare.com/

01. Transformer trifft auf Effizienzengpässe, holt Inspiration aus dem menschlichen Gehirn

Warum braucht man ein neues großes Modell mit nicht-Transformer-Architektur? Das Team, das SpikingBrain entwickelt hat, glaubt, dass die Transformer-Architektur einen inhärenten Nachteil hat: Der Rechenaufwand beim Training wächst quadratisch mit der Sequenzlänge, und der Speicherbedarf bei der Inferenz steigt linear mit der Sequenzlänge, was enorme Ressourcenverbrauch mit sich bringt. Dies beschränkt die Fähigkeit des Modells, ultra lange Sequenzen (Sequenzen mit über 1 Million Tokens) zu verarbeiten.

Die Transformer-Architektur basiert im Wesentlichen auf "exogener Komplexität", d. h. auf der Verbesserung des Intelligenzniveaus durch das Stapeln von mehr Neuronen und die Durchführung von größeren Berechnungen. Im Gegensatz dazu erreicht das menschliche Gehirn mit einem äußerst geringen Energieverbrauch (etwa 20 W) ein hochkomplexes Intelligenzniveau, und seine Neuronen haben eine reiche interne Dynamik und Vielfalt.

Dies bedeutet, dass es möglicherweise einen anderen Entwicklungspfad für große Modelle gibt, nämlich der "endogenen Komplexität", indem die strukturellen und funktionellen Eigenschaften biologischer neuronaler Netzwerke auf der Ebene von Neuronen und neuronalen Kreisen voll genutzt werden, um die nächste Generation von Modellarchitekturen zu schaffen.

Das Konzept des niederenergieverbrauchenden Spiking-Neural-Networks (SNN) wird von der Wissenschaftsgemeinschaft als eines der nächsten Generationen von niederenergieverbrauchenden hirnähnlichen neuronalen Netzwerken für ein allgemeineres KI-System angesehen. Seine Arbeitsweise ähnelt der des Gehirns, da es nur bei Bedarf Signale sendet, und daher ist der Energieverbrauch gering.

Es wurde festgestellt, dass die gleichen Effekte wie bei komplexen Spiking-Neuronen auch mit einer Kombination von einigen kleinen Neuronen erreicht werden können, was die Schaffung eines effizienten hirnähnlichen Netzwerks möglich macht.

Basierend auf diesen theoretischen Untersuchungen hat das SpikingBrain-Team drei Kernkomponenten in die Modellarchitektur integriert: gemischte effiziente Attention, MoE-Module und Spiking-Codierung.

1. Gemischte effiziente Attention

Das Attention-Mechanismus ist die Kernrecheneinheit von großen Sprachmodellen. SpikingBrain integriert die Vorteile verschiedener Attention-Mechanismen. Das 7B-Modell verwendet eine gemischte lineare Attention und SWA zwischen Schichten, um sowohl die globale Informationssuche als auch die lokale Abhängigkeit zu berücksichtigen.

Das größere SpikingBrain-76B-Modell verwendet hingegen eine parallele Mischung innerhalb der Schichten, indem es lineare, SWA- und vollständige Softmax-Attention kombiniert. Mehrere Attention-Mechanismen laufen parallel in derselben Schicht, was eine effiziente Verarbeitung von globaler Information, lokaler Abhängigkeit und langreichweitiger Abhängigkeit ermöglicht.

▲Gesamtmodellarchitektur von SpikingBrain

2. Gemischte Expert-Module

SpikingBrain basiert auf Qwen2.5-7B-Base (einem dichten Modell). Um auf der Grundlage des bestehenden dichten Modells effizient zu einem spärlichen gemischten Expert-Modell zu erweitern, hat das SpikingBrain-Team die Upcycling-Technologie verwendet.

Der Kern dieser Methode besteht darin, durch Parameterkopieren und Ausgabe-Skalierung sicherzustellen, dass das erweiterte Modell im Anfangszustand mit dem ursprünglichen Modell übereinstimmt, um Leistungsverluste zu vermeiden.

3. Spiking-Neuronen

Spiking-Neuronen sind die Grundeinheiten von Spiking-Neural-Networks. Das in der Praxis häufig verwendete LIF (Leaky Integrate-and-Fire)-Modell kann in gewissem Maße die Kernmerkmale biologischer Neuronen simulieren. Aber das LIF-Modell hat das Problem, dass die Neuronen entweder übermäßig inaktiv oder übermäßig aktiv sind, was das Gleichgewicht zwischen Modellgenauigkeit und Energieeffizienz beeinträchtigt.

Um diese Probleme zu lösen, hat das SpikingBrain-Team das Konzept der adaptiven Schwellenwert-Spiking-Neuronen (Adaptive-threshold Spiking Neurons) vorgeschlagen, das die Neuronen in einem angemessenen Aktivierungszustand halten kann und eine Übererregung oder Inaktivität vermeidet.

02. Modellkonvertierung in 3 Schritten, vollständige Anpassung an chinesische GPU-Cluster

Während des Trainings hat das SpikingBrain-Team Qwen2.5-7B-Base in ein großes hirnähnliches Spiking-Modell umgewandelt, und dies umfasst hauptsächlich 3 Schritte.

Beim fortgesetzten Pretraining und der Erweiterung der Sequenzlänge wurde das Modell mit etwa 150 Milliarden Tokens trainiert, und die Sequenzlänge wurde schrittweise von 8.000 auf 128.000 erweitert. Die Trainingsdatenmenge beträgt nur 2 % der für das Training von Grund auf erforderlichen Datenmenge, was eine effiziente Modellkonvertierung ermöglicht.

Beim supervised fine-tuning hat das Modell durch die Verwendung von Datensätzen aus verschiedenen Bereichen und eines hochwertigen Inferenz-Datensatzes, der aus DeepSeek-R1 destilliert wurde, seine Fähigkeiten in Bezug auf Allgemeinwissen, Dialog und Inferenz schrittweise verbessert.

Danach muss das Modell noch einer Spiking-Codierung unterzogen werden. Inspiriert vom biologischen Nervensystem hat das SpikingBrain-Team eine Strategie zur Umwandlung der kontinuierlichen Aktivierungswerte des großen Modells in eine Ganzzahl-Spiking-Sequenz vorgeschlagen.

Während der Inferenz wird die Ganzzahl-Spiking-Zählung in eine spärliche Spiking-Sequenz erweitert, um der ereignisgesteuerten Berechnung anzupassen.

SpikingBrain bietet drei Codierungsarten an: Binäre Spiking-Codierung ist einfach und energieeffizient; Ternäre Spiking-Codierung unterstützt die Erregungs-Hemm-Regulierung ähnlich dem biologischen Nervensystem und reduziert die Anzahl der Zeitschritte und die Gesamtzahl der Spikes; Binäre Spiking-Codierung kann bei hohen Zählungen die Rechenmenge und den Energieverbrauch erheblich reduzieren.

▲Schematische Darstellung der drei Spiking-Schemata

Das obige Spiking-Schema kann auf GPUs kompatibel laufen, aber die GPU kann die Kernvorteile des Spiking-Signals "ereignisgesteuert, spärlich und asynchron" nicht vollständig nutzen. Um das Potenzial für niedrigen Energieverbrauch dieses Schemas voll auszuschöpfen, muss es in Kombination mit spezieller asynchroner Hardware (wie hirnähnlichen Chips und Spiking-Prozessoren) eingesetzt werden.

Dennoch hat SpikingBrain sich entschieden, auf einem Cluster aus chinesischen Muxi GPUs zu trainieren, und die Muxi-Softwareplattform hat die Anpassung durch MoE-Optimierung, parallele Berechnung und Kommunikation, Speicheroptimierung, Operator-Fusion und automatische Einstellung erreicht.

Dieser Anpassungsprozess umfasst zwei Teile: die Anpassung an Triton und die Migration von CUDA zu dem MACA-Framework (Muxi's CUDA-kompatibles Software-Stack). Diese beiden Wege optimieren verschiedene Operatoren innerhalb des Modells und bilden gemeinsam ein Hardware-Anpassungsschema für Muxi GPUs.

▲Anpassung von CUDA- und Triton-Operatoren auf der Muxi-Plattform

Während des Anpassungsprozesses können die Benutzer weiterhin ihre gewohnten Programmierstile und Schnittstellenaufrufe verwenden, ohne dass es notwendig ist, den Modellcode stark zu ändern. Gleichzeitig bietet die Plattform Debugging- und Leistungsanalyse-Tools, um es den Entwicklern zu erleichtern, die Ausführung des Modells auf der Hardware zu beobachten und erforderliche Feinabstimmungen und Optimierungen vorzunehmen.

Das Training von großen Sprachmodellen übersteigt normalerweise die Speicherkapazität einer einzelnen GPU. Daher hat das SpikingBrain-Team verteilte Trainings-Techniken wie Datenparallelität, Pipeline-Parallelität, Expert-Parallelität und Sequenz-Parallelität kombiniert, um die Rechen- und Speicherlast auf mehrere GPUs zu verteilen.

03. Wiederherstellung von 90 % der Leistung des Basismodells, Cluster läuft 2 Wochen lang ohne Unterbrechung

Bei der Bewertung von Downstream-Aufgaben hat SpikingBrain-7B auf mehreren Benchmarks etwa 90 % der Leistung des Basismodells Qwen2.5-7B wiederhergestellt, und das Gesamtniveau ist mit dem von fortschrittlichen Transformer-Modellen wie Mistral-7B und Llama-3-8B vergleichbar, was zeigt, dass die effiziente lineare Attention die Inferenzkomplexität reduziert und gleichzeitig eine starke Modellierungsfähigkeit beibehält.