Kann das 1,58-Bit-Modell von Mianbi Intelligence die "Video-Speicher-Angst" in der Periode des steigenden Speicherkosten Drucks lindern?

Wie kann man mit den günstigsten Chips die maximale Intelligenz erzielen? Das ist das Kernproblem des Edge-Modells.

Quelle: Jiemian News

Am 25. Mai hat Mianbi Intelligence zusammen mit der Tsinghua-Universität und der OpenBMB Open-Source-Community offiziell BitCPM-CANN veröffentlicht. Dies ist eine Serie von 1,58-Bit-Dreistellungsgewichts-Modellen, die auf der nationalen Rechenleistungplattform nativ trainiert und open source gemacht wurden. Sie umfasst vier Größenversionen: 0,5B, 1B, 3B und 8B.

Im Vergleich zur BF16-Präzision liegt die Bedeutung der 1,58-Bit-Technologie von BitCPM darin, dass durch die Beschränkung der Gewichte auf die drei Werte -1, 0 und 1 etwa das Sechsfache des Grafikspeichers auf der Inferenzseite freigegeben wird, sodass das Gerät unter derselben physischen Speicherbeschränkung Modelle mit größeren Parametergrößen ausführen kann. Beispielsweise kann ein Chip, der zuvor nur ein 4B-Modell ausführen konnte, nun ein 8B-Modell bei demselben Speicherverbrauch ausführen.

Die Veröffentlichung von BitCPM-CANN fällt in eine Zeit der Turbulenzen in der globalen Halbleiterversorgungskette. Ein kürzlich veröffentlichter Bericht von Goldman Sachs weist darauf hin, dass aufgrund des starken Anstiegs der Nachfrage nach KI-Servern die Preiserwartungen für Speicher in 2026 weiter angehoben werden. Der Anstieg der DRAM-Preise liegt zwischen 250 % und 280 %, der der NAND-Preise zwischen 200 % und 250 %. Der Anstieg der HBM-Preise ist aufgrund der technischen Schwierigkeiten und Kapazitätsbeschränkungen noch höher.

Li Yuxuan, Leiter der KI-Infrastruktur bei Mianbi Intelligence, hat in einem Interview mit Medien wie Jiemian News darauf hingewiesen, dass Speicher zu einer knappen Ressource in der Branche der großen Modelle geworden ist. Der Preis dafür hat sich in den letzten zwölf Monaten um etwa das Fünffache erhöht, was zu Sorgen bei Mobiltelefon- und Endgeräteherstellern bei der Produktentwicklung führt.

Hier stellt sich die Frage: Kann ein nativ trainiertes Low-Bit-Endgeräte-KI-Modell die KI-Leistung und den Grafikspeicherverbrauch effektiv ausgleichen?

Nach Informationen von Jiemian News ist die herkömmliche Methode zur Lösung dieses Problems die Post-Training-Quantisierung. Dabei wird zunächst das Modell mit hoher Präzision (z. B. BF16) trainiert und anschließend werden seine Gewichte auf INT8 oder INT4 komprimiert. Allerdings treten dabei Probleme mit Leistungsverlust auf.

Das Vorgehen von Mianbi Intelligence besteht darin, zunächst durch Quantisierungs-sensitives Training (QAT) das Modell in einen stabilen Konvergenzzustand zu bringen und anschließend ein Full-Precision-Modell zur Wissensübertragung einzuführen. Da Low-Bit-Modelle äußerst empfindlich gegenüber der Datenqualität sind, versucht das Team, den Informationsverlust durch die Bitbreitenkompression durch eine feinere Datenmischung und ein Lehrer-Modell auszugleichen.

Bezüglich des Trainingsparadigmas vergleicht Li Yuxuan diese Strategie des ersten Quantisierens und dann Distillierens mit der Lehre eines fleißigen, aber nicht besonders begabten Schülers. Wenn man zu früh einen komplexen Distillationsmechanismus einführt, kann das Modell nicht konvergieren.

Außerdem ist Li Yuxuan der Meinung, dass aus technischer Sicht 1,58 Bit als der "mathematische Süßpunkt" der Modellkompression angesehen werden können. Obwohl 1 Bit (Binär) theoretisch einen höheren Kompressionsfaktor bietet, kann es nicht gleichzeitig die Symmetrie der mathematischen Darstellung und die Null-Eigenschaft gewährleisten, was zu einem großen Präzisionsverlust führt. Im Vergleich dazu kann 1,58 Bit bei einem extrem hohen Kompressionsfaktor die Expressivität der Gewichte möglichst gut bewahren.

Die Daten zeigen, dass die BitCPM-Modellreihe in 11 Kernaufgaben wie Allgemeinwissen und Textverständnis 90 % bis 97 % der Fähigkeiten des Full-Precision-Modells beibehält. "Die zentrale Frage für Endgeräte-Modelle ist, wie man mit den billigsten Chips die größte Intelligenz erzielen kann", betont Li Yuxuan. "1,58 Bit ist der optimale Zustand für die Wissensdichte bei einem bestimmten Speicherbedarf."

Quelle: Mianbi Intelligence

Im Hinblick auf die allgemeine Sorge in der Branche über Präzisionsverlust hat Li Yuxuan erklärt, dass der Leistungsverlust durch Low-Bit-Technologien eher sanft als plötzlich ist. Durch Post-Training-Techniken kann der Verlust auf nicht-kernhafte Szenarien geleitet werden, um die Kernfunktionen wie Zusammenfassung und Interaktion auf Endgeräten nicht zu beeinträchtigen.

"Nehmen wir als Beispiel ein Mobiltelefon. Die KI auf einem Mobiltelefon benötigt keine hohen Programmierfähigkeiten. Wir können also den Leistungsverlust durch Post-Training auf die Programmierfähigkeiten leiten und uns auf die von den Kunden gewünschten Indikatoren konzentrieren", sagte Li Yuxuan.

Von der kommerziellen Seite aus betrachtet zielt BitCPM weiterhin auf Mobiltelefone, Fahrzeugcomputer und andere Endgeräte ab. Li Yuxuan geht davon aus, dass durch die Kombination von Low-Bit-Technologie und Sparse-Technologie (MoE) größere Modelle (z. B. 60B) im nächsten Jahr auf Endgeräten eingesetzt werden können, was die Intelligenzlücke zwischen Endgeräten und Clouds verringern wird.

Ein weiterer Durchbruch von BitCPM liegt in seiner nationalen Rechenleistung. Bisher war das Training von Extremely-Low-Bit-Modellen auf die NVIDIA CUDA-Ekologie angewiesen, um Algorithmen zu validieren. BitCPM hingegen wurde von der Quantisierungs-Operation, dem Trainingsalgorithmus bis hin zum gesamten Framework in der nativen Umgebung von Huawei Ascend entwickelt.

Li Yuxuan hat Jiemian News mitgeteilt, dass die Hauptherausforderung bei der Anpassung an die nationale Rechenleistung nicht in der Hardware, sondern in der Software-Ökosystem liegt. Das Mianbi-Team hat es erst nach etwa einem Monat geschafft, den unteren Software-Stack zu verbinden. Er ist der Meinung, dass dieser Durchbruch beweist, dass die nationalen Chips in der Lage sind, komplexe Low-Bit-Pretraining-Algorithmen zu unterstützen und die Zusammenarbeit zwischen nationalen Modellen, Frameworks und Chips zu ermöglichen.

Dieser Artikel stammt von "Jiemian News", Autor: Wu Yangyu. Veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

In der Periode des steigenden Speicherkosten Drucks, kann das 1,58-Bit-Modell von Mianbi Intelligence die "Video-Speicher-Angst" lindern?