Kleine Modelle sind auch die Zukunft der Einbettungstechnik.
In den letzten Tagen hat eine neueste Forschungsergebnis von NVIDIA die Branche stark auf sich gezogen: Kleine Sprachmodelle (SLM) sind die Zukunft der Agenten. Daraufhin hat NVIDIA sein neues kleines Sprachmodell vorgestellt: Nemotron-Nano-9B-V2, das in einigen Benchmarks die höchste Leistung unter vergleichbaren Produkten erreicht hat.
Tatsächlich hat der Trend der kleinen Sprachmodelle (SLM) auch das Gebiet der MCU und MPU erreicht.
Kleine Modelle sind einfach „verkleinerte“ große Modelle
Vielleicht haben wir schon frühzeitig mit kleinen Sprachmodellen (SLM) Kontakt gehabt. Die Parameteranzahl von SLM reicht von einigen Millionen bis hin zu mehreren Milliarden, während LLM (Large Language Model) hunderte von Milliarden oder sogar Billionen von Parametern aufweisen.
SLM werden aus LLM komprimiert. Beim Komprimieren des Modells muss man versuchen, die Genauigkeit des Modells so gut wie möglich beizubehalten, während man es verkleinert. Die gängigen Methoden sind wie folgt:
Knowledge Distillation: Ein kleineres „Schüler“-Modell wird mit dem Wissen trainiert, das von einem großen „Lehrer“-Modell transferiert wird.
Pruning: Überflüssige oder weniger wichtige Parameter im neuronalen Netzwerk werden entfernt.
Quantisierung: Die Genauigkeit der Zahlen, die in der Berechnung verwendet werden, wird verringert (z. B. wird eine Gleitkommazahl in eine Ganzzahl umgewandelt).
Kleine Sprachmodelle sind kompakter und effizienter als große Modelle. Daher benötigen SLM weniger Speicher und Rechenleistung und eignen sich hervorragend für ressourcenbeschränkte Edge- oder eingebettete Geräte.
Viele kleine und leistungsstarke Sprachmodelle sind bereits aufgetaucht, was beweist, dass Größe nicht alles ist. Bekannte SLM mit 1 bis 4 Milliarden Parametern umfassen Llama3.2-1B (eine Variante mit 1 Milliarde Parametern, entwickelt von Meta), Qwen2.5-1.5B (ein Modell mit 1,5 Milliarden Parametern von Alibaba), DeepSeeek-R1-1.5B (ein Modell mit 1,5 Milliarden Parametern von DeepSeek), SmolLM2-1.7B (ein Modell mit 1,7 Milliarden Parametern von HuggingFaceTB), Phi-3.5-Mini-3.8B (ein Modell mit 3,8 Milliarden Parametern von Microsoft) und Gemma3-4B (ein Modell mit 4 Milliarden Parametern von Google DeepMind).
Das Ausführen von SLM hängt nicht nur von der Rechenleistung ab
Für MPU scheint es kein Problem zu sein, SLM auszuführen. Aber für Entwickler: Wie kann man wissen, ob eine MCU die Ausführung von generativer KI unterstützt?
Für diese Frage gibt es keine einfache und direkte Antwort. Es gibt jedoch eine feste Anforderung: Die neuronale Verarbeitungseinheit (NPU) der MCU muss die Ausführung von Transformer beschleunigen können.
Darüber hinaus gibt es Anforderungen an das Bandbreitensystembus der MCU sowie an die Speicherkonfiguration mit großer Kapazität, hoher Geschwindigkeit und enger Kopplung, wenn man generative KI ausführt.
Tatsächlich vergleichen viele Menschen heute nur die ursprüngliche Durchsatzleistung von Mikrocontrollern anhand von GOPS (Milliarden Operationen pro Sekunde) oder TOPS (Billionen Operationen pro Sekunde). Derzeitig kann die leistungsstärkste MCU eine Rechenleistung von bis zu 250 GOPS bieten, und die MCU für generative KI wird mindestens doppelt so viel Leistung bieten. Aber die ursprüngliche Durchsatzleistung ist kein idealer Indikator für die tatsächliche Systemleistung.
Da erfolgreiche Anwendungen für generative KI die Transformer-Berechnung unterstützen müssen und eine große Menge von Daten zwischen dem Systeminternen, dem Speicher, der neuronalen Verarbeitungseinheit, der Zentralverarbeitungseinheit und der Bildsignalverarbeitungseinheit sowie anderen peripheren Funktionen übertragen werden müssen. Daher kann ein System mit hoher ursprünglicher Durchsatzleistung theoretisch eine große Menge von Daten schnell verarbeiten. Aber wenn das System die Daten nicht schnell an die neuronale Verarbeitungseinheit übertragen kann, wird die tatsächliche Leistung sehr langsam und enttäuschend sein.
Natürlich ist auch für MPU die enge Kopplung zwischen hoher Bandbreite, Speicher und Bus von großer Bedeutung.
Das SLM-Projekt der Zusammenarbeit zwischen Aizip und Renesas
Schon im vergangenen August hat Aizip mit Renesas zusammengearbeitet und auf MPU ultraeffiziente SLM und kompakte KI-Agenten für Edge-Systemanwendungen gezeigt. Diese kleinen und effizienten Modelle wurden bereits in die Renesas RZ/G2L- und RZ/G3S-Motherboards auf Basis von Arm Cortex-A55 integriert.
Aizip hat eine Reihe von ultraeffizienten kleinen Sprachmodellen (SLM) und Künstlichen Intelligenz-Agenten (AI Agents) namens Gizmo entwickelt, deren Größe von 300 Millionen bis 2 Milliarden Parametern reicht. Diese Modelle unterstützen verschiedene Plattformen, einschließlich MPU und Anwendungs-Prozessoren für zahlreiche Anwendungen.
SLM ermöglichen es KI-Agenten in Geräte-Edge-Anwendungen, die gleichen Funktionen wie große Sprachmodelle (LLM) zu bieten, aber mit weniger Platzbedarf am Edge. Die Geräte-eigenen Modelle haben Vorteile wie verbesserte Datenschutz, Robustheit und Kosteneinsparung. Obwohl einige Unternehmen es erfolgreich geschafft haben, die Größe der Sprachmodelle für Mobiltelefone zu verkleinern, bleibt es eine große Herausforderung für diese SLM, genaue Tool-Aufrufe für Automatisierungsanwendungen auf kostengünstigen Edge-Geräten sicherzustellen.
Berichtet wird, dass auf einem einzelnen A55-Kern des RZ/G2L mit einer Betriebsfrequenz von 1,2 GHz diese SLM eine Antwortzeit von weniger als 3 Sekunden erreichen können.
Die MCU erhöhen auch die Investitionen in SLM
Alif Semiconductor hat kürzlich die neueste Serie von MCU und Fusionsprozessoren – Ensemble E4, E6 und E8 – veröffentlicht, die hauptsächlich für die Unterstützung der Ausführung von generativen KI-Modellen einschließlich SLM konzipiert sind. Gleichzeitig ist Alif der erste Chip-Hersteller, der den Arm Ethos-U85 NPU (neuronale Verarbeitungseinheit) verwendet, der maschinelle Lernnetzwerke auf Basis von Transformer unterstützt.
Die Benchmark-Ergebnisse zeigen, dass diese Serie eine hocheffiziente Objekterkennung in weniger als 2 Millisekunden durchführt, die Bildklassifizierung in weniger als 8 Millisekunden abgeschlossen wird und das auf dem E4-Gerät ausgeführte SLM nur 36 mW Leistung verbraucht, wenn es Text generiert, um eine Geschichte basierend auf den vom Benutzer gegebenen Hinweisen zu erstellen.
Das Ensemble E4 (MCU) verwendet einen doppelten Arm Cortex-M55-Kern. Die Fusionsprozessoren Ensemble E6 und E8 basieren jeweils auf einem Arm Cortex-A32-Kern und einem doppelten Cortex-M55-Kern. Bemerkenswert ist, dass alle E4/E6/E8 einen doppelten Ethos-U55 + Ethos-U85 besitzen und somit sehr leistungsstark sind.
Alif glaubt, dass sie früher als andere Hersteller in die Entwicklung eingestiegen sind, denn die erste Generation der Ensemble-MCU-Serie wurde schon 2021 veröffentlicht. Seitdem liefern sie die Geräte E1, E3, E5 und E7 in Massen. Während andere MCU-Hersteller noch bei der ersten Generation von AI-MCU bleiben, hat Alif die zweite Generation von Produkten veröffentlicht. Gleichzeitig ist es die erste MCU in der Branche, die Transformer-basierte Netzwerke unterstützt, die die Grundlage für LLM und andere generative KI-Modelle sind.
SLM wird die Zukunft der Einbettung sein
SLM behalten bei stark reduzierter Modellgröße möglichst viel von der Genauigkeit des Modells bei. Diese effiziente und kompakte Eigenschaft passt perfekt zu ressourcenbeschränkten Edge- und eingebetteten Geräten und bringt diesen Geräten eine bisher nie dagewesene Intelligenz.
Tatsächlich entfaltet sich langsam das Zukunftsszenario für Edge-KI, und SLM wird auch eines der Schlüsselbereiche sein, in die die Hersteller von MCU und MPU investieren werden.
Beispielsweise legen STMicroelectronics' STM32N6, die neueste Generation von Infineon's PSoC Edge MCU, TI's AM62A und TMS320F28P55x, NXP's i.MX RT700 und i.MX 95 sowie ADI's MAX7800X zunehmend Wert auf die NPU.
Einbettete KI war ursprünglich hauptsächlich eine Funktion von relativ teuren Mikroprozessor-basierten Produkten, die auf Linux-Systemen liefen. Aber bald wurde dem Markt klar, dass es auch Platz für KI in Edge- und Endgeräten gibt – viele dieser Geräte basieren auf MCU. Deshalb werden im zweiten Halbjahr 2025 fortschrittliche MCU-Hersteller Produkte mit KI-Funktionen in ihr Produktportfolio aufnehmen. Die NPU dieser Hersteller kann in zwei Gruppen eingeteilt werden: die Arm Ethos IP-Gruppe und die Gruppe mit eigener Entwicklung. Derzeit beginnt der neueste Ethos-U85 die Transformer zu unterstützen, und vor sechs Monaten wurde die Leistung bei der Ausführung von SLM gezeigt. Andere Hersteller folgen auch ständig nach. In Zukunft wird man sicherlich erwarten können, dass SLM auch die Landschaft von MCU und MPU grundlegend verändern wird.
Referenzen
[1]IBM: https://www.ibm.com/cn-zh/think/topics/small-language-models
[2]Hugging-Face: https://hugging-face.cn/blog/jjokah/small-language-model
[3]Alif: https://alifsemi.com/comparing-mcus-for-generative-ai-its-not-just-about-the-gops/
[4]Alif: https://alifsemi.com/who-wins-in-the-race-to-make-ai-mcus/
[5]Arm: https://newsroom.arm.com/blog/small-language-model-generative-ai-edge
Dieser Artikel stammt aus dem WeChat-Account „Elektronik-Engineering-Welt“, Autor: Fu Bin, veröffentlicht von 36Kr mit Genehmigung.