Die Riesenunternehmen im MCU - Bereich legen alle ihre Karten auf den Tisch

Es ist erwähnenswert, dass obwohl die großen Konzerne sich auf der Hauptlinie der Integration von NPU einigen, haben sie jeweils eigene Schwerpunkte bei der konkreten Umsetzung und Anwendung.

Über einen langen Zeitraum war die Welt der eingebetteten Computer stabil und bescheiden.

Die Kernaufgabe von Mikrocontroller-Einheiten (MCU) war und bleibt einfach: Zuverlässigkeit, Echtzeitfähigkeit und geringer Stromverbrauch. Es ist nicht erforderlich, die Leistung von Jahr zu Jahr zu verdoppeln, und es wird auch keine radikale Innovation in der Architektur angestrebt. Ein Flash-Speicher, ein SRAM, ein CPU-Kern und eine reife Software-Toolchain sind ausreichend, um industrielle Steuerungen, Automobil-Elektronik und verschiedene Endgeräte über Jahrzehnte hinweg stabil laufen zu lassen.

Aber in den letzten ein bis zwei Jahren wird diese Ordnung allmählich durchbrochen.

Die Veränderungen begannen nicht mit der "Angst um Rechenleistung". Im Gegensatz zur Welt der Server und Grafikprozessoren (GPU) streben MCUs nicht nach höheren TOPS-Werten (Trillion Operations Per Second) und müssen auch keine riesigen Modelle mit Milliarden von Parametern ausführen.

Tatsächlich kommt der eigentliche Druck von den Edge-Geräten, denen immer mehr Aufgaben zur "Umweltwahrnehmung und Entscheidungsfindung" übertragen werden: Sensor-Datenfusion, Anomalieerkennung, Bilderkennung, Sprachaufnahme und prädiktive Wartung. Diese Fähigkeiten erfordern keine Spitzenleistung, sondern stellen jedoch bisher unbekannte Anforderungen an die Echtzeitfähigkeit, die Stromverbrauchskontrolle und die Systemdeterministik.

Nach Ansicht der großen MCU-Hersteller wie Texas Instruments (TI), Infineon, NXP, STMicroelectronics (ST) und Renesas erlebt die Branche derzeit eine Revolution. Künstliche Intelligenz (KI) ist nicht mehr nur eine Software, die auf einem MCU läuft, sondern beginnt nun, die Architektur des MCUs selbst zu formen. Dies zeigt sich nicht nur in der Überleitung von der herkömmlichen 40-nm-Prozessierung zur 22-nm-, 16-nm-Technologie oder sogar noch fortschrittlicher, sondern auch in der Integration mehrerer Module, einschließlich eines neuronalen Prozessors (NPU), sowie in der zunehmenden Bedeutung neuer Speichertechnologien.

Damit hat die Entwicklung von MCUs einen neuen Verlauf genommen. Der Markt braucht nicht einfach nur "schnellere" MCUs, sondern neue Architekturen, die auf traditionellen Stärken aufbauen und nativ KI-Workloads unterstützen.

Warum einen NPU einbauen?

Vielleicht fragen sich viele: Warum werden nun auch in MCUs NPU-Module integriert?

Tatsächlich unterscheidet sich die Logik hinter der Integration von NPUs in MCUs grundlegend von der in Mobiltelefonen und Servern. Im Mobilbereich und in Datencentern zielt der Einsatz von NPUs auf höhere TOPS-Werte, schnellere Inferenzgeschwindigkeiten und die Unterstützung komplexerer Modelle. Im Bereich der eingebetteten Systeme hingegen dient der NPU vor allem dazu, die Stabilität des gesamten Systems sicherzustellen.

Die derzeitigen industriellen und automobilbezogenen Anwendungen basieren im Wesentlichen auf Echtzeit-Steuerungssystemen. Bei Anwendungen wie Motorensteuerung, Energieverwaltung und Fahrerassistenzsystemen (ADAS) muss das System innerhalb eines festgelegten Zeitfensters von wenigen Mikrosekunden bis Millisekunden reagieren. In einer herkömmlichen Architektur würde die gleichzeitige Ausführung von Steuerungs- und KI-Inferenzaufgaben durch die CPU zu einem fatalen Problem führen: Die KI-Inferenzaufgaben würden die Ressourcen der CPU beanspruchen, was zu Verzögerungen bei der Steuerungseingabe führen würde und die Zeitdeterministik des Systems zerstören würde.

Der Wert eines NPUs liegt in der "Rechenleistungstrennung". Er trennt die KI-Inferenzaufgaben von der Hauptsteuerungspfad, sodass die CPU sich auf deterministische Aufgaben konzentrieren kann, während die KI-Inferenz in einer separaten Hardware-Einheit ausgeführt wird. Dadurch wird ein zentrales Problem bei der eingebetteten KI gelöst: Es kann sowohl Intelligenz als auch Echtzeitfähigkeit gewährleistet werden.

Ein weiterer wichtiger Faktor bei eingebetteten Systemen ist der Stromverbrauch. Industrielle Internet der Dinge (IoT)-Geräte müssen oft jahrelang mit Batterien betrieben werden, und Automobilchips müssen in einem Temperaturbereich von -40°C bis 150°C funktionieren. Jede Schwankung des Stromverbrauchs kann dazu führen, dass das System überhitzt oder die Batterie vorzeitig leer wird. Ein spezieller NPU mit einem festen MAC-Array und einer Pulsations-Array-Architektur macht den Stromverbrauch vorhersagbar. In Edge-Szenarien wie Gesichtserkennung und Bildverarbeitung werden die Vorteile eines NPUs, wie einfache Entwicklung, hohe Effizienz und geringer Stromverbrauch, immer deutlicher.

Deshalb beobachten wir ein interessantes Phänomen: Alle NPU-Implementationen in MCUs sind relativ "bescheiden". Die Rechenleistung variiert von einigen zehn bis einigen hundert GOPS (Giga Operations Per Second), was weit hinter den TOPS-Werten von Mobil-NPUs und insbesondere den hunderte TOPS erreichenden Cloud-GPUs zurückbleibt.

Zurzeit verhält sich der eingebettete NPU eher wie ein "Stoßdämpfer" als wie ein "Motor" in der MCU-Architektur. Seine Aufgabe ist es, die Auswirkungen von KI-Workloads abzufangen und die Stabilität der Echtzeitsteuerung zu schützen, anstatt nach Spitzenleistungen zu streben. Eine zu hohe Rechenleistung würde einen größeren Chipflächenbedarf, einen höheren Stromverbrauch und eine komplexere Wärmeverwaltung erfordern – alles Dinge, die den Entwurfsprinzipien von eingebetteten Systemen widersprechen.

Wichtig ist auch, dass die Modellgröße von aktuellen Edge-KI-Anwendungen begrenzt ist. Die neuronalen Netzwerke, die auf einem MCU laufen, sind in der Regel stark optimierte, leichte Modelle mit einigen tausend bis einigen Millionen Parametern. Die Inferenz dauert nur wenige Millisekunden bis einige Zehnmillisekunden. Einige hundert GOPS Rechenleistung sind ausreichend, mehr wäre Verschwendung.

Zusammenfassend lässt sich sagen, dass der NPU in einem MCU nicht das Ergebnis eines Rechenleistungswettbewerbs ist, sondern eine notwendige Wahl bei der Neuarchitektur von eingebetteten Systemen in der Ära der KI. Sein Kernwert liegt nicht in den TOPS-Werten, sondern darin, dass KI und Echtzeitsteuerung harmonisch nebeneinander existieren können und dass ein optimales Gleichgewicht zwischen Deterministik, geringem Stromverbrauch und kleiner Chipfläche gefunden wird.

Wie sehen die großen MCU-Hersteller den NPU?

Es ist erwähnenswert, dass die großen Hersteller zwar in der Hauptlinie der NPU-Integration übereinstimmen, aber in der konkreten Umsetzung und Anwendung unterschiedliche Schwerpunkte setzen.

TI: Tiefgehende Integration von Echtzeitsteuerung und KI, Fokus auf industrielle und automobilbezogene Sicherheitsszenarien

TIs Strategie zielt darauf ab, die NPU-Fähigkeiten tief in seinen Stärkenbereich der Echtzeitsteuerung zu integrieren und eine integrierte Lösung von "Steuerung + KI" zu stärken, anstatt einfach nur nach höherer Rechenleistung zu streben. Diese Strategie passt perfekt zu den Anforderungen von Anwendungen wie industrieller Motorensteuerung und Automobilfehlererkennung, bei denen die Echtzeitfähigkeit und Zuverlässigkeit von höchster Wichtigkeit sind. In diesen Szenarien liegt der Wert der KI darin, die Erkennungsgenauigkeit und die Reaktionsgeschwindigkeit zu erhöhen, ohne die Kernsteuerungsaufgaben zu stören.

Im Bereich der Produkte hat TI die TMS320F28P55x-Serie entwickelt, das erste Echtzeit-Steuerungs-MCU mit integriertem NPU. Basierend auf dem klassischen 32-Bit-C28x-DSP-Kern mit einer Taktrate von 150 MHz bietet es eine Echtzeitsignalverarbeitungsleistung, die der eines 300-MHz-Arm-Cortex-M7 entspricht. Der integrierte NPU ist speziell für Faltungsneuronale Netzwerke (CNN) optimiert und trennt die KI-Inferenzaufgaben von der Haupt-CPU, um die Rechenleistung zu isolieren. Im Vergleich zur reinen Softwarelösung wird die Latenz um das 5- bis 10-fache reduziert, und die Genauigkeit der Fehlererkennung wird auf über 99 % erhöht. Beispielsweise kann der NPU in Anwendungen wie der Überwachung von Lichtbogenfehlern und der Diagnose von Motorenfehlern Strom- und Spannungsdaten in Echtzeit analysieren und Anomalien schnell erkennen, während die CPU sich auf die deterministischen Steuerungsaufgaben wie Motorenansteuerung und Energieverwaltung konzentriert. Beide arbeiten zusammen, um sicherzustellen, dass das System innerhalb eines Mikrosekunden-Zeitfensters reagiert.

Um die Entwicklung zu erleichtern, hat TI die Edge AI Studio-Toolchain entwickelt, die den gesamten Prozess von der Modelltraining, -optimierung bis zur -bereitstellung abdeckt. Selbst Ingenieure ohne viel KI-Erfahrung können so schnell intelligente Steuerungslösungen entwickeln. Darüber hinaus erfüllt diese Serie auch die funktionalen Sicherheitsstandards wie ISO 26262 und IEC 61508 und unterstützt bis zur ASIL D-Klasse, was es ideal für sicherheitskritische Anwendungen in der Automobil- und Industrieelektronik macht.

Infineon: Nutzung der Arm-Ekosystem, Aufbau einer universellen, energieeffizienten KI-MCU-Plattform

Infineon hat sich für einen "leichtgewichtigen" Ansatz entschieden, der auf der Arm-Architektur und der Zusammenarbeit im Ökosystem basiert. Die Strategie zielt darauf ab, die Einstiegshürde für die Entwicklung von Edge-KI-Anwendungen zu senken und schnell eine breite Palette von Anwendungen wie Konsum-IoT und industrielle Mensch-Maschine-Schnittstellen (HMI) abzudecken. Die Kernidee ist, dass durch die Wiederverwendung des bewährten Arm-Cortex-M-Kerns und des Ethos-U55-Mikro-NPUs die KI-Fähigkeiten schnell und energieeffizient umgesetzt werden können, während gleichzeitig die Migration der Kunden durch eine umfassende Toolchain erleichtert wird.

Im Bereich der Produkte hat Infineon die PSOC Edge E8x-Serie (E81, E83, E84) entwickelt, die eine graduelle Skalierung bietet. Das Basis-Modell E81 verwendet einen Cortex-M33-Kern und einen selbst entwickelten NNLite-Ultra-Energieeffizienten-Akelerator, um einfache KI-Anwendungen wie einfache Sprach- und Gestenerkennung zu unterstützen. Die höherwertigen Modelle E83 und E84 verwenden einen Cortex-M55-Kern und einen Arm-Ethos-U55-NPU und unterstützen die Arm-Helium-DSP-Befehle. Die maschinelle Lernleistung ist im Vergleich zu herkömmlichen Cortex-M-Systemen um das 480-fache erhöht. Der Arm-Ethos-U55 ist ein speziell für eingebettete Systeme entwickelter Mikro-NPU, der bei einem Milliwatts-Stromverbrauch eine KI-Beschleunigung bietet und somit perfekt für die langfristige Batteriebetrieb von IoT-Geräten geeignet ist.

Die Aufbau des Ökosystems ist eine Kernkompetenz von Infineon. Die Serie ist vollständig kompatibel mit der ModusToolbox-Softwareentwicklungspaltform und integriert das Imagimob Studio-Edge-KI-Entwicklungstool. Es bietet eine End-to-End-Unterstützung von der Datenerfassung über das Modelltraining bis zur Bereitstellung und enthält auch eine Vielzahl von vorgespeicherten Modellen und Einsteigerprojekten, um die Kunden bei der schnellen Einarbeitung zu unterstützen. Die Anwendungsbereiche umfassen intelligente Haushalts-Sicherheitssysteme, industrielle Roboter-HMI und tragbare Geräte. Die Modelle E83 und E84 können komplexere KI-Aufgaben wie Gesichts- und Objekterkennung sowie visuelle Positionsbestimmung unterstützen. Das E84-Modell bietet auch eine neue Funktion für energieeffiziente Grafikdarstellung, um die Anwendungsmöglichkeiten in der Hochleistungs-HMI zu erweitern.

NXP: Eigenentwickelter NPU und Software-Ekosystem, Fokus auf flexible Edge-KI-Bereitstellung

NXPs Strategie zeichnet sich durch eine "erweiterbare Hardware und eine vollständige Software-Stack" aus. Durch den selbst entwickelten eIQ Neutron NPU-Kern und das einheitliche eIQ KI-Software-Toolset wird eine flexible und leistungsstarke Edge-KI-Lösung entwickelt. Das Ziel ist es, die Anforderungen von Anwendungen wie industriellen Robotern und intelligenten Autos an die Unterstützung verschiedener neuronaler Netzwerke zu erfüllen, während gleichzeitig die Echtzeitfähigkeit des Systems bei geringem Stromverbrauch gewährleistet wird.

Im Bereich der Hardware hat NXP einen erweiterbaren NPU-Architektur entwickelt, der die Rechenleistung je nach Anwendungsbedarf flexibel anpassen kann. Er unterstützt verschiedene neuronale Netzwerke wie CNN, RNN und Transformer und eignet sich für alle Arten von Anwendungen, von einfacher Sprachaufnahme bis hin zu komplexer Bildklassifizierung. Der NPU ist tief in die MCU- und MPU-Produkte integriert und trennt die KI-Inferenz von den Kernsteuerungsaufgaben durch eine heterogene Architektur von "CPU + NPU + DSP". Beispielsweise kann in einem industriellen Roboter der NPU die Daten von visuellen Sensoren in Echtzeit verarbeiten, um die Pfadplanung durchzuführen, während die CPU sich auf die Motoransteuerung und die Bewegungskontrolle konzentriert. Beide arbeiten zusammen, um die Reaktionsgeschwindigkeit des Systems zu erhöhen.

Das Software-Ekosystem ist die Kernstütze von NXP. Das eIQ KI-Software-Toolset bietet eine einheitliche Entwicklungs-Schnittstelle und unterstützt gängige maschinelle Lernplattformen wie TensorFlow Lite und PyTorch. Es ermöglicht eine lokale Verarbeitung von "eigenen Modellen" und "eigenen Daten", was die Netzwerklatenz und die Bandbreitenabhängigkeit reduziert und die Datensicherheit und Privatsphäre erhöht. Darüber hinaus bietet NXP eine umfangreiche Bibliothek von vorgespeicherten Modellen und Anwendungsbeispielen (wie Objekterkennung, Handschrifterkennung und LLM-Bereitstellung) und bietet über das GoPoint-Anwendungscode-Zentrum detaillierte Anleitungen, um die Entwicklungsprozesse der Kunden zu beschleunigen.

ST: Eigenentwickelter NPU zur Überwindung der Leistungsschranken, Fokus auf Hochleistungs-Edge-Sicht-Szenarien

STs Strategie basiert auf einem "selbst entwickelten NPU und einem Hochleistungs-Kern" und zielt auf Anwendungen wie industrielle Bildverarbeitung und hochwertige Konsumelektronik ab, bei denen eine höhere KI-Rechenleistung erforderlich ist. Durch den selbst entwickelten Neural-ART Accelerator NPU wird die KI-Leistung eines herkömmlichen MCUs bei gleichzeitiger Gewährleistung der Echtzeitfähigkeit erhöht. Die Kernidee ist, dass komplexe Edge-KI-Aufgaben wie Computer-Vision eine stärkere spezialisierte Rechenleistung erfordern, aber der Stromverbrauch und die Chipfläche weiterhin streng kontrolliert werden müssen, um nicht den Entwurfsprinzipien von eingebetteten Systemen zu widersprechen.

Im Bereich der Produkte hat ST die STM32N6-Serie entwickelt, das erste MCU mit integriertem selbst entwickelten NPU. Basierend auf einem 800-MHz-Arm-Cortex-M55-Kern und der Einführung der Arm-Helium-Vektorverarbeitungstechnologie bietet es eine KI-Rechenleistung von bis zu 600 GOPS. Obwohl dies weit hinter den Werten von Mobil-NPUs zurückbleibt, ist es ausreichend, um komplexe Aufgaben wie Hochauflösungs-Bildverarbeitung und die parallele Ausführung mehrerer Modelle zu unterstützen. Zur Anpassung an visuelle Anwendungen hat die Serie auch einen MIPI CSI-2-Schnittstelle, eine Bildsignalverarbeitungs-Pipeline und einen H264-Hardware-Encoder integriert, um eine vollständ