Google's Open-Source Stack Platform Coral NPU: Ermöglicht das 24/7-Laufen großer Modelle auf einer Uhr

Um die drei zentralen Herausforderungen von Edge-AI - Leistung, Fragmentierung und Datenschutz - zu lösen, hat Synaptics bereits pioneerisch eingesetzt.

Heute hat Google es ziemlich voll zu tun.

Einerseits hat das Team in Zusammenarbeit mit der Yale University basierend auf Gemma das Cell2Sentence-Scale 27B (C2S-Scale) entwickelt und erstmals eine neue potenzielle Krebstherapie vorhergesagt, was weite Aufmerksamkeit weltweit erregt hat. Andererseits hat Google Veo 3.1 aktualisiert und online gestellt, das den Nutzern eine erheblich verbesserte Videogenerierungsfähigkeit bietet. Siehe auch den Bericht "Gerade jetzt hat Google Veo 3.1 eine bedeutende Aktualisierung erhalten und sich direkt mit Sora 2 messen lassen".

Darüber hinaus hat Google das Coral NPU vorgestellt, das zur Entwicklung von KI-Systemen eingesetzt werden kann, die auf niedrigleistungsfähigen Geräten kontinuierlich laufen. Genauer gesagt kann es kleine Transformer-Modelle und große Sprachmodelle (LLM) auf tragbaren Geräten ausführen und unterstützt TensorFlow, JAX und PyTorch über die Compiler IREE und TFLM.

Wie bei den beiden anderen Neuigkeiten hat auch dies bei den Entwicklern rege Diskussionen ausgelöst.

Coral NPU: Eine Full-Stack-Open-Source-KI-Plattform für Edge-Geräte

Google hat Coral NPU als "eine Full-Stack-Open-Source-Plattform" positioniert, die darauf abzielt, die drei zentralen Herausforderungen von Leistung, Fragmentierung und Datenschutz zu bewältigen. Diese Herausforderungen beschränken die Anwendung von leistungsstarken, ständig aktiven KI-Technologien auf niedrigleistungsfähigen Edge-Geräten und tragbaren Geräten.

Das bedeutet, dass wir mit Coral NPU in Zukunft KI-Systeme entwickeln können, die lokal und kontinuierlich auf Smartwatches und anderen Geräten laufen, und die Intelligenz direkt in die persönliche Umgebung der Nutzer integrieren können.

Allerdings ist dies keine leichte Aufgabe. Google hat drei Hauptherausforderungen identifiziert:

Leistungslücke: Komplexe und fortschrittliche maschinelle Lernmodelle erfordern mehr Rechenleistung, als die begrenzten Leistung, Wärmeableitung und Speicherkapazität von Edge-Geräten bieten können.

Fragmentierungskosten: Das Kompilieren und Optimieren von maschinellen Lernmodellen für verschiedene proprietäre Prozessoren ist schwierig und kostspielig, was die Konsistenz der Leistung über verschiedene Geräte hinweg behindert.

Mangel an Nutzervertrauen: Um effektiv zu sein, muss persönliche KI die Privatsphäre und Sicherheit persönlicher Daten und Kontexte priorisieren.

Das von Google heute vorgestellte Coral NPU basiert auf dem ursprünglichen Coral-Projekt und "bietet Hardware-Designern und maschinellen Lernentwicklern die Werkzeuge, die sie benötigen, um die nächste Generation von privaten, effizienten Edge-KI-Geräten zu entwickeln".

Genauer gesagt ist Coral NPU das Ergebnis einer Zusammenarbeit zwischen Google Research und Google DeepMind. Es ist eine KI-optimierte Hardwarearchitektur, die die nächste Generation von Edge-KI mit ultraniedriger Leistung und ständiger Aktivität unterstützt.

Es bietet eine einheitliche Entwicklererfahrung und erleichtert die Bereitstellung von Anwendungen wie Umgebungsbewusstsein. Es ist speziell für die ständige KI-Aktivität auf tragbaren Geräten konzipiert, minimiert den Batterieverbrauch und kann für anspruchsvolle Anwendungen konfiguriert werden.

Google hat die entsprechenden Dokumentationen und Werkzeuge veröffentlicht, damit Entwickler und Designer sofort mit der Entwicklung beginnen können.

Projekt-Website: https://developers.google.com/coral

Code-Repository: https://github.com/google-coral/coralnpu

Technische Details

Wie der Name schon sagt, verwendet Coral NPU eine NPU (Neural Processing Unit)-Architektur, die die Bausteine für die nächste Generation von energieeffizienten, auf maschinelles Lernen optimierte Systeme auf einem Chip (SoC) bietet.

Diese Architektur basiert auf einer Reihe von IP-Modulen, die der RISC-V-Befehlssatzarchitektur (RISC-V ISA) entsprechen und auf minimale Leistung ausgelegt sind. Dies macht sie ideal für ständig aktive Umgebungsbewusstseinssysteme.

Die Grundarchitektur kann mit nur wenigen Milliwatt Leistung eine Leistung von 512 GOPS (Milliarden Operationen pro Sekunde) bieten, was leistungsstarke Edge-KI-Fähigkeiten für Edge-Geräte, Ohrengeräte, AR-Brillen und Smartwatches ermöglicht.

Eine einheitliche Ansicht des Coral NPU-Ekosystems, die den End-to-End-Technologiestack für SoC-Designer und maschinelle Lernentwickler zeigt.

Diese offene und erweiterbare RISC-V-basierte Architektur bietet SoC-Designern die Flexibilität, die Grundarchitektur anzupassen oder sie als vorkonfiguriertes NPU zu verwenden.

Die Coral NPU-Architektur besteht aus folgenden Komponenten:

Ein Skalar-Kern (scalar core): Ein leichtgewichtiger, in C programmierbarer RISC-V-Front-End, das den Datenfluss zu den Back-End-Kernen verwaltet. Es verwendet ein einfaches "Run-to-Completion"-Modell, um ultraniedrige Leistung und traditionelle CPU-Funktionen zu erreichen.

Eine Vektorausführungseinheit (vector execution unit): Ein leistungsstarker Single-Instruction-Multiple-Data (SIMD)-Koprocessor, der der RISC-V-Vektor-Befehlssatz (RVV) v1.0-Spezifikation entspricht und synchrone Operationen auf großen Datensätzen ausführen kann.

Eine Matrixausführungseinheit (matrix execution unit): Ein effizienter quantisierter äußerer Produkt-Multiplikationsakkumulations (MAC)-Motor, der speziell für die Beschleunigung der grundlegenden Operationen von neuronalen Netzen entwickelt wurde. Beachten Sie, dass diese Matrixausführungseinheit noch in der Entwicklung ist und später in diesem Jahr auf GitHub veröffentlicht wird.

Eine schematische Darstellung des Übergangs von der traditionellen Architektur zur Coral NPU-Architektur.

Einheitliche Entwicklererfahrung

Die Coral NPU-Architektur ist eine einfache, in C programmierbare Zielplattform, die nahtlos mit modernen Compilern wie IREE und TFLM integriert werden kann. Dies ermöglicht es, maschinelle Lernframeworks wie TensorFlow, JAX und PyTorch problemlos zu unterstützen.

Coral NPU umfasst eine umfassende Software-Toolchain, die spezielle Lösungen wie den TFLM-Compiler für TensorFlow sowie einen allgemeinen MLIR-Compiler, einen C-Compiler, benutzerdefinierte Kernel und einen Simulator enthält. Dies bietet Entwicklern flexible Möglichkeiten.

Beispielsweise wird ein Modell aus einem Framework wie JAX zunächst in das MLIR-Format importiert, indem die StableHLO-Dialekt verwendet wird. Diese Zwischendatei wird dann an den IREE-Compiler übergeben, der ein hardware-spezifisches Plugin verwendet, um die Coral NPU-Architektur zu erkennen. Anschließend führt der Compiler eine schrittweise Optimierung durch - ein entscheidender Optimierungsschritt, bei dem der Code durch eine Reihe von Dialekten systematisch übersetzt wird, um sich der maschinenspezifischen Sprache näher zu kommen. Nach der Optimierung erzeugt die Toolchain eine endgültige, kompakte Binärdatei, die effizient auf Edge-Geräten ausgeführt werden kann.

Die folgende Tabelle zeigt die Vorteile der Softwareentwicklung mit Coral NPU:

Diese branchenüblichen Entwicklerwerkzeuge helfen, die Programmierung von maschinellen Lernmodellen zu vereinfachen und bieten eine einheitliche Erfahrung auf verschiedenen Hardwarezielen.

Die Coral NPU-Compiler-Toolchain, die den gesamten Prozess von der Erstellung, Optimierung und Kompilierung von maschinellen Lernmodellen bis zur Bereitstellung auf Geräten zeigt.

Der gemeinsame Designprozess von Coral NPU konzentriert sich auf zwei Schlüsselbereiche.

Erstens kann die Architektur die führenden, auf Encoder basierenden Architekturen in heutigen Geräte-basierten Bild- und Audioanwendungen effizient beschleunigen.
Zweitens arbeitet Google eng mit dem Gemma-Team zusammen, um Coral NPU für kleine Transformer-Modelle zu optimieren, um sicherzustellen, dass diese Beschleunigerarchitektur die nächste Generation von Edge-generativen KI unterstützen kann.

Diese doppelte Ausrichtung bedeutet, dass Coral NPU möglicherweise der erste offene, standardbasierte, niedrigleistungsfähige NPU sein wird, der speziell für die Einführung von großen Sprachmodellen (LLM) auf tragbaren Geräten entwickelt wurde.

Für Entwickler bietet dies einen einzigen, bewährten Weg, um aktuelle und zukünftige Modelle mit minimalem Energieverbrauch und maximaler Leistung bereitzustellen.

Zielanwendungen

Coral NPU zielt darauf ab, ultraniedrigleistungsfähige, ständig aktive Edge-KI-Anwendungen zu unterstützen, insbesondere Umgebungsbewusstseinssysteme. Sein Hauptziel ist es, eine rund um die Uhr aktive KI-Erfahrung auf tragbaren Geräten, Mobiltelefonen und Internet der Dinge (IoT)-Geräten zu ermöglichen, während der Batterieverbrauch minimiert wird.

Mögliche Anwendungsfälle umfassen:

Kontextbewusstsein: Das Erkennen von Nutzeraktivitäten (z. B. Gehen, Laufen), Entfernungen oder Umgebungen (z. B. Innenraum/Außenraum, in Bewegung) zur Aktivierung des "Störungsfreien Modus" oder anderer kontextabhängiger Funktionen.
Audioverarbeitung: Spracherkennung, Stimm- und Geräuschdetektion, Schlüsselworterkennung, Echtzeitübersetzung, Transkription und audiobasierte Barrierefreiheitsfunktionen.
Bildverarbeitung: Personen- und Objekterkennung, Gesichtserkennung, Gestenerkennung und energieeffiziente Bildsuche.
Nutzerinteraktion: Die Steuerung von Geräten über Gesten, Audiohinweise oder andere sensorbasierte Eingaben.

Hardware-basierter Datenschutz

Ein Kernprinzip von Coral NPU ist es, das Vertrauen der Nutzer durch hardware-basierte Sicherheit zu gewinnen.

Google hat erklärt: "Unsere Architektur wird entwickelt, um aufkommende Technologien wie CHERI zu unterstützen, die eine feingranulare Speichersicherheit und erweiterbare Softwarepartitionierung bieten. Wir hoffen, dass wir auf diese Weise sensible KI-Modelle und persönliche Daten in einem hardware-basierten Sandbox isolieren können, um vor speicherbasierten Angriffen zu schützen."

Entwicklung eines Ökosystems

Der Erfolg von Open-Source-Hardwareprojekten hängt von starken Partnerschaften ab.

Deshalb hat Google eine Partnerschaft mit Synaptics angekündigt, das als "der erste strategische Chip-Partner" fungiert und ein führender Anbieter von eingebetteten Rechenlösungen, drahtlosen Verbindungen und multimodalen Sensoren im IoT-Bereich ist.

Heute hat Synaptics auf seiner Technology Day die neue Astra SL2610-Serie von AI-native IoT-Prozessoren angekündigt. Diese Produktlinie verwendet das Torq NPU-Subsystem, das die erste Serienproduktion der Coral NPU-Architektur auf dem Markt ist. Dieses NPU ist so konzipiert, dass es Transformer-Modelle unterstützt und dynamische Operatoren ermöglicht, was es Entwicklern ermöglicht, zukunftssichere Edge-KI-Systeme für den Verbraucher- und Industrie-IoT-Bereich zu entwickeln.