Ist ein spezifischer Chip für Roboter eine falsche These? Song Jiqiang von Intel: Kleinere Markt, derzeit schwierige Gewinnerzielung

Um aus "Genie-Jugendlichen" "zuverlässige Handwerker" zu machen, muss die Embodied AI drei Hürden nehmen.

Nach Ansicht von Song Jiqiang, Vizepräsident des Intel Labs, muss die Embodied AI (eingebettete Künstliche Intelligenz) die Hürde der "Zuverlässigkeit" nehmen, bevor sie in Fabriken und Haushalte Einzug halten kann. Die Lösung besteht darin, Robotern drei Systeme zu installieren.

Am 20. Januar gab Song Jiqiang, Vizepräsident des Intel Labs und Direktor des Intel China Research Centers, Interviews für Medien, darunter Phoenix Network.

"Heutige Embodied-AI-Roboter sind wie 'begabte Kinder': Sie zeigen in idealen Zuständen beeindruckende Leistungen, geraten aber bei Unvorhergesehenem schnell in Verlegenheit." So beschrieb Song Jiqiang die derzeitigen gemeinsamen Herausforderungen der Branche.

Auf dem Bildschirm hinter ihm war ein Blockschaltbild eines dreistufigen Systems zu sehen - das ist genau das "Dreifachsystem" von Intel, um den oben genannten Herausforderungen zu begegnen.

Mit der wachsenden Einwirkung der großen Sprachmodelle wie ChatGPT auf die physische Welt ist die Embodied AI zum nächsten Schwerpunkt des globalen Technologiekonkurrenzkampfes geworden. Von Teslas Optimus bis hin zu Xiaopengs Iron erhalten Roboter bisher unbekannte Fähigkeiten zum Verstehen und Entscheidungsfinden.

Dennoch liegt zwischen den Demo-Videos und der Realität eine Kluft der "Zuverlässigkeit". Song Jiqiang wies darauf hin, dass die Genauigkeit der Bewegungsgenerierung von derzeitigen Robotern auf Basis von visuellen Sprachmodellen (VLA) "etwa bei 60 bis 70 Prozent" liegt. Probleme wie Halluzinationen, schlechte Anpassungsfähigkeit an die Umgebung und schwache Fähigkeiten bei der Planung langfristiger Aufgaben sind noch nicht gelöst.

"Wenn wir wollen, dass sich die Embodied AI in etwa drei Jahren wirklich umsetzen lässt, ohne dass es aufgrund von Sicherheitsproblemen zu schwerwiegenden Unfällen kommt, müssen wir frühzeitig ein entsprechendes Rahmenwerk aufbauen und die Branche zu einem Konsens bringen." sagte Song Jiqiang.

Systemarchitektur: Dreifache Sicherheit für Roboter

Nach Song Jiqiangs Erläuterung sollte ein vertrauenswürdiges Embodied-AI-System aus drei Ebenen bestehen: dem Primärsystem (Primary System), dem Sicherheitssystem (Safety System) und dem Rückfallsystem (Fallback System).

Das Primärsystem trägt die "Intelligenz" des Roboters und ist für die Entscheidungsfindung, Planung und Generierung von Aktionen verantwortlich. Die von Intel befürwortete Methode des "neurosymbolischen KI" ist der Kern davon, die Generalisierungsfähigkeit des neuronalen Netzwerks mit der Zuverlässigkeit und Interpretierbarkeit der symbolischen Logik zu verbinden.

"Sie nutzt die Generalisierungsfähigkeit des neuronalen Netzwerks, um zu vermeiden, dass der Roboter auf einzelne Szenarien und Lösungen beschränkt ist, und integriert auch traditionelle Methoden auf Basis von Symbolen, Regeln und Wissen." erklärte Song Jiqiang. Dies entspricht einer "Anhebung der Mindestleistung" des Roboters, um sicherzustellen, dass er keine katastrophalen Folgen durch Halluzinationen oder andere Probleme verursacht.

Die reale Welt ist aber voller Überraschungen. Aktorfehler, Sensorfehler, unbekannte Hindernisse, rutschige Böden - all dies liegt außerhalb der kognitiven Grenzen des Primärsystems. Deshalb ist ein tieferes Sicherheitsnetz erforderlich.

Das Sicherheitssystem ist eine leichte und hochzuverlässige Überwachungsebene, die ständig den Ausführungszustand des Roboters mit vordefinierten Sicherheitsregeln (z. B. "Keine Kollision mit Menschen", "Bei der Handhabung spitzer Gegenstände Sicherheitsabstand halten") vergleicht. Sobald eine Abweichung festgestellt wird, wird eine Warnung ausgelöst oder es erfolgt eine Intervention.

Wenn auch das Sicherheitssystem nicht in der Lage ist, das Problem zu lösen, zum Beispiel wenn der Roboter umfallen wird, wird das Rückfallsystem aktiviert. Sein Ziel ist nicht, den Roboter "plötzlich anzuhalten", sondern ihn in einen zuverlässigen Degradationszustand zu führen.

"Beispielsweise kann der Roboter wie ein Auto langsam an die Seite fahren. Wenn er umfallen wird, kann er einen menschenleeren Bereich auswählen und durch das Blockieren einiger Gelenke langsam fallen." sagte Song Jiqiang.

Dieser "PMDF"-Rahmen (Embodied-AI-Hauptsteuerungssystem, Überwachungssystem, Sicherheitsentscheidung und Fehlerbehandlung und -wiederherstellung) wurde in die "Whitepaper über das intelligente Sicherheitssubsystem von Embodied-Robotern" aufgenommen, die Intel gemeinsam mit mehreren Partnern veröffentlicht hat. Song Jiqiang gab bekannt, dass die Veröffentlichung gut aufgenommen wurde und viele Einrichtungen aus der Wissenschaft und der Industrie an der Weiterentwicklung interessiert seien.

Spezialchips noch nicht da, Intel setzt auf "traditionelle Stärken"

Als das Gespräch auf die Hardware wechselte, stellte Phoenix Network die Frage: Wird es in der Zukunft spezielle Chips für den Roboterbereich geben? Welche Chancen hat Intel angesichts der Tendenz von Automobilherstellern wie Tesla und Xiaopeng, eigene Chips zu entwickeln?

Song Jiqiangs Antwort war ehrlich und realistisch. Er gab an, dass der aktuelle Markt für Roboter noch zu klein sei, um spezielle Chips wirtschaftlich vertretbar zu machen. "Der Kerngrund liegt darin, dass der Robotermarkt derzeit noch sehr klein ist. Für Chiphersteller ist es schwierig, mit der Herstellung von speziell für Roboter angepassten Chips Gewinne zu erzielen."

Derzeit nutzen die meisten Unternehmen in der Branche bewährte Chips aus den Bereichen Mobiltelefone, Autos und PCs und passen sie an. Ein tieferliegender Grund ist, dass die "Workloads" von Robotern noch nicht festgelegt sind. "Wir können nicht sagen, ob der Chip für die Workloads von VLA optimiert oder für die zukünftigen Workloads von Weltmodellen ausgelegt werden soll."

In dieser Situation ist ein allgemeiner Chip eine sicherere Wahl. Song Jiqiang schätzt, dass erst wenn die Branche standardisierte Workloads entwickelt hat, spezielle Chips (ASIC) erscheinen werden. Die Entwicklungszeit könnte 10 bis 18 Monate betragen.

Wo liegen also die Chancen für Intel? Song Jiqiang wies auf Intels bisher oft übersehene Stellung als "unsichtbarer Weltmeister" im Bereich der industriellen Steuerung hin.

"Im Bereich der traditionellen industriellen Automatisierung hat Intel eine 'absolute Dominanz'... In der hochpräzisen und hochfrequenten Bewegungskontrolle in industriellen Szenarien werden die meisten industriellen Steuerungsprodukte und -platinen auf Basis von Intels CPU entwickelt."

Er nannte drei Stärken: Erstens die technologische Übertragung, bei der Erfahrungen aus der industriellen Bewegungskontrolle auf die Bewegungskontrollschicht von Robotern übertragen werden. Zweitens die Optimierung der Ressourcenverwaltung, um sicherzustellen, dass auf Millisekunden genau ablaufende Aufgaben wie die Bewegungskontrolle nicht durch andere Aufgaben gestört werden. Drittens die Fähigkeit zur Integration mehrerer Systeme, um eine isolierte Überwachung und eine schnelle Sicherheitsreaktion zu ermöglichen.

Für die derzeit heiß umjubelten Chips wie Core Ultra mit integrierter KI-Leistung hält Song Jiqiang sie für eine "stabile Hardwarebasis". Wenn die Rechenleistung nicht ausreicht, kann eine zusätzliche KI-Rechenleistungskarte installiert werden. Er geht davon aus, dass das zukünftige Standardmodell der "Roboter-Endgerät + Edge-Server" sein wird. Unter der Voraussetzung geringer Latenzzeiten werden die großen Modelle am Edge platziert, um einen heterogenen Rechenressourcenpool über das Netzwerk zu bilden.

Reale Hindernisse: Dateninseln, VLA-Halluzinationen und Kostensenke

Trotz eines klaren Plans ist der Weg zur zuverlässigen Embodied AI steinig. Bei der Beantwortung mehrerer Fragen skizzierte Song Jiqiang die derzeit wichtigsten Hindernisse.

An erster Stelle steht die Leistungsgrenze von VLA (visuelles Sprachmodell). Song Jiqiang sagte direkt, dass die Genauigkeit von derzeitigen VLA-Modellen nur bei 60 bis 70 Prozent liegt, dass es deutliche Halluzinationsprobleme gibt und dass sie empfindlich auf visuelle Umweltveränderungen reagieren und eine schwache Generalisierungsfähigkeit haben. "Es versteht nicht wirklich die Essenz des Szenarios und hat keine Fähigkeit, die dreidimensionale Beziehung und die kausale Beziehung zwischen Objekten im Szenario zu erkennen."

Das ist auch der Grund, warum die Branche sich auf "Weltmodelle" konzentriert - um ihnen das Verständnis von physikalischen Gesetzen und kausalen Beziehungen hinzuzufügen. Aber auch die Weltmodelle selbst haben Herausforderungen bei der Integration in reale Szenarien.

Eine tiefere und grundlegendere Herausforderung kommt von den Daten. Song Jiqiang wies darauf hin, dass die Datenprobleme der Kernschmerzpunkt der Branche seien. Die Embodied AI benötigt drei Arten von Daten: Szenarioverständnis, Aufgabenplanung und Roboterhauptkörper. Derzeit gibt es jedoch ein gravierendes Problem der "Dateninseln".

"Die Datenanforderungen in verschiedenen Branchen, bei verschiedenen Robotertypen und verschiedenen Aufgabenarten variieren stark." Er nannte vier Schwierigkeiten bei der Etablierung eines einheitlichen Datensatzstandards: Die Definition der Datenvollständigkeit ist unklar (z. B. ob taktile Daten erforderlich sind), es gibt keine einheitlichen Anforderungen an die Bedienpräzision und -frequenz, es gibt kein anerkanntes Optimum für den Roboterhauptkörper und die Perspektive der Datenerfassung ist nicht festgelegt.

"Deshalb befindet sich die Branche derzeit noch in der Phase der eigenständigen Erkundung und wird kurzfristig im Zustand der 'Vielfalt' bleiben."

Das letzte Hindernis ist die Massenproduktion und die Kosten. Song Jiqiang warnte: Die meisten Roboter auf den Messeböden sind derzeit 'handgefertigte Prototypen', deren Bauteile nicht den Standards für Automobile oder Industrieanlagen entsprechen und daher eine schlechte Übereinstimmung aufweisen. "Die Reduzierung der Gesamtkosten von Robotern hängt auch von der Teilnahme großer Unternehmen ab."

Er führte Tesla als Beispiel an und wies darauf hin, dass eines der Hauptgründe für die positive Einschätzung der Branche die starke Massenproduktionsfähigkeit von Tesla sei. Erst wenn die Hardwarekosten durch industrielle Massenproduktion gesenkt werden können und die KI-Fähigkeiten ausreichen, können Roboter in breitere kommerzielle und sogar private Anwendungen gelangen.

Nächste drei Jahre: Vom "genialen Showstar" zum "zuverlässigen Handwerker"

Angesichts so vieler Herausforderungen, wie sieht denn der Zeitplan für die Umsetzung der Embodied AI aus? Song Jiqiang gab eine vorsichtige Prognose.

"Es wird noch etwa zwei bis drei Jahre dauern, bis diese Fähigkeiten zu einer zuverlässigen Lösung integriert werden können und die Genauigkeit von VLA von derzeitigen 60 bis 70 Prozent auf über 99 Prozent für industrielle Anwendungen gesteigert werden kann."

Er skizzierte einen klaren Implementierungsweg:

Kurzfristig (1 - 2 Jahre) wird es in halbstrukturierten Szenarien wie der Logistik-Sortierung, der Fabrikförderung und der Montage von Standardteilen zu einer kleinen Skaleneinführung kommen. In diesen Szenarien sind die Arbeitskosten hoch und die Umwelt relativ kontrollierbar, so dass die anfänglich hohen Kosten der Roboter toleriert werden können.

Mittelfristig (etwa 3 Jahre) wird sich der Anwendungsumfang in diesen Szenarien erweitern, wenn die Zuverlässigkeit der KI-Fähigkeiten steigt und die Branche ein Konsens über das Sicherheitsrahmenwerk erreicht hat.

Langfristig hängt es von den Durchbrüchen bei der Massenproduktionskonsistenz und der Kostenkontrolle ab. Es bedarf der Beteiligung von großen Automobilherstellern und anderen Unternehmen mit industrieller Produktionsfähigkeit.

"Dieser Entwicklungspfad entspricht der Gesetzmäßigkeit der Gartner-Growth-Curve." fasste Song Jiqiang zusammen. Zuerst zieht die technologische Erwartung Investitionen an und verbessert die Fähigkeiten schnell. Dann werden die Probleme bei der Implementierung gelöst und die Kommerzialisierung in frühen Szenarien validiert. Schließlich treten die großen Unternehmen ein, um die Skalierung voranzutreiben.

Am Ende des Interviews betonte Song Jiqiang wiederholt die scheinbar widersprüchlichen Schlüsselwörter "Integration" und "Entkopplung".

Integration bedeutet die Integration neuer und alter Technologien - die Verbindung von modernen KI-Modellen mit bewährten traditionellen Steuerungstechniken und Sicherheitstechnik. Entkopplung bedeutet die Entkopplung von Hardware und Software auf der Leistungsebene - so können die oberen Wahrnehmungs- und Planungsmodule an verschiedene Roboterhauptkörper angepasst werden, um die Entwicklungskosten zu senken.

"Die Entwicklung der Embodied AI hängt nicht von einem einzigen technologischen Durchbruch ab, sondern von der Überlagerung und Integration neuer und alter Technologien." sagte Song Jiqiang. Eine unzureichend getestete neue Technologie kann nicht direkt für kritische Aufgaben eingesetzt werden. Erst in Kombination mit bewährten Technologien kann eine vollständige und zuverlässige Lösung entstehen.

Vielleicht ist dies genau Intels einzigartige Position in diesem Embodied-AI-Wettlauf: Kein radikaler Revolutionär, sondern ein zuverlässiger Integrator. Mit seinen jahrzehntelangen "versteckten Kenntnissen" aus der Industrie gibt es dem rasant voranschreitenden "begabten KI-Jungen" ein durch die physische Welt geprägtes "Kleinhirn" und "Reflexark".

Wenn Roboter den beleuchteten Podest verlassen und in die laute, chaotische und unvorhersehbare reale Welt treten, wird ihr Wert nicht mehr von ihren beeindruckendsten Momenten bestimmt, sondern von ihrer Mindestleistung, wenn es nicht zu Fehlern kommen darf. Und das ist der Anfang eines langen Projekts der "Zuverlässigkeit".

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Ist ein spezifischer Chip für Roboter eine falsche These? Song Jiqiang von Intel: Der Markt ist zu klein, und es ist derzeit schwierig, Gewinne zu erzielen.

Systemarchitektur: Dreifache Sicherheit für Roboter

Spezialchips noch nicht da, Intel setzt auf "traditionelle Stärken"

Reale Hindernisse: Dateninseln, VLA-Halluzinationen und Kostensenke

Nächste drei Jahre: Vom "genialen Showstar" zum "zuverlässigen Handwerker"