StartseiteArtikel

Qualcomm hat eine Veranstaltung organisiert, und Wang Xingxing von Unitree hat eine Menge unverblümte Wahrheiten gesagt.

量子位2025-09-27 09:30
Eingehend über Agent + Endgeräte diskutieren.

Wang Xingxing hat auf der von Qualcomm organisierten Veranstaltung alles offenbart.

Derzeit gibt es verschiedene technische Ansätze im Bereich der Robotik. Dies führt zwar zu einem lebhaften Anschein, aber dennoch sind die Fortschritte nicht so deutlich.

Da die derzeit entwickelten Modelle noch nicht direkt eingesetzt werden können, wäre es besser, sie zu veröffentlichen, ähnlich wie OpenAI die GPT - 1/2 Open - Source gemacht hat.

Das kürzlich von Unitree veröffentlichte Weltmodell kann auch nicht direkt in der Fabrik eingesetzt werden.

Derzeit ignorieren sowohl Roboter - als auch Chiphersteller die Wichtigkeit von Chips für Roboter.

Handy - Chips und ähnliche Chips haben großes Potenzial für die Anwendung in Robotern.

Hou Jilei spricht mit Wang Xingxing

Alle Endgeräte bekommen durch KI und Agenten neue Perspektiven. Da es sich um ein neues Feld handelt, ist die Embodied Intelligence das am stärksten betroffene Gebiet. Aber auch wegen seiner Neuheit gibt es viele Streitigkeiten und Herausforderungen in diesem Bereich.

Unitree Technology, ein langjähriger Star in der Branche, zeigt jetzt viele Probleme in der Branche offen.

Vielleicht liegt es daran, dass die von Qualcomm organisierte Veranstaltung so selten ist. Der Snapdragon Summit China 2025 hat die wichtigsten Spieler aus dem Bereich der Endgeräte aus China und dem Ausland zusammengebracht und deckt die gesamte Wertschöpfungskette ab. Die auf dieser Veranstaltung offen diskutierten Probleme werden vielleicht bald zu den heißesten Themen in der Branche werden und damit schneller gelöst werden können.

Und nicht nur Wang Xingxing, sondern auch Spieler aus den Bereichen Hardware, Modell und Betriebssystem haben sich frei geäußert:

Gou Xiaofei, Vizepräsident von Li Auto und Leiter der Entwicklung des intelligenten Fahrgastinnenraums

Li Dahai, CEO von Mianbi Intelligence

Geng Zengqiang, Mitbegründer und Vorstandsvorsitzender von Thundersoft

Hou Jilei spricht mit Praktikern

Hou Jilei, Leiter der globalen KI - Forschung von Qualcomm, hat mit ihnen gesprochen.

Um die Überlegungen und Verständnisse der Experten vollständig wiederzugeben, haben wir das Gespräch unverändert zusammengefasst. Wir hoffen, dass Sie etwas daraus lernen können.

Rechenleistung, Wärmeableitung und Kommunikation: Letztendlich sollten Roboter mehr auf Chips achten

Die ultimative Vision für die Implementierung von Agenten in Endgeräten ist vielleicht die Embodied Intelligence.

Wang Xingxing, Gründer, CEO und CTO von Unitree Technology, sagt, dass ihr Ziel ist, eine universelle KI auf universellen Robotern einzusetzen, um verschiedene Aufgaben zu erledigen, sei es in der Fabrik oder zu Hause.

Der "ChatGPT - Moment" für Roboter kommt, wenn sie in unbekannten Umgebungen Aufgaben auf der Grundlage von natürlichen Sprachbefehlen erledigen können.

Er hat dieses Ziel in mehrere Phasen aufgeteilt:

1. Vorführung von festen Bewegungen → bereits erreicht (z. B. Tanz, Kampfsport). 2. Echtzeitgenerierung beliebiger Bewegungen → voraussichtlich bis Ende dieses Jahres/beginn nächsten Jahres erreichbar. 3. Ausführung von Aufgaben in unbekannten Szenarien → voraussichtlich Ende nächsten Jahres möglich (z. B. Wasser holen, Tisch aufräumen). 4. Hohe Erfolgsquote und feine Manipulation → noch einige Jahre erforderlich, Ziel ist eine Erfolgsquote von fast 99,9 %, um feine Aufgaben wie das Montieren und Demontieren von Handys zu erledigen.

Schematische Darstellung

Wenn Roboter diese Aufgaben erledigen können, ist ein sehr wichtiges Problem die Echtzeitverstehen und Verarbeitung von der physischen Umgebung und natürlichen Sprachbefehlen. Dies erfordert höhere Kommunikationsfähigkeiten der Edge - KI.

Wang Xingxing sagt, dass Kommunikation sehr wichtig ist.

Derzeit denke ich, dass viele Roboterhersteller und Chiphersteller die Wichtigkeit von Chips für Roboter etwas unterschätzen.

Ähnlich wie bei Elektromobilen hat sich in den letzten zehn Jahren das größte Veränderung in der Automobilindustrie mit der Einführung neuer Kommunikationsprotokolle ergeben: Die Anzahl der Kabel hat stark abgenommen. Früher war die Anzahl der Kabel in einem Benzinwagen unglaublich hoch, vielleicht wogen die Kabel in einem Auto sogar 100 kg.

Im Bereich der Robotik ist es das Gleiche. Ein Kommunikationskabel besteht aus 4 oder 5 Leitungen, und man setzt manchmal viel Zeit und Energie ein, um die Anzahl der Kabel zu reduzieren. Denn für einen Roboter ist es wichtig, die Anzahl der Kabel zu reduzieren, um die Leistung und Zuverlässigkeit zu verbessern. Bis jetzt ist der häufigste Ausfallgrund von Industrierobotern ein Kabeldefekt, was möglicherweise 60 - 70 % aller Ausfälle ausmacht.

Für einen Roboter ist das größte Problem bei der Reduzierung der Kabelanzahl die Verbesserung des gesamten Kommunikationsprotokolls und die Verbesserung der Kommunikationsqualität.

Ich glaube, dass die ultimative Vision für Roboter in Zukunft ist, dass jeder Arm nur ein einziges Kabel hat. Es ist noch viel Arbeit zu tun, um dieses Ziel zu erreichen, aber es lohnt sich.

Darüber hinaus hat Wang Xingxing das Problem erwähnt, dass es schwierig ist, große Rechenleistung in Endgeräten zu implementieren.

Der Roboter hat nur begrenzt Platz, und oftmals passen leistungsstarke Chips nicht hinein. Gleichzeitig sind Batteriekapazität und Wärmeableitung für einen so großen Roboter schwierig zu lösen.

Schematische Darstellung

Er glaubt, dass die Spitzenleistung von der in der Embodied Intelligence eingesetzten Rechenleistung in Zukunft am besten unter 100 W bleibt, und die durchschnittliche Leistung etwa 20 - 30 W beträgt, was etwa der Leistung einiger Handys entspricht.

Zu hohe Leistung ist nicht gut. Ich denke, dass Handy - Chips und ähnliche Chips großes Potenzial für die Anwendung in Robotern haben.

Derzeit befinden wir uns noch in der Dunkelheit vor dem Morgen. Die Zeit vor dem Aufbruch ist immer schwierig. Das größte Problem ist, dass die technischen Ansätze in der Branche sehr unterschiedlich sind, was dazu führt, dass das Gebiet zwar lebhaft ist, aber die Fortschritte nicht so schnell sind.

Wenn man jetzt eine universelle KI - Modell für die Embodied Intelligence entwickeln möchte, sollte man in diesem Stadium eine offene Haltung einnehmen. Da die von uns entwickelten Modelle noch nicht direkt eingesetzt werden können, wäre es besser, sie zu veröffentlichen.

Vor kurzem hat Unitree ein auf Video generiertes Weltmodell veröffentlicht. Nicht nur die Gewichtsparameter, sondern auch das Modell selbst, die Datensätze, der Trainingscode und der Implementierungscode sind Open - Source.

Unitree veröffentlicht ein Modell

Wang Xingxing sagt, dass dieses Modell nicht direkt in der Fabrik oder im Alltag eingesetzt werden kann, also ist es besser, es zu veröffentlichen. Ähnlich wie OpenAI in den frühen Jahren, als der kommerzielle Wert der großen Modelle noch weit entfernt war und GPT - 1 und GPT - 2 Open - Source waren.

Wir hoffen, dass mehr Open - Source - Projekte die Branche gemeinsam voranbringen können.

Was die Diskussion zwischen VLA - Modellen und Weltmodellen angeht, ist es schwierig, es genau zu erklären. Weil selbst die VLA - Modelle und Weltmodelle sehr viele Varianten haben. Unsere Firma wird eine offene Haltung einnehmen und verschiedene Modelle ausprobieren, einschließlich eigener Entwicklung und Zusammenarbeit mit Drittanbietern.

Ich persönlich denke, dass man in der KI - Branche bescheiden sein sollte. Es gibt immer cleverere und offener gedachte Leute, die bessere Dinge entwickeln. Wir sollten uns bescheiden bleiben und lernen.

Manchmal denke ich, dass man viele Dinge aus der Vergangenheit vergessen sollte, um nicht von der Vergangenheit in seiner Logik eingeschränkt zu werden.

Unser Ziel ist es, dass Roboter tatsächlich in Haushalten und Fabriken eingesetzt werden. Ich denke, dass möglicherweise Anpassungen an Chips, Kommunikationsprotokollen, Rechenleistung, Kommunikationsarchitektur und sogar der gesamten drahtlosen Kommunikationsarchitektur erforderlich sind.

Darunter auch die Sicherheitsprobleme. Da immer mehr Roboter verkauft werden, hacken manche Hacker unsere Roboter, was uns sehr Kopfzerbrechen bereitet.

Bevor der Bereich der Robotik noch nicht so reif ist, können wir von anderen Bereichen wie Handys und Elektromobilen lernen, um ein strengeres System, Datenaufzeichnung und Modelltraining aufzubauen.

Da dieses Gebiet noch sehr neu ist, treffen wir ständig auf neue Herausforderungen und Probleme, die keine einzelne Firma lösen kann. Wir hoffen, dass mehr Leute sich beteiligen, um diese Probleme zu lösen. Beispielsweise hat das von uns verwendete Linux - System noch viele Sicherheitslücken. Es dauert viel Zeit, diese Lücken zu beheben. Wenn eine Drittanbieterfirma diese Probleme lösen kann, sind wir gerne bereit, mit ihr zusammenzuarbeiten. Dies ist ein sehr wertvolles Vorhaben.

Das Edge - Modell wird der wichtigste Orchestrator im Agenten - System sein

Agenten sind im Grunde eine Anwendungsform von großen Modellen. Derzeit ist die Form der Agenten eher Cloud - centriert, aber mit dem Trend zur Implementierung wird die Zusammenarbeit zwischen Edge und Cloud unvermeidlich sein.

Li Dahai, CEO von Mianbi Intelligence meint, dass die Zusammenarbeit zwischen Edge und Cloud bereits ein Konsens in der Branche ist, da sie ein besseres Benutzererlebnis bietet. Die Cloud kann im Vergleich zum Edge nahezu unbegrenzte Rechenleistung und Ressourcen bieten und sich um komplexe Probleme kümmern. Das Edge - Gerät ist näher am Benutzer, es erfordert eine schnelle Reaktionszeit und schützt die Privatsphäre der Benutzer.

Das Edge - Gerät hat einen sehr wichtigen Vorteil, nämlich "immer online". Es kann die Welt kontinuierlich wahrnehmen, auf der Grundlage der Geräteprivatsphäre einen Kontext verstehen und mit verschiedenen Agenten in der Cloud zusammenarbeiten, um komplexe Aufgaben zu erledigen.

Betrachtet man konkrete Endgeräte, beispielsweise im Autoinnenraum, sollte es ein starkes Edge - Modell geben, das die Benutzeranforderungen versteht und mit dem Cloud - Modell kommuniziert.

Nehmen wir ein einfaches Beispiel: Wenn das Edge - Modell im Autoinnenraum erkennt, dass ein Kind im hinteren Sitzplatz weint, kann es ein starkes Sprachinteraktionsmodell in der Cloud aktivieren und fragen, ob man zusammen plaudern möchte oder ob man das Kind mit einer Geschichte beruhigen kann. Dieser Aktivierungsprozess muss jedoch durch das Edge - Gerät entschieden werden, anstatt dass die Cloud ständig ein Modell hat, das beobachtet, was im Autoinnenraum passiert. Dies würde die Privatsphäre stark gefährden.

Schematische Darstellung

Ich denke, dass das Edge - Modell in Endgeräten in Zukunft der wichtigste Orchestrator im gesamten Agenten - System sein wird.

Was sind die zukünftigen Anforderungen der KI - Branche an das Edge - Modell?

Li Dahai meint, dass man immer die Wissensdichte des Edge - Modells verbessern sollte.

Da das Edge - Modell auf verschiedenen Hardwaregeräten installiert wird und mit verschiedenen Benutzern in verschiedenen Szenarien interagiert, muss es über eine gute Fähigkeit zum Selbstlernen verfügen, insbesondere die Fähigkeit, sich auf der Grundlage von neuem Wissen zu entwickeln und sich zu personalisieren. Daher ist es sehr wichtig, die Wissensdichte des Edge - Modells zu verbessern. Mianbi Intelligence hat die Idee aufgestellt, die Wissensdichte alle drei Monate zu verdoppeln. Im Gegensatz dazu wird das Cloud - Modell eher auf die Verbesserung der Intelligenz fokussieren. Der Unterschied zwischen den beiden ist sehr groß.

Während des Selbstentwicklungsprozesses des Modells sollte es auch engere Zusammenarbeit mit Chips, Endgeräten und Systemen geben.

Li Dahai hat erwähnt, dass eine enge Zusammenarbeit sehr wichtig ist.

Als Edge - Modell - Firma haben wir eine sehr enge Zusammenarbeit mit Chipherstellern wie Qualcomm. Nur durch eine solche enge Zusammenarbeit können wir die Wissensdichte des Edge - Modells wirklich nutzen und die gleiche Arbeit mit weniger Energie verbrauchen.

Darüber hinaus meint er, dass die derzeitige Art der Zusammenarbeit zwischen Agenten (MCP) nicht ausreicht. Es müssen mehr sichere und benutzerauthentifizierte Zusammenarbeitstechniken entwickelt werden.