Zhang Yiming und Jensen Huang sind auf die gleiche Idee gekommen.
Embodied Intelligence ist heutzutage zu einer der beliebtesten Branchen geworden. Die chinesische Branchenführerin Unitree Technology ist dabei, ihre Börsengänge in vollen Zügen voranzutreiben, während die amerikanischen und chinesischen Technologiegiganten tief unter der Oberfläche umfassende Pläne schmieden.
Im März dieses Jahres demonstrierte Huang Renxun, CEO von NVIDIA, bei der GTC 2025 Keynote-Präsentation den humanoiden Roboter NEO Gamma des norwegischen Robotikunternehmens 1X. Dieser Roboter nutzt eine auf dem NVIDIA GR00T N1-Modell basierende Nachtrainingstrategie und führt autonom Organisationsaufgaben aus.
Huang Renxun versuchte damit zu beweisen, dass die Zukunft der humanoiden Roboter in Anpassungsfähigkeit und Lernfähigkeit liegt. Mit anderen Worten, ob ein Roboter gut funktioniert, hängt davon ab, ob sein „Gehirn“ die Umgebung anpassen und neue Kenntnisse lernen kann.
Huang Renxuns Worte erfüllten sich schnell. Einige Monate später präsentierten die globalen Technologiegiganten neue Ergebnisse auf dem Gebiet des „Robotergehirns“.
Im August stellte NVIDIA Jetson AGX Thor vor, eine Edge-Computing-Plattform, die mehrere generative KI-Modelle auf einem Roboter gleichzeitig ausführen kann. Sie wird von der Branche als das „neue Robotergehirn“ anerkannt.
Jetson AGX Thor (im Folgenden Thor) ist ein neues Technologiestapel für Roboter und physische Geräte. Dieses neue „Robotergehirn“ basiert auf der Blackwell GPU-Architektur und erreicht eine Spitzenrechenleistung von 2070 FP4 TFLOPS. Die KI-Leistung ist im Vergleich zum vorhandenen Jetson AGX Orin-Modul um bis zu 7,5 Mal höher, während die Energieeffizienz um 3,5 Mal verbessert ist.
Der größte Durchbruch von Thor besteht darin, dass er es Robotern, die in der Vergangenheit auf die Cloudverarbeitung oder mehrere Chips angewiesen waren, ermöglicht, Echtzeiterkennung und -entscheidung auf einem einzigen kompakten Modul zu realisieren.
Derzeit haben frühzeitige Benutzer wie Amazon Lagerroboter und Boston Dynamics begonnen, Thor in ihre Produkte zu integrieren, um intelligente und unabhängige Roboterprodukte zu entwickeln.
Auf der anderen Seite der Welt stellte ByteDance im Juli und September nacheinander die selbst entwickelten allgemeinen Robotermodelle GR-3 und Robix vor, die die Fähigkeit zur Ausführung komplexer Aufgaben in realen Haushaltsumgebungen demonstrierten.
Ende Juli veröffentlichte das ByteDance Seed-Team ein Demonstrationsvideo, in dem ein Roboter mit dem neuesten Roboter-VLA-Ergebnis von ByteDance, GR-3, ausgestattet war. Im Video absolvierte es die Aufgabe, einen Kleiderbügel in ein Hemd zu stecken und es aufzuhängen.
Letzte Woche präsentierte Seed sein neuestes Roboterresearchergebnis – Robix. Zusammen mit GR-3 bildet es die neue Robotermodellmatrix von ByteDance.
Es ist erst seit sechs Monaten, dass Huang Renxun bei der GTC 2025 seine Eindrücke äußerte. Die „Synchronicität“ der beiden Giganten auf dem Roboter-Sektor gibt den Eindruck, dass Huang Renxun und Zhang Yiming diesmal auf die gleiche Seite gekommen sind.
A
Bevor Thor auf den Markt kam, war NVIDIA bereits der Anführer auf dem Roboter-Sektor.
Die NVIDIA Jetson-Plattform dominiert den Bereich der Entwicklung von High-End-Robotern und autonomen Maschinen. Ihr Ökosystem umfasst über zwei Millionen Entwickler, und über 7.000 Unternehmen nutzen die Produkte der vorherigen Generation, die Orin-Serie.
Im August dieses Jahres gab NVIDIA bekannt, dass Thor offiziell zum Verkauf angeboten wird. Rein von der Hardwareleistung und Reife her ist es in der Klasse der ähnlichen Produkte fast unschlagbar.
Derzeit sind die Edge-AI-Produkte (Edge AI, Künstliche Intelligenz, die lokal auf dem Gerät ausgeführt wird) von Wettbewerbern wie Intel und Qualcomm relativ rückständig und können noch nicht die gleiche Integrationsrechnung auf einem einzigen Modul erreichen.
Wichtiger noch ist, dass NVIDIA die Hardware eng mit dem Softwarestapel verknüpft und dank der breiten Anwendung des CUDA-Toolkits einen Ökosystemschutzwall errichtet hat.
Thor kann direkt die vollständige NVIDIA Isaac-Robotersoftwareplattform, die KI-Modellbibliothek und die Simulationswerkzeuge aufrufen, um eine end-to-end-Tiefeintegration zu erreichen. Dazu gehört auch das neueste Modell von NVIDIA für Roboterszenarien – Isaac GR00T N1, ein quelloffenes, vortrainiertes und anpassbares Basismodell.
GR00T N1 nutzt eine von der menschlichen Kognition inspirierte Zwei-System-Architektur. Ein System ist das „schnelle Denk- und Handlungsmodell“, das sich ähnlich wie die Reaktionen und Intuitionen des Menschen verhält; das andere System ist das „langsame Denkmodell“, das die Umgebung und die empfangenen Anweisungen ableiten und so Handlungen planen kann.
Bei der GTC 2025 sagte Bernt Børnich, CEO von 1X: „Während wir an unserem autonomen Modell arbeiteten, hat das NVIDIA GR00T N1 die Inferenzfähigkeit und Fähigkeiten des Roboters erheblich verbessert. Wir haben NEO Gamma vollständig einsetzen können, indem wir nur sehr wenig Nachtrainingsdaten verwendet haben.“
Allerdings ist Thor nicht fehlerfrei.
Zunächst einmal ist der Preis. Der Entwickler-Kit von Jetson AGX Thor kostet 3.499 US-Dollar und ist daher für normale Haushaltsprodukte kaum eine Option.
Darüber hinaus hat die Thor-Plattform höhere Leistungsanforderungen, was bedeutet, dass die damit kompatiblen Produkte eine stabile Stromversorgung benötigen, wie z. B. selbstfahrende Autos, Fabrikroboter und Lieferroboter.
B
Auf dem Gebiet des „Robotergehirns“ hat NVIDIA bald einen chinesischen Wettbewerber bekommen.
Ende Juli veröffentlichte ByteDance das neue Roboter-VLA-Modell GR-3. In der offiziellen Demonstration führte der mit GR-3 ausgestattete Roboter ByteMini die Aufgabe aus, einen Kleiderbügel in ein Hemd zu stecken und es aufzuhängen, und absolvierte auch anspruchsvolle „Quests“ wie das Aufnehmen von Haushaltswaren und das Platzieren an einem bestimmten Ort.
Darüber hinaus kann ByteMini Gegenstände unterschiedlicher Größen unterscheiden und hat erfolgreich die Anweisung ausgeführt, den „größeren Teller“ aufzunehmen.
Beim Zerlegen des Demonstrationsprozesses und des Technologieberichts kann man feststellen, dass GR-3 komplexe und abstrakte Sprache verstehen kann, wie z. B. „größerer Teller“ oder „Stuhl links“.
Darüber hinaus hat GR-3 eine starke Fähigkeit zur Anpassung an wenige Beispiele. Laut ausländischen Berichten nutzt Seed eine gemischte Methode für das Training: Zunächst werden GR-3 eine große Menge an Bild- und Textdaten eingegeben, anschließend wird es mithilfe der Mensch-Maschine-Interaktion in einer virtuellen Realität umgebung feinjustiert; schließlich lernt es und imitiert die Bewegungen von Robotern in der realen Welt. Diese Trainingsstrategie gibt GR-3 die Fähigkeit, sich in komplexen und unvorhersehbaren Umgebungen anzupassen.
Es ist bekannt, dass GR-3 im Vergleich zur GR00T-Serie eine größere Parameteranzahl hat und in der praktischen Anwendung besser abschneidet.
Chris Paxton, ein KI-Wissenschaftler, der früher bei Meta arbeitete, enthüllte in einer Studie über VLA im Bereich der Robotik, dass das 4 Milliarden Parameter umfassende GR-3-Modell von ByteDance besser abschneidet als das NVIDIA GR00T, das etwa 2 Milliarden Parameter hat. Man kann vernünftigerweise vermuten, dass das „Scaling Law“ noch gilt, wenn genügend Daten und Rechenleistung zur Verfügung stehen.
GR-3 hat ByteDance einen Platz auf dem Gebiet des „Robotergehirns“ verschafft. Allerdings werden VLA-Modelle hauptsächlich auf der Ausführungsebene eingesetzt. Im Vergleich zur Definition eines „Gehirns“ ist GR-3 eher wie ein „Neuron“ der Roboterarme.
Das neueste Ergebnis des ByteDance Seed-Teams füllt eine weitere Lücke im „Robotergehirn“.
Letzte Woche veröffentlichte das Seed-Team das neueste Ergebnis Robix, das in einem Robotersystem Aufgaben wie Aufgabenplanung, Inferenz und natürliche Sprachinteraktion übernimmt.
Der Seed-Forscher Dong Heng beschrieb Robix auf seiner persönlichen Homepage wie folgt: „Dies ist ein einheitliches Robotergehirn, das Inferenz, Planung und natürliche Interaktion vereint und besser abschneidet als GPT-4o und Gemini 2.5 Pro.“
Allerdings ist Robix noch nicht das vollendete „Robotergehirn“.
Nach der Technologie-Dokumentation von Robix wird der Teil „Körperbewegung/Ausführung“ normalerweise von einem unteren Controller-Modell, also dem entsprechenden VLA-Modell wie GR-3 oder einem ähnlichen Controller, ausgeführt. Mit anderen Worten, GR-3 und Robix müssen in der Szene des Robotermanagements zusammenarbeiten.
Die Arbeitslogik von Robix hat Ähnlichkeiten mit dem Zwei-System-Modell von NVIDIA GR00T N1, wobei ein System für die Inferenz und das andere für die Ausführung zuständig ist.
Bei den offiziellen Tests absolvierte Robix, das mit GR-3 als Controller ausgestattet war, über den Roboter ByteMini die Aufgaben des Tischaufräumens, des Einpackens beim Kassenbereich und des Getränkeauswahles; im Vergleich zu anderen Modellen lag es nur bei der Getränkeauswahlprojekt etwas hinter Gemini 2.5 Pro zurück und erreichte in allen anderen Projekten die höchsten Punktzahlen.
C
Robix und GR-3 sind nicht das erste Mal, dass ByteDance auf dem Gebiet der Roboter-VLM „Muskel“ zeigt. Viele sehen ByteDance als ein Internet-Inhaltsunternehmen, aber auf dem Gebiet der Robotik ist es eigentlich ein stiller „Invisible Giant“.
Im Dezember 2023 stellte das Seed-Team GR-1 vor, das auch ein vorausschauendes Experiment des Seed-Teams auf dem Gebiet der Roboter-VLA war. Als technologisches Validierungsprodukt nutzte GR-1 ein Modell, bei dem zunächst eine generative Vorhersage mit großen Videodaten vorgenommen wird und dann eine Feinjustierung mit Roboterdaten durchgeführt wird.
Basierend auf der technologischen Akkumulation von GR-1 stellte das Seed-Team 2024 GR-2 vor. GR-2 nutzte 38 Millionen Videosequenzen und über 50 Milliarden Token als Basis für das Vorhersage-Training und dann eine Feinjustierung der Bewegung/Videogenerierung mit Robotertrajektorien. Es erreichte in über 100 Manipulationstests eine durchschnittliche Erfolgsrate von 97,7%.
GR-3 und Robix sind der neueste Schritt in der Erweiterung des Forschungsbereichs von ByteDance in der Ära der großen Modelle.
Der Artikel von „LatePost“ im Jahr 2023 enthüllte, dass die Roboterexploration von ByteDance im Jahr 2020 begann. Damals zeigte Zhang Yiming Interesse an Robotern und nahm danach regelmäßig an den Diskussionen über die Robotikprojekte teil.
Nach zwei Jahren hat ByteDance still und leise über 1.000 Roboter in Serie produziert. Diese rollenden Logistikroboter werden hauptsächlich eingesetzt, um Pakete und Teile in Lagerhäusern und Produktionslinien zu transportieren. Sie konzentrieren sich auf eine integrierte Lösung für „Lagerung + automatischer Transport“ und können selbständig lernen, Routen planen und sich an das Zielort bewegen, um für seine eigenen TikTok-E-Commerce-Lager sowie externe Kunden wie SF Express und BYD zu dienen.
Allerdings sind diese Logistikroboter eher eine frühe technologische Akkumulation. Aus dem technologischen Entwicklungspfad von Robix, GR-3 und ByteMini ist es leicht zu erkennen, dass ByteDance bemüht ist, in der Branche der Embodied Intelligence führend zu sein.
In letzter Zeit sind auf der Stellenbörse von ByteDance eine Reihe von Stellenangeboten im Bereich der Robotik erschienen, wobei einige Stellenangebote explizit von „nächster Generation von allgemeinen Robotern“ sprechen. Alle Stellenangebote gehören dem Seed-Team und sind in Peking und Shanghai basiert. Der South China Morning Post berichtete im Juli, dass das Seed-Team in diesem Jahr auf über 300 Mitarbeiter anwachsen soll.
Andererseits investiert ByteDance auch aktiv in die Robotikbranche.
Zuvor absolvierte Unitree Technology, ein führendes Unternehmen in der chinesischen Embodied Intelligence, eine Serie C-Finanzierung und erreichte einen Unternehmenswert von über einer Milliarde Yuan. In der Liste der Investoren dieser Finanzierungsrunde finden sich neben den Namen von Alibaba und Tencent auch die Jinqiu-Fonds, der eng mit ByteDance verbunden ist.
Der Jinqiu-Fonds wurde 2022 von Yang Jie, dem ehemaligen Leiter der finanziellen Investitionen von ByteDance, gegründet. Die Kernmitglieder des Teams stammen hauptsächlich aus dem Investitionssystem von ByteDance. Sein Name „Jinqiu“ stammt von der Gründungsposition von Zhang Yiming und ByteDance – Jinqiu-Haus in der Haidian-Bezirk von Peking.
D
ByteDance beschleunigt seine Pläne im Bereich der Robotik sowohl innerhalb als auch außerhalb des Unternehmens. Allerdings liegt die technologische Akkumulation von ByteDance derzeit hauptsächlich auf der Ebene des „Robotergehirns“ auf der Modellseite; während das neueste Chip-Lösung von NVIDIA scheint mit ByteDance komplementäre Stärken zu haben.
Seit vielen Jahren ist ByteDance einer der wichtigsten Kunden von NVIDIA in China, und Huang Renxun weiß auch sehr gut, wie wichtig die chinesischen Unternehmen auf dem Markt der Embodied Intelligence sind.
Im Juli dieses Jahres war er auf der Eröffnungsveranstaltung der China International Supply Chain Expo in Peking und sagte in seiner Rede: „Die nächste Welle der KI wird die Robotik sein. Zukünftige Roboter können nicht nur inferieren und handeln, sondern auch die physische Welt wirklich verstehen.“
Für Huang Renxun hat der chinesische Markt auf diesem Weg eine unverzichtbare Bedeutung.
Das offizielle Blog von NVIDIA zeigt, dass mehrere chinesische Unternehmen bereits Thor nutzen, darunter United Imaging Healthcare, Wanji Technology, Ubtech Robotics, Galaxy Universal, Unitree Technology, Zhongqing Robotics und Zhiyuan Robotics