Eine Gruppe von Post-2000 Geeks verbrachte 72 Stunden zusammen mit dieser Robotikfirma.
Am 29. März 2026, um 17 Uhr, als wir den vierten Stock des Shenzhen Institute of Science and Technology erreichten, hatten die 20 Teams von Teilnehmern der "Ersten Globalen Konferenz für Embodied Intelligence-Entwickler" bereits 60 Stunden lang hier entwickelt.
Die Luft war mit dem Geruch von Kaffee und Klimaanlage erfüllt. Überall lagen ungenommene Milchteebecher und Obstscheiben herum. Im Gang und in den Ecken standen Zelte, in denen einige Teilnehmer schliefen. "Wir haben bis 4 Uhr morgens gearbeitet", sagte einer.
Foto aufgenommen von Intelligence Emergence
Im Gegensatz zu Hackathons für die Entwicklung von Anwendungen oder Software gab es bei dieser Konferenz für Embodied Intelligence-Entwickler nahezu hundert leistungsstarke Sechsachsenroboter zu sehen. Im Hintergrund standen außerdem Rechenkapazitäten von über 100 PFLOPs zur Verfügung, sowie Open-Source-Basis-Modelle wie WALL-OSS, Pi0.5 und NVIDIA DreamZero.
Foto von der offiziellen Seite zur Verfügung gestellt
"Ich habe noch nie an einem so gut ausgestatteten Wettbewerb teilgenommen!", sagte "Tongji Zihao Xiong", ein Youtuber mit 330.000 Abonnenten, nachdem er die Unterstützungen des Veranstalters gesehen hatte.
Die Teilnehmer waren fast ausnahmslos aus der Generation der 00er. Ein Team namens "MVP" führte an diesem Tag vorläufig an. Der Teamleiter war ein mehrfacher Unternehmer mit reichlicher Wettbewerbserfahrung. Er sagte, er hätte selbst eine NVIDIA GeForce RTX 5090 GPU und mehrere Roboterarme mitgebracht. Die anderen beiden Teammitglieder kamen von der Shenzhen University und der Hong Kong University of Science and Technology.
Die Teilnehmer mussten in drei Tagen durch Datensammlung und Algorithmusanpassung die Roboterarme so trainieren, dass sie möglichst viele einzelne Aufgaben erfolgreich ausführen konnten, wie z. B. Erdbeeren und Äpfel in verschiedene Körbe packen, nach der Objekterkennung Buchstabensteine zu dem englischen Namen des Objekts zusammenstellen oder eine Type-C-Kabel in einen Steckplatz einführen.
"Wir waren zuerst besorgt, dass der Name 'Erste Globale Konferenz' zu übertrieben sei. Aber dann haben wir festgestellt, dass es weder in China noch im Ausland jemals einen Wettbewerb von dieser Größe gegeben hat", sagte Wang Qian, Gründer und CEO von Independent Variable Robotics, in seiner Rede am Finale-Tag.
In 72 Stunden mussten die Teilnehmer die Roboterarme trainieren, die Umgebung zu erkennen, Entscheidungen zu treffen und zu handeln. Das war eine große Herausforderung. Wang Qian sagte selbst: "Es ist wirklich schwierig, damit anzufangen." Aber er fügte hinzu, dass die kurze Zeitspanne die Teilnehmer antreiben würde.
Wang Qian, Gründer von Independent Variable Robotics
Zurück zur Realität
Bei der Embodied Intelligence gibt es derzeit ein Problem: "Fälschung".
Viele Roboter, die in Fabriken Schrauben anziehen oder in Einzelhandelsgeschäften Waren abholen und bezahlen, werden in einer voreingestellten Umgebung gefilmt. Sobald die Umgebung oder die Beleuchtung geändert wird, wissen die Roboter nicht, was sie tun sollen.
Die Wettbewerbe in der Branche sind auch "nicht real" genug. Wang Hao, CTO von Independent Variable, sagte gegenüber "Intelligence Emergence", dass einige Wettbewerbe eine reine Simulationsumgebung bieten, die zwar die Variablen kontrollieren kann und den Teilnehmern das Einstieg erleichtert, aber weit von der realen Welt entfernt ist. Andere Wettbewerbe geben den Teilnehmern nur Daten, und alle Bewertungsprozesse werden vom Veranstalter durchgeführt.
"Wir erlauben es den Teilnehmern, Daten zu sammeln und die Hardware und die Umgebungsbedingungen zu ändern, damit sie die Generalisierbarkeit der Modelle besser verstehen", sagte Wang Hao.
Bei diesem Wettbewerb gibt es zwei Tabellen: A und B. Die Teilnehmer müssen sich aus vier Aufgaben - Ringwerfen (Greifen), Obst nach Anweisung sortieren (Sprachverstehen), Stromkabel einführen (feine Manipulation), Wörter schreiben (langfristige Entscheidungsfindung) - für eine Aufgabe entscheiden und sich darauf konzentrieren.
Der Unterschied zwischen der Tabelle A und B besteht darin, dass in der Tabelle A die Teilnehmer die Aufgabe in einer voreingestellten Umgebung ausführen können, während in der Tabelle B die Aufgabe in einer zufälligen Umgebung gelöst werden muss.
Zum Beispiel kann in der Tabelle A der Teilnehmer den Ring links neben den Stab legen und den Roboterarm immer an derselben Stelle den Ring greifen lassen. In der Tabelle B wird der Prüfer den Ring zufällig an eine beliebige Stelle legen und die Beleuchtung und die Farbe des Tischs ändern, um zu sehen, ob der Roboter die Aufgabe unter zufälligen Bedingungen lösen kann.
Das heißt, die Tabelle A ist wie eine offene Klausur, die die Fähigkeit der Teilnehmer, dieselbe Aufgabe zu wiederholen und die Stabilität ihrer Modelle, misst. Die Tabelle B ist dagegen wie eine schwarze Kiste, die die Generalisierbarkeit der Modelle der Teilnehmer testet.
Die Einrichtung der Tabellen A und B soll die Teilnehmer auch dazu bringen, sich der Realität zu nähern und nicht nur darauf zu achten, die Rangliste zu verbessern, indem sie nur wenige Daten verwenden, um bestimmte Szenarien zu optimieren, und die Generalisierbarkeit des Modells zu vernachlässigen.
"Dieser Wettbewerb möchte die Teilnehmer nicht im simulierten und virtuellen Raum bleiben lassen, sondern sie dazu bringen, die Komplexität der realen Welt zu erleben", sagte Gan Ruyi, Algorithmen-Partner von Independent Variable.
Zurück in die Realität
Bei diesem Embodied Intelligence-Entwicklerwettbewerb haben die Teilnehmer mit realen Maschinen gearbeitet, Daten in einer realen Umgebung gesammelt und Feedback von Modellen in realen Szenarien erhalten. Die Embodied Intelligence ist so wieder zur Realität zurückgekehrt.
Der nächste Schritt ist, die Intelligenz der Roboter in die reale Welt zu bringen.
Der Entwickler-Hackathon repräsentiert die Vorstellungskraft von Technologie-Enthusiasten. Aber Technologie muss erst in die Praxis umgesetzt werden, um Wert zu haben.
Bei den vier Kategorien dieses Wettbewerbs testet das Ringwerfen die Greiffähigkeit, das Sortieren von Obst nach Anweisung das Sprachverstehen, das Einführen des Stromkabels die feine Manipulation von flexiblen Objekten und das Schreiben von Wörtern die langfristige Entscheidungsfindung. Diese Fähigkeiten sind für die Realisierung von Robotern in Fabriken und Haushalten unerlässlich.
Foto von der offiziellen Seite zur Verfügung gestellt
Vor der Durchführung dieses Wettbewerbs hat Independent Variable auch angekündigt, zusammen mit 58 Daojia eine intelligente Reinigungsdienstleistung in Shenzhen zu starten und den ersten globalen Reinigungsroboter in Dienst zu stellen.
"Der Haushalt ist der Heilige Gral der Embodied Intelligence. Er repräsentiert die weiteste und offenste Umgebung und Aufgabe. Wenn man die Haushaltsaufgaben lösen kann, bedeutet das, dass das Modell vollständig generalisierbar ist", sagte Wang Hao.
Es muss zugeben werden, dass es noch nicht realistisch ist, dass Roboter vollständig die menschlichen Reinigungsarbeiten übernehmen. In der Demonstrationsaufzeichnung von Independent Variable und 58 Daojia kann der Roboter nur grundlegende Aktionen wie das Aufräumen von Gegenständen und das Reinigen des Tischs ausführen. Komplexe Aktionen wie das Einpacken von Bettwäsche müssen noch in Zusammenarbeit mit Menschen durchgeführt werden.
Sollte man warten, bis das Modell ausreichend reif ist, bevor man Roboter in Haushalte einführt? Wang Hao stimmt dieser Meinung nicht zu.
"Nur wenn man von Anfang an mit den komplexesten und offensten Szenarien konfrontiert wird, kann man die Intelligenz des Modells auf ein Niveau bringen, dass es verschiedene Szenarien lösen kann", sagte Wang Hao. "Egal, wann man anfängt, je früher desto besser."
Die Strategie von Independent Variable ist bei dem Entwicklerwettbewerb und der Realisierung von Robotern ziemlich konsistent.
Die Embodied Intelligence ist ein komplexes Systemprojekt. Es gibt in der Branche keine absolute Einigkeit über Daten, Algorithmen, Modellwerkzeuge und Trainingsmethoden. Die Philosophie von Independent Variable ist, mehr Menschen dazu zu ermutigen, sich zu beteiligen und das Modell und die Intelligenz in der Praxis zu verbessern.
Bei der Erklärung des Grunds für die Durchführung des Wettbewerbs führte Wang Qian auch das Beispiel von "Openclaw" an: "Warum ist der Krebsehandel so erfolgreich? Nicht weil eine Gruppe von Fachleuten daran arbeitet, sondern weil unzählige Einzelentwickler und kleine Teams zusammenarbeiten und es zu einer großen Ökosystem gemacht haben."
"Ich hoffe, die Embodied Intelligence für alle zugänglich zu machen", sagte Wang Qian.