Basierend auf der Analyse menschlicher Videodaten hat "Zero Dimension Technology" innerhalb von vier Monaten die Entwicklung von zwei humanoiden Robotern abgeschlossen | Frühes Projekt
Autor|Huang Nan
Redaktion|Yuan Silai
Die Bedeutung von Daten für die technologische Entwicklung ist seit langem etabliert. Aufgrund ihrer Erfassungsschwierigkeiten sind Trainingsdaten jedoch zu einer großen Herausforderung für die Skalierung von Robotern geworden.
Derzeit können die Trainingsdaten für Roboter grob in drei Kategorien unterteilt werden: Die erste Kategorie sind echte Teleoperationsdaten, die zweite sind hochqualitative simulative synthetische Daten und die dritte sind menschliche Verhaltensdaten, hauptsächlich aus Internetvideos.
Trainingsdaten für Roboter (Bildquelle: Lingzici Technologie)
Mit der Validierung des Scaling Law im Bereich der künstlichen Intelligenz haben große Sprachmodelle und End-to-End-Hochgeschwindigkeits-Großmodelle, wie sie durch Teslas FSD (Full-Self Driving) vertreten werden, der verkörperten Intelligenz neue Impulse gegeben.
Um verkörperte Intelligenz zu erreichen, sei es durch multimodale große Modelle, durch die Schaffung von hochdimensionalen Weltmodellen oder durch die Kombination spezialisierter kleiner Modelle, liegt der Kern darin, ob man die Anforderungen an vielfältige, hochqualitative Daten lösen kann. Angesichts dieses zentralen Problems hat die von Hard Kr kürzlich kontaktierte Start-up-Unternehmen Lingzici Technologie eine Lösung vorgeschlagen - Lernen aus menschlichen Videodaten (Learn from Human Video).
Lingzici Technologie wurde im Mai dieses Jahres gegründet und gemeinsam vom Tsinghua-Universität und dem Jianghuai Frontier Technology Collaborative Innovation Center inkubiert. Die Kernmitglieder stammen aus dem AI&Robot Intelligent Robotics Laboratory der Tsinghua-Universität, und das Team umfasst mehrere Creator, die bei großen Internetfirmen wie ByteDance und Baidu sowie bei Kooperationsroboterfirmen wie Jaka tätig waren.
Das Datenvolumen ist ein notwendiger Faktor für die Umsetzung allgemein verkörperter Operationen, und die Stückdatensamtkosten sind die Grundvoraussetzung für die Produktintegration. Eine Realität ist, dass sowohl echte Teledaten als auch simulierte Daten hohe Stückkosten aufweisen, während menschliche Daten zwar das größte Volumen aufweisen, jedoch die niedrigste Datenqualität haben. Wie man die große Menge an menschlichen Videodaten effektiv nutzt, ist der Hauptansatz, den Lingzici Technologie erforscht.
Datenvolumen und Anwendungsszenarien (Bildquelle: Lingzici Technologie)
Im Gegensatz zur aktuellen Mainstream-Teleoperationstechnologie nutzt Lingzici Technologie ein dreidimensionales menschliches Bewegungsanalysemodell, um die Bewegungsdaten der wichtigsten menschlichen Gelenke zu extrahieren und auf den Roboter zu übertragen, wodurch die Algorithmuskosten bis zu einem gewissen Grad gesenkt werden können; gleichzeitig wird die beobachtete Information des Roboters anhand der 4D-Gauss-Sprühnungstechnologie rekonstruiert und eine Roboterbewegungsstrategie auf der Grundlage eines Diffusionsmodells abgeleitet, die es dem Roboter ermöglicht, Aufgaben selbstständig zu erledigen und direkt von Menschen zu lernen (LFWH).
Testergebnisse zeigen, dass auf der Grundlage von LFWH der Roboter in der Lage ist, während des Simulations-Trainings verstärkendes Lernen durchzuführen, um flexiblere allgemeine Operationen zu erreichen, die die angeborenen strukturellen Unterschiede zwischen Mensch und Roboter ausgleichen und die Arbeitseffizienz von menschlichen Experten übertreffen können, und eine schnelle Implementierung zu ermöglichen.
Basierend auf den Datensets für spezialisierte Szenarien und dem Training von Internetdaten-Imaginationsmodellen mit dem Imaginator wird das Verhältnis generierter Daten mit der Erhöhung der Imaginator-Fähigkeiten im Modelltraining allmählich höher, während der Bedarf an echten Daten allmählich abnimmt. Dadurch wird die Generationsfähigkeit des Imaginators immer realistischer und erreicht ein Weltmodell, das den tatsächlichen physikalischen Gesetzen nahekommt, um letztendlich eine echte allgemeine künstliche Intelligenz zu erreichen.
Imagination Generationsmodell (Bildquelle: Lingzici Technologie)
Nehmen wir als Beispiel den Doppelseiten-Roboter F1, der von Lingzici Technologie im September veröffentlicht wurde. Der F1 versucht derzeit, in speziellen Anwendungen in professionellen Fabriken eingesetzt zu werden. Durch die allmähliche Erweiterung der Szenarien und das Vorantreiben des Daten-Schwungrads kann die Generalisierungsfähigkeit von Modellen und Robotern effektiv verbessert werden.
Zum Beispiel, bei Problemen wie der Schwierigkeit der Umgestaltung von KMU-Fabriken und manueller Programmierung, schlägt Lingzici Technologie vor, Roboter-autonomes Lernen zur In-situ-Substitution einzusetzen, ohne das Layout der Fabrik zu verändern oder zu programmieren. Es reicht aus, den Roboter in menschliche Rollen zu integrieren, damit er seine Generalisierungsfähigkeit in Szenarien durch kontinuierliches Lernen und Dateneingabe verbessert.
Roboter verwenden, um menschliches Verhalten für das Datentraining zu simulieren (Bildquelle: Lingzici Technologie)
Im Bereich der kompletten Robotersysteme hat Lingzici Technologie innerhalb von vier Monaten zwei Humanoide Roboter entwickelt. Neben dem oben genannten F1-Doppelseiten-Roboter wurde am 24. Oktober der erste humanoide Roboter Z1 des Unternehmens offiziell vorgestellt, der über lange Zeiträume auf verschiedenen unregelmäßigen Oberflächen und komplexem Gelände stabil laufen kann und hervorragende Anti-Interferenz-Eigenschaften besitzt, um sogar bei starken Stößen aus allen Richtungen stabil zu stehen.
Der Z1 ist mit 150 Nm Gelenkmotoren ausgestattet, besitzt insgesamt 27 Freiheitsgrade und hat eine maximale Belastung von 20 Kilogramm, mit einem Verhältnis von Nutzlast zu Eigengewicht von über 70 %. Es ist mit einem selbst entwickelt EtherCAT-Kommunikationsmodul ausgestattet, das ein System mit geringer Latenz und hoher Bandbreite ermöglicht; außerdem hat das Team KI-Technologie einsetzt, um die Strukturparameter des Roboters zu optimieren, was zu einem geringeren Energieverbrauch und besseren dynamischen Bewegungsleistungen führt.
Derzeit versucht Lingzici Technologie, dass die Roboter lernen, Szenen aus dem Film „Real Steel“ nachzubilden, und es wurde bereits die präzise Replikation der Bewegungen menschlicher Arme erreicht. Laut den von der Firma veröffentlichten Videobildern kann der Z1 durch das Beobachten menschlicher Verhaltensweisen Attackenmuster imitieren und dynamische Verteidigungen auf der Grundlage seiner flexiblen, ganzheitlich koordinierten Steuerungsfähigkeiten ausführen.
Gründer Min Yuheng sagte, dass bis Ende dieses Jahres geplant ist, humanoide Roboter-Boxkämpfe ohne Bediengeräte durchzuführen, um den Mech-Traum von jedem zu verwirklichen.