StartseiteArtikel

Kann ein Roboter nach nur einer Demonstration arbeiten? Ein Joint-Team von Peking Universität und BeingBeyond ermöglicht es dem G1, ohne Vorbeispiele einzusetzen, mit "Hierarchischer Kleinhirnarchitektur + Simulationsdoppelgänger".

量子位2025-11-14 10:36
Der Roboter G1 lernt 10 Haushaltsarbeiten auf einmal. DemoHLM senkt die Trainingskosten auf Stundenebene.

In letzter Zeit hat ein Forschungsteam aus Peking-Universität und BeingBeyond das DemoHLM-Framework vorgeschlagen, das eine neue Idee für das Gebiet der Loco-Manipulation von Humanoiden Robotern bietet. Mit nur einer menschlichen Demonstration in einer Simulationsumgebung können automatisch eine Vielzahl von Trainingsdaten generiert werden, um die generalisierte Manipulation von realen Humanoiden Robotern in Multitask-Szenarien zu ermöglichen. Dadurch werden die zentralen Probleme traditioneller Methoden gelöst, wie die Abhängigkeit von Hard-Coding, die hohen Kosten für reale Daten und die schlechte Generalisierung über verschiedene Szenarien hinweg.

Der Kernherausforderung: Die "Dreifache Enge" der Loco-Manipulation von Humanoiden Robotern

Loco-Manipulation ist die Kernfähigkeit von Humanoiden Robotern, um sich in die menschliche Umwelt zu integrieren (z. B. Kisten tragen, Türen öffnen, Gegenstände übergeben). Doch es gibt seit langem drei große Probleme:

  • Niedrige Dateneffizienz: Traditionelle Methoden müssen eine große Menge an realen Fernsteuerungsdaten von Robotern sammeln, was extrem kostspielig und schwer zu skalieren ist.
  • Schlechte Task-Generalisierung: Sie hängen von task-spezifischem Hard-Coding-Design ab (z. B. vordefinierte Teilaufgaben, spezifische Belohnungsfunktionen). Bei einem neuen Task muss alles neu entwickelt werden.
  • Schwierige Sim-to-Real-Übertragung: Strategien, die auf Simulations-Training basieren, funktionieren oft aufgrund von Unterschieden in der Physik-Engine und Sensorrauschen nicht stabil auf realen Robotern.

Die bestehenden Lösungen sind entweder auf Simulationsszenarien beschränkt oder erfordern hunderte von Stunden an realen Fernsteuerungsdaten, was die praktischen Anforderungen in komplexen Szenarien wie zu Hause oder in der Industrie nicht erfüllen kann.

DemoHLM: Die Innovation der Hierarchischen Architektur und der Datengenerierung löst die Dreifache Enge

Die Kerninnovation von DemoHLM liegt in den beiden Motoren "Hierarchische Steuerung + Einzeldemonstrations-Datengenerierung", die sowohl die Stabilität der Ganzkörperbewegung gewährleisten als auch das generalisierte Lernen mit extrem niedrigen Datenkosten ermöglichen.

Hierarchische Steuerungsarchitektur: Flexibilität und Stabilität im Gleichgewicht

DemoHLM verwendet ein hierarchisches Design mit "niedrigem Ganzkörpercontroller + hoher Manipulationsstrategie", um "Bewegungssteuerung" und "Task-Entscheidung" zu entkoppeln:

  • Niedriger Ganzkörpercontroller (RL-Training): Verantwortlich für die Umwandlung von hohen Anweisungen (z. B. Rumpfgeschwindigkeit, Zielstellungen der Oberkörpergelenke) in Gelenkmomente, während die Ganzseitigkeitsbeweglichkeit und das Gleichgewicht des Roboters gewährleistet werden. Basierend auf dem AMO-Framework optimiert, mit einer Betriebsfrequenz von 50 Hz, kann es stabile Verarbeitung in Szenarien mit hohem Kontakt (z. B. Kraftwechselwirkungen beim Greifen oder Schieben) gewährleisten.
  • Hohe Manipulationsstrategie (Imitationslernen): Sendet über visuelle Rückkopplung (6D-Positionserkennung von Objekten durch RGBD-Kamera) task-orientierte Anweisungen an den unteren Controller, um komplexe Manipulationsentscheidungen zu treffen. Unterstützt verschiedene Verhaltensklonierungsalgorithmen (BC) wie ACT, Diffusion Policy, mit einer Betriebsfrequenz von 10 Hz, und legt den Schwerpunkt auf die Langzeitplanung.

Darüber hinaus hat das Team für den Roboter einen 2DoF-aktiven Nacken + RGBD-Kamera (Intel RealSense D435) entworfen, um durch einen Proportionalcontroller die "stabile visuelle Verfolgung" zu erreichen, ähnlich wie beim Menschen die Fähigkeit zur Blickrichtungsanpassung, um die Wahrnehmungsverluste aufgrund von Objektverschattungen zu vermeiden.

Einzeldemonstrations-Datengenerierung: Von "einer Demonstration" zu "tausenden von Trajektorien"

Der wichtigste Durchbruch von DemoHLM ist, dass ohne reale Daten nur mit einer Fernsteuerungsdemonstration in der Simulation eine große Menge an vielfältigen Trainingsdaten generiert werden kann. Der Kernprozess besteht aus drei Schritten:

  • Demonstrationserfassung: Die menschlichen Bewegungen werden durch Apple Vision Pro erfasst und auf den Unitree G1-Roboter in der Simulation abgebildet. Eine erfolgreiche Manipulationstrajektorie wird aufgezeichnet (einschließlich Gelenkstellungen, Endeffektorstellungen, Objektstellungen).
  • Trajektorienumwandlung und -segmentierung: Die Demonstrationstrajektorie wird in drei Phasen "Bewegung (Locomotion), Prä-Manipulation, Manipulation" aufgeteilt, und durch die Koordinatentransformation wird die Generalisierung erreicht -

Prä-Manipulationsphase: Es wird das "Objekt-Zentrierte Koordinatensystem" verwendet, um sicherzustellen, dass der Endeffektor des Roboters bei verschiedenen Anfangsstellungen der Objekte präzise auf das Ziel ausgerichtet werden kann.

Manipulationsphase: Es wird auf das "Eigenwahrnehmungs-Koordinatensystem" umgeschaltet, um das Problem der Trajektoriengenerierung bei der Relativruhe zwischen Endeffektor und Objekt beim Greifen/Transportieren zu lösen.

  • Stapelweise Synthese: In der Simulation werden die Positionen des Roboters und der Objekte zufällig initialisiert, die Anweisungen in jeder Phase werden automatisch angepasst und wiederholt, um hunderte bis Tausende von erfolgreichen Trajektorien zu generieren und einen Trainingsdatensatz zu bilden.

Dieser Prozess ist vollständig automatisiert, vermeidet die "Datenerfassungshölle" des traditionellen Imitationslernens und verbessert durch die Randomisierung der Anfangsbedingungen natürlich die Generalisierungsfähigkeit der Strategie.

Experimentelle Validierung: Stabile Leistung von der Simulation bis zur Realität