BeingBeyond hat das stärkste Weltmodell veröffentlicht, und die Embodied-Industrie hat die "Ära des Gehirns" eröffnet.
Was bedeutet es, wenn 200.000 Stunden menschlicher Videos auf ein Edge-Chip komprimiert werden?
Vielleicht bedeutet dies, dass das erste für die Edge-Bereitstellung geeignete und kommerziell nutzbare Embodied World Model tatsächlich da ist.
Dies ist auch die perfekte Antwort von BeingBeyond, dem Pionier der menschlichen Video-Route, an diesem Wendepunkt für das Embodied World Model.
Wenn Roboter von der Demo-Vorführung in die reale Welt gehen, verstehen sie die Umgebung und die Aufgaben oft nicht richtig und können auch kaum kontinuierlich in sich ändernden Situationen Entscheidungen treffen. Immer mehr Menschen erkennen, dass die Art und Weise, wie Roboter lernen, neu überdacht werden muss.
Als ein Embodied World Model, das auf großen Mengen menschlicher Verhaltensdaten trainiert wird, zwischen verschiedenen Robotern übertragbar ist und komplexe Aufgaben in der realen Welt ausführen kann, ist Being-H0.7 die neueste Antwort von BeingBeyond auf diese Frage.
Being-H0.7 verzichtet auf die rechenintensive, verzögerungsbehaftete und schwer zu deployende Video-Generierungslösung und wählt stattdessen eine Methode, die der menschlichen physikalischen Intuition näher kommt, um direkt im Modell die zukünftigen Zustände und Handlungsergebnisse zu beurteilen.
Dadurch kann Being-H0.7 das World Model auf Edge-Hardware komprimieren und in Echtzeit ausführen, was es zum ersten kommerziell nutzbaren und auf der Edge-Bereitstellbaren World Model in der Branche macht.
Als der erste Anbieter in der Branche, der die Vorhersage von menschlichen Videos vorschlug, hat BeingBeyond in kurzer Zeit ein umfassendes Technologie-System für die Vorhersage von menschlichen Videos, die Modellbereitstellung und die Datenerfassung gezeigt.
Dieses geschlossene Technologie-System ermöglicht es, dass Embodied AI von der zweistufigen Struktur aus einer allgemeinen Basis und spezifischen Fähigkeiten zu einer skalierbaren Lösung in der Branche wird. Für eine Branche, die lange Zeit nur in der Demonstrationsphase blieb, wird der enorme kommerzielle Wert von BeingBeyond, einem führenden Anbieter in der Entwicklung von Embodied Brain Modellen, immer deutlicher.
Link zur Studie:
https://research.beingbeyond.com/projects/being-h07/being-h07.pdf
Ein anderer Weg, die Welt zu verstehen
Nachdem Embodied AI bis hierhin entwickelt wurde, gibt es in der Branche eine relativ vorherrschende Logik für die technologische Weiterentwicklung: Zuerst soll der Roboter in Bewegung gesetzt werden, dann soll er präzise agieren, und schließlich soll er in der Lage sein, komplexere Aufgaben zu verstehen und auszuführen.
Basierend auf dieser Idee haben sich in den letzten Jahren mehrere vorherrschende Methoden entwickelt. Die erste ist die VLA, die zweite ist das World Model und die dritte ist die direkte Datenerfassung von echten Robotern durch Fernsteuerung. Jede Methode entspricht einem anderen Ziel: Die VLA möchte die "Verständnis"-Fähigkeit verbessern, das World Model möchte die "Vorhersage"-Fähigkeit verbessern und die Fernsteuerung möchte die "Einsatzfähigkeit" verbessern.
Alle diese Methoden haben ihren Wert und haben die Fähigkeiten von Robotern beschleunigt. Das Problem ist jedoch, dass die meisten davon auf der Annahme basieren, dass die Trainingsdaten hauptsächlich von den Robotern selbst stammen, was eine relativ begrenzte Datenquelle ist. Dies bedeutet, dass die Fähigkeiten, die das Modell lernt, leicht auf bestimmte Hardware, Aufgaben und Szenarien beschränkt bleiben.
Insbesondere bei der Weltmodell-Methode werden die Probleme in der realen Implementierung deutlicher sichtbar.
Ansatz wie NVIDIA's Cosmos Policy und DreamZero versuchen immer noch, indem sie die nächste Bildsequenz vorhersagen, die aktuelle Handlungsentscheidung zu verbessern, indem sie sich die zukünftigen Videoframes vorstellen. Einerseits erfordert die Video-Generierung jedoch viel Rechenleistung und kann kaum in Echtzeit auf Edge-Geräten ausgeführt werden. Andererseits sind Bilder letztendlich zweidimensionale Informationen, die die dreidimensionale Dynamik von Flüssigkeiten, flexiblen Objekten und komplexen Kontakten nur sehr begrenzt darstellen können. Oftmals können sie nur Handlungen generieren, die zwar logisch erscheinen, aber keine echten Operationen unterstützen können.
An diesem Punkt hat BeingBeyond eine andere Einschätzung getroffen. In ihrer Ansicht, wenn Roboter schließlich der menschlichen Welt gegenüberstehen sollen, sollten die Trainingsdaten nicht nur von den Robotern selbst stammen, sondern von einem größeren und realitätsnäheren Datensatz menschlichen Verhaltens.
Vielleicht ist es wichtiger, dass Roboter verstehen, wie Menschen in der realen Welt Handlungen ausführen, Aufgaben organisieren und Interaktionen handhaben, anstatt immer wieder zu lernen, wie eine bestimmte Hand ein bestimmtes Objekt greift.
Darum hat BeingBeyond sich entschieden, von menschlichen Videos auszugehen. Im Vergleich zu echten Robotern und Fernsteuerung bieten menschliche Videos größere Datenmengen, mehr Szenarien und vielfältigere Aufgaben, die dem Modell ein realitätsnäheres Verhaltensvorwissen geben können. Auf diesem Weg können Roboter die Fähigkeit erlernen, zwischen verschiedenen Szenarien, Aufgaben und Robotern zu transferieren.
Basierend auf dieser Idee hat Being-H0.7 nicht die Video-Generierungs-Weltmodell-Methode weiterverfolgt, sondern sich für einen Weg entschieden, der der menschlichen physikalischen Intuition näher kommt. Being-H0.7 führt im Modell einen latenten Raum ein, um die aktuelle Beobachtung, das Aufgabenziel und die Einschätzung zukünftiger Veränderungen zu komprimieren. Diese Zwischenrepräsentation steuert dann direkt die Handlungsgenerierung.
Dies ist ähnlich wie der menschliche Reaktionsmechanismus in der Realität. Wenn ein Tennisspieler spielt, denkt er nicht zuerst, wie das nächste Bild aussehen wird, bevor er schlägt. Stattdessen baut er auf seiner langjährigen Erfahrung auf, um schnell zu entscheiden, wie sich das Objekt bewegt, was nach dem Auftreffen passiert und welche Handlungen wahrscheinlich fehlschlagen werden. Dies ist die physikalische Intuition, die Being-H0.7 dem Modell beibringen möchte.
Um diese Einschätzung zu bestätigen, hat BeingBeyond eine weitere Grundlage gelegt: Die Vorhersage von über 200.000 Stunden menschlicher Videos. Die Bedeutung dieser riesigen Menge an menschlichen Verhaltensdaten liegt nicht nur in ihrer Größe, sondern auch darin, dass sie viele implizite physikalische Gesetze und Aufgabenstrukturen enthalten. Das Modell lernt nicht nur die Handlungen selbst, sondern auch die Bedingungen, Ergebnisse und Beschränkungen hinter diesen Handlungen.
In den Experimenten hat Being-H0.7 in sechs Ranglisten den ersten Platz weltweit belegt (in vier von ihnen sogar eindeutig). Somit ist es eines der Embodied World Modelle mit der weitesten Reichweite an Fähigkeiten.
Schließlich hat Being-H0.7 die Informationen des World Models um mindestens das Hundertfache komprimiert und kann nun tatsächlich auf Edge-Hardware und in Echtzeit-Szenarien eingesetzt werden. Being-H0.7 kann auf der Edge-Berechnungseinheit Orin NX (ca. 75 TOPS) in Echtzeit deployed werden. Dies bedeutet, dass BeingBeyond das erste Team in der Branche ist, das ein World Model in Echtzeit auf einem Chip mit gleicher Rechenleistung deployen kann.
Die nächste Evolution der Roboter
In einem so stark ingenieurorientierten Bereich wie Embodied AI entstehen die Unterschiede in den Ansätzen oft aus einer nicht-technischen Quelle - wie das Team das Problem definiert.
Die meisten chinesischen Teams beginnen mit dem Roboter selbst, da dies ein Weg ist, auf dem chinesische Teams stärker sind und die Implementierung einfacher ist. Ausgehend von diesem Punkt optimieren sie oft die Steuerungsstrategien für die spezifische Hardware, sammeln Daten durch Fernsteuerung und verbessern das Modell auf einem einzigen Roboter.
Diese Methode ist sowohl eine Fortsetzung der bestehenden Fähigkeiten als auch ein einfacherer Weg, der in der Vergangenheit die Fähigkeiten von Robotern beschleunigt hat. Aber es verstärkt auch implizit die Annahme, dass die Daten von den Robotern selbst stammen und die Fähigkeiten daher auf bestimmte Hardware und Szenarien beschränkt bleiben.
Der Ausgangspunkt von BeingBeyond ist von den meisten chinesischen Teams unterschiedlich. Dieser Unterschied kommt größtenteils von der Art und Weise, wie der Gründer, Zongqing Lu, Probleme betrachtet. Im Gegensatz zu vielen Teams, die ständig die Steuerungsstrategien für ein spezifisches Gerät verbessern, fragt Lu als Wissenschaftler lieber zuerst eine tiefere Frage: Wenn das Ziel allgemeine Fähigkeiten ist, aus welchen Daten sollte das Modell lernen?
Für die meisten Roboterteams sind die Daten zunächst von der Fernsteuerung, von echten Robotern und stark an die spezifische Hardware gebunden. Aber für ihn muss der Roboter schließlich der menschlichen physikalischen Welt gegenüberstehen, daher können die Daten, die näher an der realen Verteilung von Aufgaben liegen, möglicherweise auch in menschlichem Verhalten selbst vorhanden sein, nicht nur auf den Robotern selbst.
Basierend auf dieser Erkenntnis hat BeingBeyond als erstes in der Branche die Vorhersage von Modellen mit menschlichen Videos vorgeschlagen und damit ein geschlossenes Technologie-System für die Modelltraining, -bereitstellung und -datenerfassung aufgebaut.
Basierend auf dieser Idee hat das Team schrittweise ein Trainingsparadigma entwickelt, das auf menschlichem Verhalten zentriert ist. Einerseits wird durch die große Menge an menschlichen Videos ein Verhaltensvorwissen aufgebaut, sodass das Modell nicht von Null an die Handlungen lernt. Andererseits werden die verschiedenen Roboter in einem einheitlichen Handlungsraum dargestellt, sodass das Vorwissen zwischen verschiedenen Hardware übertragen werden kann. Zusammen mit der Fähigkeit zur multimodalen Modellierung, werden das Sehen, Sprechen und Handeln in einer einzigen Sequenz trainiert, was zu einem sogenannten human-centric learning-Ansatz führt.
Das Being-H-Serie von Modellen ist eine natürliche Weiterentwicklung dieses Ansatzes.
Das frühere Being-H0.5 hat eine Schlüsselannahme bestätigt: Mit einer ausreichenden Menge an menschlichen Verhaltensdaten und Daten von verschiedenen Robotern kann das Modell zwischen verschiedenen Robotern transferiert werden und kann in komplexen Aufgaben stabile Leistung erbringen. Ein allgemeines Modell hat erstmals in Bezug auf die Übertragung zwischen verschiedenen Robotern die Leistungsgrenze eines speziellen Modells erreicht.
Being-H0.7 verbessert nun die Stabilität und die Aufgabenausführung in der realen Welt, einschließlich der Fähigkeit zur kontinuierlichen Handlung in komplexeren Szenarien, der Fehlerkontrolle in mehrstufigen Aufgaben und der effizienteren Anpassung zwischen verschiedenen Robotern.
H0.5 hat gezeigt, dass der human-centric learning-Ansatz funktioniert, und H0.7 hat gezeigt, dass dieser Weg in die reale Welt übertragen werden kann.
In diesem System löst die Being-H-Serie das oberste Problem: Wie können Roboter allgemeine Fähigkeiten erlangen? Being-Dex beschäftigt sich mit dem praktischen Aspekt - wie können diese Fähigkeiten in spezifischen Szenarien schnell umgesetzt werden? U1 geht einen Schritt weiter und beantwortet die Frage, wo hochwertige Daten herkommen und wie sie kontinuierlich gewonnen werden können.
Die drei Komponenten entsprechen einer relativ klaren Struktur: Die Modellschicht bietet die Basis für allgemeine Embodied AI-Fähigkeiten, die Anpassungsschicht verkürzt den Lernzyklus für neue Aufgaben auf 30 Minuten und die Datenschicht verbessert die Datenerfassung von Greifern zu einer Methode, die dem menschlichen Handeln näher kommt, indem sie ein System zur Datenerfassung von dexteren Händen nutzt. BeingBeyond hat eine Produktionskette von der Datenerfassung über das Modelltraining bis zur Aufgabenbereitstellung aufgebaut.
Ein solches geschlossenes System war in der Vergangenheit selten. Der Grund dafür ist, dass die drei Schlüsselkomponenten von Embodied AI lange Zeit getrennt waren: Die Daten waren schwer zu skalieren, die Modellfähigkeiten reichten nicht aus, um über verschiedene Szenarien zu verallgemeinern, und die Implementierung war stark von der speziellen Hardware abhängig.
Chancen in einer neuen Branchenstruktur
In den letzten Jahren ist in der Branche ein deutlicher Trend zu beobachten: Die Trennung zwischen der Roboterhardware und dem Embodied Brain wird immer deutlicher, und das Interesse des Marktes und der Kapitalgeber richtet sich zunehmend auf den Bereich des Embodied Brain.
Dieser Trend basiert auf mehreren Voraussetzungen:
Erstens die Veränderung der Daten. Die riesigen Mengen an Daten, wie menschliche Videos, bieten erstmals eine kontinuierlich erweiterbare Trainingsquelle für Embodied Modelle. Zweitens die Veränderung der Modellfähigkeiten. Die Fortschritte in der multimodalen Modellierung von großen Modellen machen es möglich, das Sehen, Sprechen und Handeln in einem einzigen Modell zu integrieren. Drittens die Veränderung des Ingenieurwissens. Die Datenerfassung, das Training und die Implementierung bilden ein geschlossenes System, das in der realen Welt ständig verbessert werden kann.
Dies führt dazu, dass immer mehr Roboterhersteller die KI-Funktionen externisieren.
Von kommerzieller Seite ist die Kosten für die Eigenentwicklung eines Modells immer noch