StartseiteArtikel

Gespräch mit Yang Fengyu, CEO von Youliqi: Die Unternehmer aus der Generation der 2000er setzen nicht auf VLA, sondern schicken Roboter zunächst ins Hotel zum Arbeiten.

富充2025-08-28 15:12
Zunächst betreten Sie die umsetzbaren Szenarien und setzen Sie die Anwendung in großem Umfang ein. Während der praktischen Arbeit verbessern Sie dann kontinuierlich durch das Daten-Flywheel. Dies gilt sowohl für die Technologiestrategie als auch für die Geschäftsstrategie von Youliqi.

Text | Fu Chong

Editor | Su Jianxun

“Seit dem Ende der Robotersportmeisterschaften hat die Beratungshotline 400 unseres Unternehmens nicht stillgelegt. In der zweiten Woche nach dem Wettkampf kamen mehr als ein Dutzend Hotelkunden in unser Unternehmen zu einem Besuch.” Yang Fengyu, Gründer und CEO von Unix AI, sagte der Zeitschrift "Intelligente Entstehung".

Bei der Weltmeisterschaften für humanoide Roboter Anfang August errang der Roboter von Unix AI zwei Gold- und eine Silbermedaille in den Disziplinen Hotelreinigung und Empfangsdienst.

Dies führte zu einer erhöhten Aufmerksamkeit von Hotelbetreibern, Altenheimen und anderen Einrichtungen für Unix AI.

Beide Disziplinen testen die Generalisierungsfähigkeit, die feinmotorischen Fähigkeiten der Hände und die Bewegungsgeschwindigkeit der Roboter. Im Reinigungsdisziplin muss der Roboter in kürzester Zeit verschiedene Gegenstände aufsammeln, die im Zimmer verstreut liegen. Im Empfangsdienst muss er den Koffer des "Gastes" greifen und ihn schnell zum Ziel transportieren.

Die Medaillen im Wettkampf zu errangen, lag daran, dass der Roboter von Unix AI bereits vor dem Wettkampf in "C-ähnlichen" Reinigungsszenarien, einschließlich Hotels, eingesetzt wurde, um Daten und Arbeitsfähigkeiten in diesen Szenarien zu sammeln, während er arbeitete.

Im Hotelzimmer erledigt der Roboter von Unix AI Aufgaben wie Reinigung, Aufräumen und Müllentsorgung. Obwohl seine Geschwindigkeit noch hinter der eines menschlichen Putzkraftes zurückbleibt, ist die Fehlerquote in der Reinigungsszene relativ hoch, sodass der Roboter die Tür schließen und langsam arbeiten kann.

Nach Ansicht von Yang Fengyu können die in "C-ähnlichen" Szenarien erlernten Fähigkeiten in Zukunft auch auf B- und C-Szenarien wie Haushalte, Restaurants, Fastfoodläden und Cafés übertragen werden.

Derzeit ist der Roboter von Unix AI in die Phase der kleinen Serienproduktion und -lieferung eingetreten und hat Aufträge mit mehreren Hotelgruppen, Immobilienverwaltungen und Altenheimen unterzeichnet.

Angesichts der derzeitigen Branchenlage mit fehlenden Daten hat Unix AI nicht den derzeit vorherrschenden VLA (Vision-Language-Action, Visuelle-Sprache-Aktion) End-to-End-Ansatz gewählt.

Der Technologiepfad von Unix AI besteht darin, die erforderlichen Bewegungen in einem Szenario in Schlüsselpunkte und Bewegungsbahnen zu zerlegen und durch Nachahmung zu lernen.

So kann der Roboter nach einer geringen Anzahl von Bewegungsdaten diese Art von Bewegungsbahnen lernen. Danach wird er zunächst in Szenarien eingesetzt, in denen er eingesetzt werden kann, um die Anzahl der Anwendungen zu erhöhen. Im praktischen Einsatz wird er dann kontinuierlich durch das "Datenrad" verbessert.

Dies ist auch die Geschäftstrategie von Unix AI.

Die zweiten und dritten Generationen des Unix AI Wanda-Roboters werden bei den Robotersportmeisterschaften geehrt. Foto: Vom Interviewer zur Verfügung gestellt.

Yang Fengyu wurde im Jahr 2000 geboren. Er absolvierte sein Bachelorstudium in Informatik an der University of Michigan und absolvierte anschließend einen Doktorstudiengang in Informatik an der Yale University. Im Jahr 2024 legte er seinen Doktorstudium aus und gründete Unix AI.

Nach seiner Ansicht waren in den letzten 20 Jahren in allen Hardware-relevanten Bereichen schließlich chinesische Unternehmen die Sieger. Dies ist auch der Grund, warum er die aktuelle Chance der Embodied Intelligence ergreift und in China ein Unternehmen gründet.

Kürzlich führte die Zeitschrift "Intelligente Entstehung" ein Interview mit Yang Fengyu durch, um sich über die Ansichten von Unix AI in Bezug auf die Kommerzialisierung und Technologie auszutauschen. Er gab auch Auskunft über den noch nicht auf den Markt gebrachten dritten Generationen-Roboter Wanda.

Der folgende Inhalt stammt aus dem Gespräch und wurde vom Autor bearbeitet.

Yang Fengyu, Gründer und CEO von Unix AI. Foto: Vom Interviewer zur Verfügung gestellt.

Erkundung des "Datenrades" in "C-ähnlichen" Szenarien

Intelligente Entstehung: Der Roboter von Unix AI hat zwei Gold- und eine Silbermedaille bei den Robotersportmeisterschaften errungen. Welche Folgeauswirkungen hat dies für das Unternehmen?

Yang Fengyu: Sofort nach dem Ende des Wettkampfes war unsere Beratungshotline 400 überfüllt. In der zweiten Woche nach dem Wettkampf kamen mehr als ein Dutzend Hotelkunden in Gruppen in unser Unternehmen zu einem Besuch.

Obwohl die Arbeitswettkämpfe vor Ort nicht viel Aufmerksamkeit erregten und wir nicht einmal auf dem großen Bildschirm vertreten waren, hat sich das Ergebnis bei den Kunden ausgebreitet.

Zur gleichen Zeit haben wir auch die Fähigkeiten des Roboters während der Vorbereitung auf den Wettkampf verbessert.

Beispielsweise war die ursprüngliche Regel im Empfangsdienst, dass der Roboter den Koffer auf den Gepäckwagen laden und ihn dann an den angegebenen Ort schieben muss. Die Schwierigkeit dieser Bewegung liegt darin, dass die Vorwärtsrichtung des Roboters und die Zugrichtung des Gepäckwagens möglicherweise nicht auf einer Linie liegen, was viele Hardwareprobleme mit sich bringt.

Dafür haben wir mehr als einen Monat Zeit in die Verbesserung der Hardware investiert. Obwohl die Aufgabe des Gepäckwagenziehens später abgesagt wurde, bin ich sehr dankbar dafür, dass es unsere Roboter verbessert hat.

Der dritte Generationen-Roboter Wanda zieht im Empfangsdienst eines Hotels einen Koffer mit beiden Händen zusammen. Foto: Vom Interviewer zur Verfügung gestellt.

Intelligente Entstehung: Sie haben erwähnt, dass der Roboter von Unix AI bereits in Hotelzimmern arbeitet und gleichzeitig Daten sammelt. Warum konzentrieren Sie sich auf dieses Szenario?

Yang Fengyu: Die Hotelreinigung wird von uns als eine "C-ähnliche" Fähigkeit angesehen. Wenn man die atomaren Bewegungen wie Reinigung, Aufräumen und Müllentsorgung in diesem Szenario beherrscht, kann man sie auf Szenarien wie Haushalte, Altenheimen, Restaurants, Fastfoodläden und Cafés übertragen.

Die Daten in der Hotelreinigungsszene können auch zurückgesendet werden, anders als in der industriellen Szene, wo die Geheimhaltung sehr streng ist. Dies ist sehr hilfreich für das Training des Robotermodells.

Weitere Vorteile der Hotelreinigungsszene sind die hohe Fehlerquote, die es dem Roboter ermöglicht, die Tür zu schließen und langsam zu arbeiten, sowie die geringe Gefahr von Mensch-Roboter-Interaktionen.

Intelligente Entstehung: Haben Sie also die Wettkampfresultate eher durch die tägliche Akkumulation erreicht?

Yang Fengyu: Ja. Im Hotelreinigungsdisziplin muss der Roboter in einer simulierten Szene Gegenstände wie Flaschen und Kästen aufsammeln, was der Roboter von Unix AI sowieso gut kann.

Tatsächlich kann unser Roboter sogar schwierigere Aufgaben erledigen als im Wettkampf, wie Müllentsorgung, Müllbeutelverpackung, Bettmachen und Badreinigung.

Intelligente Entstehung: Der Technologiepfad von Unix AI besteht darin, parallel zur Massenproduktion und Lieferung Daten in der praktischen Arbeit zu sammeln. Welche Gründe gibt es dafür?

Yang Fengyu: Unix AI ist ein Roboterunternehmen, das dem Tesla-Ansatz folgt. Das heißt, es setzt zunächst genügend Roboter in der realen Welt ein und sammelt dann durch das "Datenrad" genügend Daten.

Der Vorteil davon ist, dass die Trainingsschwelle sehr niedrig ist. Wir brauchen sogar keine Algorithmikingenieure, sondern nur Deploymentsingenieure, um das zu bewerkstelligen.

Ich glaube, dass das Skalierungsgesetz, wonach eine quantitative Veränderung der Daten in der Large Language Model zu einer qualitativen Veränderung führt, auch im Bereich der Embodied Intelligence wiederholt werden kann. Aber es kommt auf die Skalierungsmethode an.

Zunächst ist die Qualität und Vielfalt der Daten sehr wichtig, wobei die Vielfalt sogar noch wichtiger ist. Ich würde lieber eine Milliarde Daten in einer "natürlichen Verteilung" haben, als eine "kleine Handvoll" Daten in einer künstlichen Verteilung. Um so viele Daten wie möglich in einer natürlichen Verteilung zu sammeln, kann man nicht ständig Leute einsetzen, sondern muss in der realen Welt sammeln.

Zweitens muss die Anzahl der Daten groß genug sein. Im Bereich der Bilder und Texte wird für das Training eines multimodalen Large Language Model eine Datenmenge im Milliardenbereich benötigt.

Im Bereich der Autonomisierung, der am ähnlichsten zum Bereich der Embodied Intelligence ist, müssen mindestens einige hunderttausend Fahrzeuge auf der Straße fahren, um ein L4- oder quasi-L4-Modell zu betreiben. Dies gilt auch unter der idealen Annahme, dass alle Daten sauber sind.

Im Bereich der Roboter denke ich, dass mindestens eine ähnliche Größenordnung an Robotern benötigt wird. Ohne einige hunderttausend Roboter auf der Straße, kann man nicht von einem sehr guten Modell sprechen.

Um die Wettkampfzeit zu verkürzen, kann der zweite Generationen-Roboter Wanda in der Hotelreinigungsdisziplin beide Hände benutzen. Foto: Vom Interviewer zur Verfügung gestellt.

Kein Einsatz von VLA, aber konsequente Eigenentwicklung von Full-Stack

Intelligente Entstehung: Ich habe gehört, dass Sie bei der "Türschließ"-Bewegung im Wettkampf auf ein Problem gestoßen sind, aber es schnell gelöst haben. Was war der Grund für die schnelle Problemlösung?

Yang Fengyu: Das Schließen der Tür ist für einen Roboter von Natur aus schwierig. Diese Scharnierbewegung erfordert die Berücksichtigung von Seitwärtsbewegungen, der Koordination der Ganzkörperbewegungsrichtung und des Griffes am Türgriff.

An der Abendfeier der Eröffnung stellten wir bei der Simulation vor Ort fest, dass die Türen im Hotelreinigungsdisziplin einen Meter breit waren.

Diese Größe ist für den Zugang von Robotern mit großen Fahrwerken gedacht, ist aber breiter als die Türen in normalen Hotels und Haushalten. Da unser Roboter ein kleineres Fahrwerk hat und normalerweise für Türen mit einer Breite von 75-80 Zentimetern in Hotels trainiert wurde, war unsere Strategie zum Schließen der Tür mit zwei Roboterarmen nicht für die Wettkampftüren geeignet.

An diesem Abend sammelten wir vor Ort mit VR-Geräten neue Daten und trainierten diese atomare Fähigkeit neu. Am nächsten Morgen waren wir die erste Mannschaft, die antrat, und hatten keine zweite Möglichkeit zur Feineinstellung.

Glücklicherweise haben wir den Wettkampf gewonnen. Unser eigenentwickeltes Nachahmungslernplattform UniFlex hat dabei eine große Rolle gespielt. Sein größter Vorteil ist die sehr hohe Effizienz der Datennutzung. Mit nur 5 bis 10 Datenaufnahmen kann es eine neue Aufgabe lernen.

Intelligente Entstehung: Können Sie UniFlex näher beschreiben?

Yang Fengyu: Dies ist ein Modell, das die Wahrnehmung und die Handlung entkoppelt. Sein Kern ist das auf Schlüsselpunkten basierende Nachahmungslearning.

Wir zerlegen eine Bewegung in mehrere Schlüsselpunkte und Bewegungsbahnen und lernen in einem topologischen Raum.

Dies ist ein Strom, der mit den Hauptschulen der Robotermotionsgenerierung, DMP (Dynamic Movement Primitives) und VMP (Variational Movement Primitives), in Verbindung steht. In den letzten Jahren wurde weniger über sie gesprochen, aber nach der Kombination mit Large Language Model erlebten sie ein "zweites Leben".

So können Sie sich das vorstellen, dass wir durch eine kleine Anzahl von Bewegungen die Bewegungsbahn dieser Art von Bewegung lernen. Beispielsweise kann der Roboter beim Öffnen der Tür auch dann die Aufgabe erfüllen, wenn die Tür anders ist oder die Navigation um zwei Zentimeter nach links oder drei Zentimeter nach rechts abweicht.

(Anmerkung des Autors: "Topologie" ist ein mathematisches Konzept, das sich weniger auf genaue Abstände und Formen konzentriert, sondern eher auf die relativen Beziehungen zwischen Objekten. Bei der Türöffnungsbewegung ist die topologische Beziehung die relative Position zwischen der "Hand" und dem "Türgriff". Solange die Kernbeziehung "greifen" unverändert bleibt, kann der Roboter den Türgriff unabhängig von seiner Farbe, Form und Material erkennen und die Schlüsselaufgabe "greifen" erfüllen.)

Intelligente Entstehung: Was ist also im Kern der Technologiepfad von Unix AI? Es scheint, dass Sie nicht wie andere Unternehmen auf VLA setzen?

Yang Fengyu: Kurzfristig verwenden wir VLA nicht in der Einsatzszene.

Langefristig bin ich optimistisch in Bezug auf den VLA-Technologiepfad. Aber angesichts des Fehlens von Massendaten für Roboter ist der Zeitpunkt für das End-to-End-VLA noch nicht reif.

Intelligente Entstehung: Einige Teams haben kürzlich auf Basis von VLA Tactile (Tastempfindung) hinzugefügt und so VTLA gebildet. Was halten Sie davon?

Yang Fengyu: Die Tastempfindung ist sehr wichtig. Unser UniTouch ist ein auf der Fusion von Vision und Tastempfindung basierendes Large Language Model-System, das die Verständnis des Roboters für Materialien und Berührungsrückmeldungen verbessert und das Handlungsverhalten dem menschlichen näher bringt.

Aber wir verwenden nicht den VTLA-Ansatz. Der Grund dafür ist, dass Vision und Tastempfindung zwei komplexe Wahrnehmungsquellen sind. Bei der praktischen Umsetzung verwenden viele VTLA-Teams einen fast "black box"-ähnlichen End-to-End-Ansatz.

Sie kodieren multimodale Informationen wie Tastempfindung und Vision in der untersten Ebene des Modells in einen komplexen latenten Vektor und geben diesen Vektor dann direkt einem nach