StartseiteArtikel

Chen Junbo, Gründer und CEO von Youlu Robot: Embodied Intelligence ist eine Chance für die industrielle Revolution in China.

黄祝熹2025-06-24 14:46
Strategische Schlüsseltechnologie

WAVES New Wave 2025 lädt Sie ein, gemeinsam in die „Neue Ära“ des chinesischen Venture Capital zu gehen.

Dies ist die neue Ära des chinesischen Venture Capital. Der gegenwärtige chinesische Venture-Capital-Markt ist sowohl der Wendepunkt des Zyklusbodens als auch die Phase der Vertiefung der strukturellen Transformation. In dem neuen Ökosystem, das von Politik geleitet und von Staatsvermögen und Kapital stark konzentriert ist, kann man nur die sicheren Chancen in der Unsicherheit erfassen, indem man sich an die Trends anpasst und flexibel reagiert.

Am 11. und 12. Juni 2025 findet im Liangzhu Cultural and Art Center in Hangzhou die 36Kr WAVES New Wave 2025-Konferenz unter dem Thema „Neue Ära“ statt. Es versammelt die Top-Anleger aus dem Venture-Capital-Bereich, die Gründer von aufstrebenden Unternehmen sowie Wissenschaftler, Schöpfer und Forscher, die sich auf Technologie, Innovation und Geschäft konzentrieren. Gemeinsam werden führende Themen wie die technologische Revolution in der KI, die globale Welle und die Neubewertung von Werten diskutiert, und die Geschäftsvisionen und die zukünftige Welt in ihren Augen werden analysiert, um zusammen die „Neue Ära“ des chinesischen Venture Capital zu finden und hinzusteuern.

·

Am Nachmittag des 12. Juni hielt Chen Junbo von Youlu Robotics im Startup-Saal einen unabhängigen Vortrag mit dem Thema „Embodied Intelligence ist die Chance für die chinesische industrielle Revolution“. Hier ist der vollständige Text des Vortrags:

Guten Mittag! Ich freue mich sehr, mit Ihnen zu kommunizieren. Es gab auch einige Themen im Zusammenhang mit Embodied Intelligence. Vielleicht haben Sie Ihre eigenen Vorstellungen. Ehrlich gesagt, halten wir Embodied Intelligence für noch wichtiger als Sie vielleicht denken. Wo liegt diese Wichtigkeit? Stellen Sie sich die letzten 30 Jahre vor. Die wichtigste Fähigkeitssteigerung Chinas lag in der Fertigungsindustrie. Unsere Fertigungsindustrie macht inzwischen über 30 % des globalen Volumens aus. Obwohl unsere Fertigungsindustrie sehr gut ist, befindet sie sich immer noch am unteren Ende der Wertschöpfungskette. Embodied Intelligence ist eine ausgezeichnete Technologie, um die chinesische Fertigungsindustrie in der Wertschöpfungskette aufzusteigen, und man könnte sie sogar als eine Technologie von nationaler Bedeutung bezeichnen.

·

Was genau bedeutet das? Betrachten Sie ein Beispiel. Die Anlage ganz links ist ein traditionelles Reinigungsgerät mit Rädern, das von einer chinesischen Firma namens Minutec hergestellt und entworfen wurde. Der Verkaufspreis dieses Geräts liegt unter 40.000 Yuan. Das Produkt in der Mitte der Abbildung ist von der weltweit größten Firma. Dieses Produkt wird im Ausland für mehr als 80.000 oder sogar 100.000 Yuan verkauft. Vielleicht denken Sie, dass die deutsche Qualität besser ist, daher der höhere Preis. Tatsächlich ist das nicht der Fall. Die Qualität beider Produkte ist identisch. Warum? Weil das deutsche Produkt in China produziert wird. Die Firma druckt einfach ein Logo darauf und nimmt alle Gewinne.

Heute passen wir den universellen Robotergedanken von Youlu auf ein traditionelles Gerät an und upgraden es zu einem intelligenten Roboter. Der Verkaufspreis dieses intelligenten Roboters im Ausland beträgt heute über 40.000 US-Dollar, und die Nachfrage übersteigt die Lieferung. Der Grund ist einfach. Wenn Sie in Europa oder Amerika jemanden einstellen, kostet das mehr als 50.000 US-Dollar pro Jahr. Unser Roboter hat eine geplante Lebensdauer von 6 Jahren. Daher hat er ein ausgezeichnetes ROI.

Anhand dieses einfachen Beispiels können wir sehen, dass wir durch die Technologie der Embodied Intelligence den Wert eines sehr guten, aber traditionellen Produkts, das sich am unteren Ende der Wertschöpfungskette befindet, um das Siebenfache, fast um eine Größenordnung, gesteigert haben. Ich denke, das ist die größte Bedeutung der Embodied Intelligence für China.

Offensichtlich kann unser universeller Gedanke nicht nur auf ein Reinigungsgerät angewendet werden. Wir arbeiten tatsächlich an der Idee von „ein Gedanke, viele Formen“, d. h., wie wir den Embodied-Intelligence-Gedanken auf verschiedene traditionelle Geräte anpassen und sie zu Robotern upgraden können. Das ist unsere eigentliche Aufgabe.

Im Folgenden möchte ich unser Modell vorstellen. Unser Modell ist im Wesentlichen ein universelles Robotermodell, das die linke und die rechte Gehirnhälfte integriert. In diesem Teil haben wir derzeit das Open-Source-Modell Tongyi Qianwen eingesetzt. Es hat offensichtlich sehr gute Sprachinteraktions- und logische Fähigkeiten. Aber wie das menschliche Gehirn brauchen wir auch eine rechte Gehirnhälfte. Der Teil der rechten Gehirnhälfte ist das, an dem Youlu am meisten Zeit und Energie investiert hat. Was macht die rechte Gehirnhälfte am wichtigsten? Zwei Dinge: Raumintelligenz und Entscheidungsintelligenz. Was bedeutet Raumintelligenz? Alle Sensordaten werden als Eingabe genommen und können in eine dreidimensionale Welt rekonstruiert werden. Und die Kodierung dieser dreidimensionalen Welt wird mit den Merkmalen des Sprachmodells integriert. Was ist Entscheidungsintelligenz? Entscheidungsintelligenz bedeutet, die zukünftigen Handlungen des Roboters anhand der Vorhersage der Zukunft zu bestimmen.

·

Dies ist eine sehr anschauliche Darstellung. Jedes zukünftige universelle Embodied-Intelligence-Modell wird aus drei Teilen bestehen: der linken Gehirnhälfte, die die Sprach- und logischen Fähigkeiten repräsentiert, der rechten Gehirnhälfte, die Raum- und Entscheidungsintelligenz umfasst, und dem Kleinhirn. Dieses Jahr war Unitree sehr beliebt. Im Wesentlichen liegt die eigentliche Kerntechnologie von Unitree im Bereich des Kleinhirns.

·

·

Dies ist eine sehr anschauliche Darstellung. Oben sehen Sie die Eingabe der Sensoren, und unten wird direkt eine Übersetzung vorgenommen, um die Merkmale in einem dreidimensionalen Raum, eigentlich in einem vierdimensionalen Raum-Zeit-Kontinuum, darzustellen. Alle Merkmale werden mit der Sprache ausgerichtet. Dies hat den Vorteil, dass der Roboter verschiedene komplexere Interaktionstasks ausführen kann. Beispielsweise gibt es einen Task namens VQA. Nachdem die Sensorsequenz eingegeben wurde, kann der Mensch mit dem Modell über Sprache interagieren. Wenn wir beispielsweise fragen, dass es die Welt, die es sieht, direkt beschreiben soll, ist der folgende Text die Ausgabe unseres Modells. Es wird detailliert beschrieben, dass es sich um eine Umgebung mit Fahrstreifen handelt, was die Geschwindigkeitsbegrenzung ist und was die nächsten Handlungen sind.

Vielleicht fragen Sie sich, wofür wir den VQA-Task brauchen. Im Wesentlichen ist diese Frage ähnlich der Frage, was der Unterschied zwischen DeepSeek und den früheren großen Sprachmodellen ist. Der wichtigste Punkt ist, dass DeepSeek logische Fähigkeiten hat. Heutzutage reicht in vielen Fällen die Mustererkennungstechnologie der letzten Generation von kleinen Modellen nicht mehr aus. Wir müssen unseren Modellen logische Fähigkeiten verleihen, um die Fähigkeiten der Embodied Intelligence wirklich zu verwirklichen. Und das Logische kann nur durch Sprache erreicht werden. Selbst das menschliche Gehirn kann nicht logisch denken, wenn es keine Sprache verwendet.

Mit dieser neuen Technologie haben wir in den letzten zwei Jahren etwa 10 globale Algorithmusmeisterschaften gewonnen. Und unsere Mitbewerber in diesen Wettbewerben waren globale KI-Riesen wie Nvidia, Meta (vormals Facebook) und Google. Gleichzeitig haben wir auch viele Branchenpreise erhalten.

Wir haben zwei Arten von Produkten. Eine Art ist der oben erwähnte Gedankenmodell, ähnlich einem Tier-1-Lieferanten in der Roboterei. Unsere Zielkunden sind die traditionellen Gerätelieferanten, die in China bereits sehr etabliert sind und einen großen Marktanteil haben. Unsere Mission ist es, die traditionelle Fertigungsindustrie durch diesen Embodied-Intelligence-Gedanken zu einer intelligenten Upgrades zu helfen. Zweitens wird Youlu auch um eine bestimmte Szene herum ein komplettes Portfolio an Robotern anbieten. Diese Szene ist, wie wir denken, der größte Markt der Welt, nämlich der Haushaltsmarkt oder der Markt um das Haushaltseinkauf. Um diese Szene herum werden wir verschiedene Roboter wie Reinigungsroboter, Logistikroboter und Serviceroboter anbieten.

Ich möchte kurz über unseren Fortschritt berichten. Unser Reinigungsroboter wurde im September 2024 vorgestellt. Seitdem, also in etwa neun Monaten, haben wir Aufträge im Wert von über 400 Millionen Yuan erhalten und sind bereits der Verkaufsführer in der Branche.

·

In der Mitte sehen Sie unser Prototypprodukt. Die wichtigste Idee hinter diesem Produkt ist, alle Aufgaben eines Lieferkurieres zu übernehmen, von Anfang bis Ende. Dies umfasst das Abholen von Lieferpaketen bei den Lieferanten, das Bedienen des Aufzugs, das Automatische Auf- und Abfahren der Treppe, das Öffnen der Tür, das Fahren auf offenen Straßen über einige Kilometer, das Eindringen in die Wohnanlage und das Ablegen des Pakets vor der Haustür. Natürlich ist seine Anwendungsgebiete sehr breit. Nicht nur Unternehmen wie Meituan, Ele.me, Hema, Sam's Club und KFC brauchen solche Roboter.

Wir investieren auch in humanoide Roboter, aber auf eine andere Weise als die meisten anderen Unternehmen. Beispielsweise bei der vergangenen Yizhuang Humanoid Robot Marathon folgte im Durchschnitt jedem humanoiden Roboter drei Personen. Eine Person hielt die Fernbedienung, eine Person half ihm, um nicht umzufallen, und eine andere Person goss Wasser auf ihn, um ihn vor Überhitzung zu schützen. Die meisten Unternehmen, die an humanoiden Robotern arbeiten, konzentrieren sich im Wesentlichen auf das Kleinhirn und die Bewegungskontrolle. Unsere Idee ist einfach. Wir denken, dass die Welt, die ein humanoider Roboter sieht, und die intellektuellen Aufgaben, die er lösen muss, nicht viel unterschiedlich sind von denen eines Radroboters. Daher möchten wir mit einem universellen Gedanken alle Roboterprodukte bedienen. Was ist der wichtigste Punkt hier? Es ist diese Abbildung. Sowohl das Modell, das für den Radroboter auf der rechten Seite verwendet wird, als auch das Modell, das für den humanoiden Roboter auf der linken Seite verwendet wird, basiert auf demselben zugrunde liegenden Modell. Radroboter und Rad-Arm-Roboter werden heute bereits in großen Mengen verkauft. In der Branche der großen Sprachmodelle und der Embodied Intelligence ist das Skalierungsgesetz sehr wichtig. Nur wenn wir genügend breite Daten sammeln, können wir unser Modell einen kleinen Schritt vorwärts bringen. Unsere wichtigste Idee ist, dass, wenn wir heute die Rad- und Rad-Arm-Roboter in großen Mengen auf den Markt bringen und mit demselben zugrunde liegenden Modell lernen lassen, dies nicht nur unsere Rad- und Rad-Arm-Roboter immer intelligenter macht, sondern auch unsere humanoide Roboter immer intelligenter werden lässt. Das ist unsere wichtigste Überzeugung. Unser Ziel ist es, dass alle Arten von Geräten durch unseren Gedanken immer intelligenter werden.

·

Dieses Zitat ist von Masayoshi Son, und wir stimmen ihm voll und ganz zu: „In der Zukunft wird die Anzahl der Roboterarten die Anzahl der biologischen Arten übersteigen.“ Warum? Weil der Mensch möchte, dass die Roboter in verschiedenen Szenen verschiedene Aufgaben erfüllen. Unter den Voraussetzungen dieser Szene und dieser Aufgabe wird die optimale Form des Roboters sicherlich unterschiedlich sein. Aber wir denken, dass alle diese Roboter einen universellen, hochintelligenten Gedanken haben sollten.

Vielen Dank für Ihre Aufmerksamkeit! Das war meine Präsentation für heute.