Zhuoyu's Yu Beibei: Transition to Physical AI - An Inevitable Survival Law Choice

Algorithmenhersteller befinden sich in einem Knock-out-Wettbewerb in einer völlig neuen Dimension.

Text | Xiao Man

Redaktion | Li Qin

Im gegenwärtigen Bereich der intelligenten Autos ist "physikalisches AI" zu einem häufigen Begriff geworden. Die meisten Anbieter von Algorithmen für intelligentes Fahren wandeln sich in Richtung "physikalisches AI" um.

Zhuoyu hat auch auf der Peking Auto Show ein natives multimodales Basis-Modell für mobiles physikalisches AI vorgestellt. Nach Ansicht von Yu Beibei, Vizepräsidentin von Zhuoyu Technology, ist die Umstellung der Algorithmen-Anbieter auf physikalisches AI nicht nur eine phantastische Vorstellung für den Kapitalmarkt, sondern eine Existenzfrage für die Anbieter.

"Wenn man nicht auf diesen technologischen Weg geht, hat man möglicherweise keine Chance mehr, sich in Zukunft durchzusetzen." sagte Yu Beibei.

In der neuen Wettbewerbsebene haben die Algorithmen-Anbieter nicht nur ihre ehemaligen Kollegen als Konkurrenten, sondern auch Giganten aus dem Bereich des digitalen AI, die in diesen Bereich einstechen, sowie Firmen mit körperlicher Intelligenz.

Dieser neue Wettbewerb bringt die Algorithmen-Anbieter in eine neue Stufe des Auslesens. Diejenigen, die in diesem Wettbewerb erfolgreich sind, werden auch neue Geschäftsmöglichkeiten eröffnen.

Auf der Grundlage des mobilen Basismodells hat Zhuoyu begonnen, die traditionelle Einfachlogik der Tier-1-Unternehmen, "Hardware zu verkaufen und Entwicklungskosten zu verlangen", zu überwinden. In der zweiten Wachstumskurve erweitert Zhuoyu die Technologien aus dem Pkw-Bereich auf den Bereich von Robotaxi und RoboVan in der L4-Klasse und sucht nach einer neuen Geschäftsmorphologie auf der Grundlage von Abonnements, Gewinnbeteiligung und "Aktions-Token".

Kürzlich hat Auto von 36Kr mit Yu Beibei, Vizepräsidentin von Zhuoyu Technology, über die zugrunde liegende Logik des physikalischen AI, die Kommerzialisierungsmöglichkeiten und wie Zhuoyu in diesem bevorstehenden Auslesewettbewerb eine Wettbewerbsvorteilsschwelle aufbauen kann, gesprochen.

Im Folgenden ist der Inhalt des Gesprächs zwischen Auto von 36Kr und Yu Beibei, Vizepräsidentin von Zhuoyu Technology, nach Redaktion:

36Kr: Können Sie das native multimodale Basis-Modell ausführlich beschreiben?

Yu Beibei: Der Begriff des nativen Multimodals geht auf die Zeit zurück, als wir letztes Jahr mit der Entwicklung von VLA 1.0 begannen. Damals war unser Ansatz eher ein Modell, das das Sehen und die Bewegung in Einklang brachte, und das große Sprachmodell wurde erst später hinzugefügt. Daher gab es viele Probleme, wie die Beschränkungen bei der Sprach- und Semantikverstehen und die Reaktionsverzögerung.

Wir glauben, dass es unlogisch ist, alle Informationen in einen Sprachraum zu übersetzen, um die physikalische Welt zu verstehen.

Der wirklich sinnvolle Weg ist, dass das Sehen, das Hören und die Bewegung jeweils ein Modus sind, und dass Regeln und Schlussfolgerungen ebenfalls ein Modus sind. All diese sollten bereits in der Vorhersagephase miteinander kombiniert werden, damit das Modell die physikalische Welt von Anfang an in einem gemeinsamen Raum mehrerer Modi verstehen kann. Dies ist die passendere Vorgehensweise.

36Kr: Wurde der Sprachmodus jetzt entfernt?

Yu Beibei: Derzeit ist der Sprach-Eingang in unserem Fahrzeugmodell noch nicht geöffnet. Dies ist ähnlich wie bei dem von XPeng vorgestellten VLA 2.0. Wir arbeiten in ähnlicher Richtung und haben den Paradigmenwechsel vorgenommen. Das zugrunde liegende Rückgratnetzwerk hat sich bereits verändert.

36Kr: Ist Zhuoyu auch in die Phase von VLA 2.0 eingetreten?

Yu Beibei: Ja. Die Branche befindet sich an einem Wendepunkt des Paradigmenwechsels. Uns steht die Wahl zwischen dem Fortsetzen des alten Paradigmas kleiner Expertenmodelle und dem Umschalten auf das Paradigma großer Modelle.

Wir sind optimistisch in Bezug auf das Paradigma großer Modelle. Im Kontext des mobilen physikalischen AI sollten die mobilen Fähigkeiten auf verschiedenen Fahrzeugen einsetzbar sein, was im Wesentlichen den Beginn der massenhaften Anwendung bedeutet.

Die Erfahrungen mit großen Sprachmodellen haben gezeigt, dass es bei der Entwicklung von visuellen Sprachmodellen auch Expertenmodelle und allgemeine Modelle, sogenannte Basismodelle, gab.

Aus heutiger Sicht haben diejenigen, die an Basismodellen gearbeitet haben, sich durchgesetzt. Die früheren Expertenmodelle, die sich auf bestimmte Aufgaben konzentrierten, haben sich nicht durchsetzen können. Wir glauben, dass die gleichen Entwicklungsprinzipien auch im Bereich des physikalischen AI gelten, daher werden wir uns entschieden für das Paradigma des Basis-Modells einsetzen.

36Kr: Viele Anbieter arbeiten in dieser Richtung, aber bisher konnte noch kein Modell trainiert werden, das verschiedene Träger einheitlich anschließen kann. Im Wesentlichen befassen sich die Leute immer noch mit Problemen im Fahrzeug.

Yu Beibei: Dies erfolgt in Phasen. Bis 2025 werden die meisten auf die datengesteuerte Methode umgestellt haben, was bedeutet, dass die Basisfähigkeiten der Modelle ungefähr 70 Punkte erreicht haben. Um die Leistung von 70 auf 90 Punkte zu verbessern, ist es immer noch notwendig, Nachtraining durchzuführen, Daten zu sammeln und die Generalisierung zu verbessern. Der Unterschied ist jedoch von 40 auf 80 Punkte auf 70 auf 90 Punkte verringert worden.

Später, wenn die Basisfähigkeiten der Modelle weiter verbessert werden, ist unser Ziel, die Null-Sample-Generalisierung zu erreichen, also die sogenannte "Plug-and-Play"-Funktion.

Wenn die Fähigkeiten des Modells direkt nach dem Start 95 Punkte erreichen können, können die meisten Arbeiten wie Nachtraining, Generalisierung und Eröffnung neuer Märkte fast ignoriert werden. Obwohl wir noch nicht auf 95 Punkte direkt nach dem Start kommen sind, haben wir bereits 70 Punkte erreicht.

36Kr: Hat Zhuoyu in der gegenwärtigen Phase alle Szenarien in einem einzigen Modell realisiert und glaubt, dass es in allen Bereichen in Serie produziert und generalisiert werden kann, oder befindet sich es noch in einem frühen Stadium?

Yu Beibei: Zu diesem Zeitpunkt kann man noch lange nicht sagen, dass das "Plug-and-Play" erreicht ist. Welches das endgültige Paradigma des physikalischen AI ist und welche Architektur die physikalische Welt wirklich verstehen kann, ist derzeit in der Branche noch nicht klar.

36Kr: Was halten Sie von der Tatsache, dass die meisten Anbieter sich in Richtung physikalischem AI umstellen? Ist dies nur eine Geschichte für den Kapitalmarkt?

Yu Beibei: Wir glauben, dass dies nicht nur eine geschäftliche oder strategische Entscheidung ist, sondern letztendlich zu einer Existenzfrage werden wird. Wenn man nicht auf diesen technologischen Weg geht, hat man möglicherweise keine Chance mehr, sich in Zukunft durchzusetzen.

Das ist ähnlich wie vor dem Aufstieg der großen Sprachmodelle. Es gab viele Expertenmodelle, aber sobald die allgemeinen großen Modelle aufgetaucht sind, haben sie alle anderen ersetzt. Die früheren Modelle haben sich nicht durchsetzen können.

36Kr: Bei der Entwicklung eines allgemeinen Modells in diesem Paradigma, sind die Daten aus anderen Szenarien oder die anderen Voraussetzungen für das Training möglicherweise noch nicht ausreichend?

Yu Beibei: Bei der Entwicklung unseres Basis-Modells stammen 30 % der Daten aus realen Fahrzeugen, 30 % aus Robotern und 40 % aus dem Internet.

Die Daten für mobile Fähigkeiten können im Internet einfach in Form von Videos aus erster Personensicht während der Bewegung gewonnen werden. Dies muss nicht unbedingt ein Pkw oder Lkw sein, sondern kann auch ein Video sein, das von einer Person aufgenommen wird, die läuft. Die Menge dieser Daten ist riesig und relativ einfach zu erhalten.

Viele Unternehmen behaupten, mobiles physikalisches AI zu entwickeln. Die Fähigkeiten des Modells sind sicherlich wichtig, aber noch wichtiger ist es, die körperliche Intelligenz auf eine konkrete Hardware zu deployen. Der Verteilungsprozess ist sehr schwierig. Im Gegensatz zum digitalen AI, das über das Smartphone schnell von einem Benutzer auf Millionen von Benutzern verbreitet werden kann, ist die Verbreitung der körperlichen Intelligenz sehr schwierig.

Deshalb ist die Einrichtung einer Verteilungsplattform und eines Verteilungsnetzwerks ein sehr wichtiger Schritt, der entscheidet, wie diese Fähigkeiten auf mobile Fahrzeuge und physische Entitäten deployt werden können.

36Kr: Wie geht Zhuoyu bei der Verteilung vor?

Yu Beibei: Wir haben unsere eigene Methode. Beispielsweise arbeiten wir mit Partnern zusammen, definieren die Hardware-Standards und autorisieren und verteilen die Hardware über die Partner. Dies gehört zum Bereich der Hardware-Verteilung.

Bei der Software-Verteilung können wir beispielsweise unser mobiles Fähigkeiten-SDK nutzen, um die Modellfähigkeiten in ein SDK zu verpacken und es an Partner zu geben, die keine Fähigkeiten für das Nachtraining von Modellen haben. Wir können es auch als "mobiles AI" einführen, d.h. nachdem das Modell ausreichend gut ist, machen wir es Open Source, damit andere auf der Grundlage dieses Modells Nachtraining durchführen können. Dies ist eine andere Verteilungsart.

Wir können es auch direkt als "mobiler Intelligenz-Agent" gestalten. Für zukünftige Anwendungen mit geringer Sicherheit und geringer Echtzeitfähigkeit, wie Staubsauger oder Rasenmäher, können wir einfach den Videostream an die Cloud übertragen. Die Cloud berechnet dann eine Route und sendet sie direkt an das Gerät. Dies ist möglicherweise eine weitere Verteilungsart.

36Kr: Entspricht diese Verteilungsart auch dem Geschäftsmodell von Zhuoyu?

Yu Beibei: Ja, und sie richtet sich an verschiedene Geschäftsszenarien.

Die traditionelle Methode, wie beim Verkauf von Pkw oder Lkw, besteht darin, Hardware und Softwarelizenzen zu verkaufen und Entwicklungskosten und einmalige Engineering-Kosten zu verlangen. Dies nennen wir intern das Geschäft der ersten Wachstumskurve.

Die zweite Wachstumskurve besteht darin, die auf Pkw validierten Technologien auf den Bereich von Robotaxi und RoboVan auszudehnen. Obwohl wir auch Hardware verkaufen und möglicherweise Entwicklungskosten verlangen, verlangen wir normalerweise keine Softwarelizenzgebühren.

Der Softwareanteil wird über die Gewinnbeteiligung erzielt. Beispielsweise bei L4-Geschäften müssen wir als Dienstleister an der kontinuierlichen Iteration der Software und sogar an der Betriebsführung teilnehmen. Daher benötigen wir eine kontinuierliche Einnahme, was sich in das Abonnement- und Gewinnbeteiligungsmodell entwickelt hat.

36Kr: Klingt so, als ob die zweite Wachstumskurve lukrativer ist.

Yu Beibei: Im Vergleich zu den Einnahmen der ersten Wachstumskurve hat die Gewinnstruktur eine bessere Performance.

Wir können verschiedene Algorithmen-Verteilungsarten haben. Nehmen wir den "mobilen Intelligenz-Agent" als Beispiel. Diese Verteilungsart ist ähnlich wie die Verteilung von sogenannten "Aktions-Token".

Ein konsumorientiertes elektronisches Gerät überträgt den Videostream an das Cloud-Modell, das dann eine Route sendet. Die Gebühren können beispielsweise nach der Anzahl der Verwendungen oder der Fahrstrecke des konsumorientierten Geräts berechnet werden. Dies ist eine andere Form des Abonnements.

36Kr: Wird die Wartung und alle anderen Aspekte von Zhuoyu übernommen?

Yu Beibei: Bei L2-Systemen ist keine Wartung erforderlich. Erst bei L4-Systemen ist Wartung erforderlich. Es muss ein sogenanntes Fernüberwachungssystem vorhanden sein, das den Fahrbetrieb des Fahrzeugs ständig überwacht und bei Bedarf die Fernübernahme durchführt.

Dies ist ähnlich wie der OnStar-Service in der Vergangenheit. Wenn man diesen Service nutzt, muss man eine Gebühr zahlen. Sobald ein Fahrzeug die L4-Funktion aktiviert, egal ob es sich um einen LKW auf der Autobahn oder einen Pkw handelt, muss man eine zusätzliche Gebühr zahlen.

Sogar in Zukunft, wenn die Sensoren und die Rechenleistung eines Pkw die L4-Funktion unterstützen können, wird der Fahrer normalerweise das L2+-System nutzen. Wenn er die L4-Funktion aktivieren möchte, muss er für jede gefahrene Kilometer im L4-Modus eine zusätzliche Gebühr zahlen, da es ständig ein System gibt, das ihn überwacht.

36Kr: Glauben Sie, dass die Geschäftsmodelle von L2 und L4 völlig unterschiedlich sind?

Yu Beibei: Ja, die Geschäftsmodelle von L2 und L4 sind völlig unterschiedlich. Aus unserer Sicht sollten L4-Systeme zuerst in der Stadt eingesetzt werden und dann auf die Autobahn erweitert werden.

Aus Sicht der technischen Sicherheit ist der Schaden, der bei einem Unfall auf der Autobahn entsteht, viel größer als der Schaden, der in der Stadt entsteht.

36Kr: Ist die Umstellung aller Branchenakteure in Richtung physikalischem AI der Beginn eines neuen Auslesewettbewerbs?

Yu Beibei: Eine neue Branchenumlagerung könnte bald beginnen. Alle Unternehmen, die sich mit autonomem Fahren befassen, werden sich in naher Zukunft in Unternehmen für mobiles physikalisches AI umwandeln.

Wenn es um den Wettbewerb im Bereich des mobilen physikalischen AI geht, wird es zu einem grenzüberschreitenden Wettbewerb. Es ist nicht nur der Wettbewerb zwischen den bestehenden Akteuren in der Branche, sondern es muss auch mit Unternehmen konkurriert werden, die bisher im Bereich des digitalen AI tätig waren und sich jetzt in den Bereich der körperlichen Intelligenz und des physikalischen AI umstellen möchten.

36Kr: Was ist die Wettbewerbsvorteilsschwelle von Zhuoyu?

Yu Beibei: Wir glauben, dass es zwei Aspekte gibt. Erstens die Modellfähigkeiten. Derzeit ist noch nicht klar, wie das Iterationsparadigma und die endgültige Modellarchitektur aussehen werden. Vielleicht werden in Zukunft neue Architekturen wie 3D DiT oder V-JEPA erfolgreich sein, aber alles ist noch ungewiss.

Zweitens ist die Verteilungsfähigkeit eine sehr hohe Schwelle. Die Einrichtung einer Verteilungsplattform und eines Verteilungsnetzwerks sowie die Schaffung einer Ökosystem und die Zusammenarbeit mit verschiedenen Partnern bei der Verteilung sind sicherlich eine sehr hohe Schwelle.

Dieser Artikel wurde ursprünglich von「肖漫」produziert， Für Nachdruck oder Inhaltszusammenarbeit klicken Sie bitte auf Hinweise zum Nachdruck ；Bei unbefugtem Nachdruck wird strafrechtlich verfolgt.

Zhuoyu's Yu Beibei: Transitioning to Physical AI is an Inevitable Choice for the Law of Survival | Frontline News