Zhu Zheng von Jijin Shijie: Das Weltmodell - Die nächste Generation der Infrastruktur für KI in der physischen Welt

Kürzlich lud die zweite Sondersitzung der AI Blue Whale World Model mit dem Thema „Weltmodelle unter dem neuen Paradigma führen räumliche Intelligenz an“ ZHU Zheng, Mitbegründer und Chefwissenschaftler von Reconova, ein, um einen Themenvortrag mit dem Titel „Weltmodell: Eine neue Ära der KI in der physischen Welt einläuten“ zu halten.

AI Blue Whale Summit wurde von mehreren erfahrenen AI-Praktikern und Investoren gemeinsam gegründet. Mit dem Kernkonzept von "kleine Skala, hoher Standard, tiefer Austausch" lädt es langfristig führende AI-Praktiker, Technologieexperten, Unternehmer und Investoren ein, um ehrliche Gespräche über reale Branchenthemen zu führen. Es ist darauf gerichtet, hochwertige AI-Projekte zu entdecken und zu fördern und jungen Unternehmern zu helfen, in der AI-Welle die wirklich umsetzbare Richtung zu finden.

Im zweiten Thema der Weltmodell-Serie richtet der AI Blue Whale Summit seinen Blick auf den entscheidenden Schnittpunkt zwischen Embodied Intelligence und Spatial Intelligence. Im Vergleich zur bloßen Diskussion über "wie stark die Modellfähigkeiten sind" widmet sich diese Veranstaltung eher einem Problem, das sich der Kern der Branche nähert: Wenn die Embodied Intelligence von der Laboreuphorie zur Branchenkonkurrenz übergeht, muss die Branche nicht nur die Frage beantworten, "kann der Roboter sich bewegen", sondern auch, "kann er in der komplexen realen Welt stetig mehrere Dutzend oder sogar Hunderten von Aufgaben erfüllen".

In letzter Zeit lud der AI Blue Whale Summit im zweiten Thema der Weltmodell-Serie "Weltmodelle im neuen Paradigma leiten die Spatial Intelligence an" Zhu Zheng, Mitbegründer und Chefwissenschaftler von Jijia Vision, ein, um einen Vortrag mit dem Titel "Weltmodelle: Ein neues Zeitalter der AI in der physischen Welt eröffnen" zu halten. Zhu Zheng führte einen tiefgehenden Austausch mit den Gästen vor Ort über vordergründige Themen wie Weltmodelle, VLA, Spatial Intelligence, Edge-Bereitstellung und die Umsetzung von Embodied-Szenarien.

Der Wert dieses Vortrags liegt nicht darin, das beliebte Konzept des "Weltmodells" erneut zu erklären, sondern darin, die heißesten Begriffe aus dem Kapitalmarkt und der Technologiebranche wieder in die reale Ingenieurpraxis zurückzuführen: Warum hat der Skaleneffekt von VLA noch nicht wie erwartet eingesetzt? Warum wird das Weltmodell als wichtige Richtung für das nächste Generation von Basis-Modellen angesehen? Wo liegen die echten Engpässe, die den Branchenfortschritt bestimmen, zwischen Daten, Edge-Bereitstellung, dexteren Händen, Kosten und Haushaltszenarien?

Die wahre Bedeutung des Weltmodells besteht darin, Roboter von der "Aktionsausführung" zur "Weltverstehen" zu bringen

Zhu Zhengs Definition des Weltmodells ist nicht, es als eine unabhängige Abzweigung neben Videoerzeugung, Raumrekonstruktion oder Embodied Intelligence zu betrachten, sondern es als das nächste Generation von Basis-Modellen für die AI in der physischen Welt. In den letzten Jahren hat die Branche zunächst den Ausbruch von Sprach-Basis-Modellen erlebt und ist dann in die Phase der Embodied-Basis-Modellen eingetreten. In seiner Ansicht wird es in Zukunft nicht nur ein größeres Aktionsmodell sein, das Roboter in die Lage versetzt, in offenen Umgebungen, Mehrfachaufgaben-Szenarien und Haushaltsräumen zu operieren, sondern ein Modellsystem, das den Zustand der Welt vorhersagen und komprimieren kann.

Darum betont er wiederholt, dass "das Weltmodell nicht für Demonstrationen, sondern für die Umsetzung gedacht ist". Für einzelne Aufgaben, geschlossene Arbeitsplätze oder feste Abläufe kann das aktuelle Embodied-Modell nach dem Nachtraining bereits eine ziemlich hohe Erfolgsrate erzielen. Sobald das Ziel jedoch die Fähigkeitstransfer über Szenarien, Aufgaben und Ontologien wird, ändert sich die Situation sofort. Der Roboter muss nicht nur eine vordefinierte Aktion ausführen, sondern auch die Umweltveränderungen verstehen, die Auswirkungen seiner Handlungen ableiten und übertragbare Repräsentationen zwischen den Aufgaben aufbauen. In diesem Sinne bildet das Weltmodell den Ausgangspunkt des "neuen Zeitalters der AI in der physischen Welt": Es bringt Roboter von "Aktionsausführern" zu "Weltverstehern".

Der Übergang von VLA zu Weltmodell erfolgt, weil der Skaleneffekt der alten Route schwächer wird

Die wichtigste Einschätzung in Zhu Zhengs Vortrag basiert auf den direkten Beobachtungen seines Teams in internen Experimenten. In der vergangenen Zeit hatte die Branche hohe Erwartungen an VLA, dass es wie Sprachmodelle nach der kontinuierlichen Vergrößerung der Datenmenge automatisch eine stärkere Generalisierungsfähigkeit entfalten würde. Aber aus ihrer Praxis heraus hat sich gezeigt, dass diese Kurve nicht wie erwartet steil ansteigt. Selbst wenn die Trainingsdaten von anfänglich zehntausend Stunden auf mehrere zehntausend Stunden erweitert wurden, war die Verbesserung der Modellfähigkeiten in der Vor-Trainingsphase immer noch begrenzt. Um die Erfolgsrate der Aufgaben auf 95% oder sogar 99% zu bringen, hängt es immer noch stark von Nachtraining und Szenariokonfiguration ab.

Dies bedeutet, dass das Problem nicht mehr einfach darin besteht, "dass es noch nicht genug Daten gibt", sondern dass der Skaleneffekt der bestehenden Route seine Grenzen zeigt. Deshalb sieht Zhu Zheng das Weltmodell als Ersatz- und Verstärkungslösung für die nächste Phase: Einerseits kann es als neues Basis-Modell direkt die Vorhersage zukünftiger Zustände lernen; andererseits kann es auch mit VLA kombiniert werden, um die zukünftige Ableitung im expliziten oder impliziten Raum für die Aktionserzeugung bereitzustellen, wodurch ineffiziente Aktionen reduziert, die Mehrfachaufgabenfähigkeit verbessert und eine bessere Anpassung bei Aufgaben mit wenigen Beispielen erreicht werden kann. Dies ist auch einer der wichtigsten Konsenspunkte in der Diskussion vor Ort: Das Weltmodell soll nicht alles ersetzen, sondern die entscheidenden Lücken von VLA in der physischen Vorhersage und der Erweiterung über Aufgaben hinweg schließen.

Die Datenstrategie muss sich von der "Einfachpfadverehrung" zur "Multi-Source-Heterogenität-Kooperation" wenden, und das Sehvermögen ist derzeit der realistischste Zugang

Bei der Datenfrage zeigt Zhu Zheng eine deutlich praktischere Einstellung. Er stimmt nicht mit der häufigen Praxis in der Branche überein, "sich auf ein bestimmtes Datenparadigma zu konzentrieren", sondern betont die Komplementarität von Multi-Source-Daten. Aus der Praxis seines Teams geht hervor, dass Ferngesteuerdaten, Daten aus erster Person, Internetvideos, öffentliche Daten, selbst gesammelte Daten und modellgenerierte Daten alle ihren eigenen Trainingswert haben. Der Schlüssel liegt nicht darin, alles auf eine Karte zu setzen, sondern darin, wie diese Daten mit unterschiedlicher Verteilung in ein und dasselbe Trainingssystem integriert werden können.

Zur gleichen Zeit hat er auch die Phasengrenzen klar definiert. Heute eignen sich für die Massen-Vor-Training hauptsächlich noch visuelle Daten, da ihre Erfassungskosten am niedrigsten, ihre Menge am größten und ihre Reife am höchsten sind. Was die Modalitäten wie Haptik, Reibung, Griffgefühl und Kraftrückmeldung betrifft, die die Obergrenze der feinen Interaktion von Robotern bestimmen, sind sie zwar äußerst wichtig, aber vorerst noch nicht ausreichend, um ein allgemeines Vor-Training zu unterstützen. Sie können nur mehr in die Nach-Training- und spezifische Aufgabenoptimierungsphase einbezogen werden. Die Fragen und Antworten vor Ort haben dies noch deutlicher gemacht: Haushaltszahldaten sind zwar sehr wertvoll, aber ihre Erfassung ist äußerst sensibel, und die Privatsphäre- und Compliance-Probleme sind weit komplexer als bei der autonomen Fahrweise. Daher kann die Branche derzeit nicht warten, bis alle Modalitäten und Szenarien reif sind, sondern muss zunächst über den visuellen Zugang die erste Generation von nutzbaren Weltmodellfähigkeiten aufbauen und dann schrittweise zu einer vollständigeren physischen Interaktion voranschreiten.

Die richtige Reihenfolge der Kommerzialisierung ist nicht, zuerst die Haushaltsgeschichte zu erzählen, sondern zuerst die industriellen und halbdienstlichen Szenarien zu optimieren

Zhu Zheng hat eine klare Einschätzung über die technologische Entwicklung und die kommerzielle Reihenfolge. Er sieht das "Eintreten in die Haushalte" nicht als das derzeit realistischste Ziel, sondern teilt die Branche in zwei Phasen auf: Die erste Phase sind die industriellen und halbdienstlichen Szenarien, und die zweite Phase ist die offene und komplexere allgemeine Dienstleistung und das Haushaltsumfeld. Der Vorteil der ersten Phase liegt darin, dass die Aufgabengrenzen relativ klar sind, das Nachtraining kontrollierbar ist und der Lieferweg eindeutig ist. Daher eignet sich diese Phase besser als Trainingsplatz für die Modelliteration. Die zweite Phase hat zwar den größten Vorstellungsraum, erfordert aber eine stärkere Generalisierungsfähigkeit, eine höhere Sicherheit und niedrigere Kosten.

Diese Einschätzung wurde auch in den Fragen und Antworten ausführlich ergänzt. Derzeit können Roboter in Szenarien wie Lagerhaltung, Transport, Sortierung und kommerzieller Dienstleistung nach einem geringen Szenarien-Nachtraining stabile Lieferungen leisten. Bei einigen Aufgaben können die Modelle mit nur einigen tausend Daten und ein paar Tagen Nachtraining in einen nutzbaren Zustand gebracht werden. Im Vergleich dazu müssen die "Modell der nächsten Generation", die wirklich in die Haushalte gelangen sollen, höhere Anforderungen erfüllen: Sie müssen nicht nur mehrere Dutzend oder sogar Hunderten von Aufgaben abdecken, sondern auch die Fähigkeit haben, neue Aufgaben nach nur einer Demonstration zu lernen. Mit anderen Worten, was heute in der Branche möglich ist, ist ein "Szenarien-Closed-Loop", nicht ein "Allgemeiner-Closed-Loop". Wer zuerst den ersten Teil gut macht, hat das Recht, weiter zum zweiten Teil zu gehen.

Die letzte Schwelle für Haushaltsroboter ist nicht nur das Modell, sondern auch die Edge-Rechenleistung, die dexteren Hände und die Gesamtkosten

Wenn die industriellen Szenarien die Frage "kann es verwendet werden" prüfen, dann ist es in den Haushaltszenarien die Frage, "kann es langfristig, kostengünstig und natürlich verwendet werden". Zhu Zheng hat vor Ort eine ziemlich direkte Einschätzung gegeben: Was die Haushaltsroboter wirklich am Eintritt in den Massenmarkt hindert, ist nicht nur die Modellfähigkeit, sondern auch die Edge-Bereitstellung, der Gesamtpreis, die Akkulaufzeit, die Systemzuverlässigkeit und die dexteren Hände sowie andere Schlüssel-Hardwarefähigkeiten. Laut den Informationen im Vortrag wird derzeit in den lieferbaren Produkten auf der Edge-Seite immer noch ein leichtgewichtiges Modell ausgeführt, und die Weltmodell-Route selbst kann noch nicht direkt auf den vorhandenen Endgeräten in Echtzeit bereitgestellt werden. Der Gesamtpreis und der Verkaufspreis liegen auch noch in einem Bereich, der für normale Haushalte nicht akzeptabel ist.

Tiefer als die Kosten liegt die Tatsache, dass die Fähigkeit der feinen Bedienung noch nicht ausgereift ist. In der Diskussion vor Ort haben mehrere Gäste das Problem auf die "Hände" konzentriert: Dextere Hände, Haptiksensoren, Reibungsrückmeldung und hochgradige Freiheitsgrade der Steuerung können nicht einfach durch das Hinzufügen eines Hardwaremoduls gelöst werden, sondern es handelt sich um ein Systemprojekt, das das Modell, die Wahrnehmung, die Aktoren und die Datenerfassungsmethode betrifft. Zhu Zhengs Einschätzung ist, dass diese Fähigkeiten äußerst wichtig sind, aber es noch einen langen Weg bis zur echten Hochleistung, niedrigen Kosten und Skalierbarkeit gibt. Deshalb liegt der Wert des Weltmodells nicht darin, uns heute sofort Haushaltsroboter zu liefern, sondern darin, dass es die richtige Richtung für die nächste Phase vorgibt: Von Robotern, die nur feste Aktionen ausführen können, zu intelligenten Agenten in der physischen Welt, die vorhersagen, anpassen, übertragen und lernen können.

In diesem Themensprech hat Zhu Zheng nicht nur ein technisches Schlagwort aufgeworfen, sondern auch eine klare Branchenbeurteilung: Die nächste Phase der AI in der physischen Welt wird nicht durch komplexere Demos definiert, sondern durch neue Basis-Modelle. VLA hat bewiesen, dass Roboter Aufgaben verstehen können, und das Weltmodell soll lösen, wie Roboter die Welt verstehen können. Wer zuerst die Vorhersagefähigkeit, das Datensystem, den Szenarien-Closed-Loop und die Ontologiefähigkeiten integrieren kann, hat bessere Chancen, den echten Zugang in die neue Ära der AI in der physischen Welt zu erobern.

Frühere Empfehlungen

AI Blue Whale Summit × Wanjie Ark: Token-Boni für AI-Startups

Dieser Artikel stammt aus dem WeChat-Account "T-ONE Innovation Center", Autor: AI Blue Whale Summit, veröffentlicht von 36Kr mit Genehmigung.

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Zhu Zheng von Jijin Shijie: Das Weltmodell ist die nächste Generation der Infrastruktur für KI in der physischen Welt