Gespräch mit He Xiaopeng: Stärkendes Lernen ist veraltet, Embodied AI sollte nicht auf Hardware basieren.
Der erste Turing-Test-Moment in der Geschichte der Embodied AI-Robotik gehört XPeng:
Genau wie He Xiaopeng selbst antwortete: "Danke für die Anerkennung". Die Frage, ob es sich um einen "Kostümbesetzer" handele, war eigentlich eine Bestätigung für XPengs Technologie. Nur war die Art der Antwort überraschend "grausam": Im Livestream wurde der Roboter Schicht für Schicht zerlegt, und nacheinander wurden Haut, Muskeln, Skelett... freigelegt.
Nachdem der Test abgeschlossen war, sprachen wir unverzüglich mit He Xiaopeng: Warum sich auf diese so dramatische Weise selbst beweisen? Weiß der Roboter, dass er geschädigt wird? Warum muss er so menschenähnlich sein? Wie können Roboter und autonomes Fahren integriert werden...
Natürlich sprachen wir auch über XPengs neue Fahrzeuge und Technologien, das Gewinnversprechen zu Jahresbeginn und die hohe "Zufälligkeit" der Ähnlichkeit mit Tesla usw.
(Das Interview wurde für bessere Lesbarkeit bearbeitet, ohne die ursprüngliche Bedeutung zu ändern)
Über Roboter: Das Team war traurig, dass es auf diese Weise bewiesen werden musste
Frage: Warum sich auf diese "dramatische" Weise selbst beweisen?
He Xiaopeng: Die letzten 24 Stunden waren sehr aufregend. Es war sehr schwierig, unser Roboterteam zu überzeugen, denn sie hielten IRON für ihr "Kind" und waren zunächst gegen diese Vorgehensweise.
Aber wir wollten nicht nur 1 % der Branchennutzer, sondern auch 99 % der Nicht-Branchennutzer mehr Vertrauen haben lassen und mehr über XPengs Fähigkeiten informieren. Wir wollten, dass sie glauben, dass XPeng etwas Besonderes schaffen kann und dass chinesische Technologieunternehmen etwas einzigartiges hervorbringen können.
Selbst nachdem die Haut und die Muskeln geöffnet wurden, ging IRON immer noch elegant. Ich denke, das war genug.
Wenn wir die schnellere Verbreitung von Robotern vorantreiben können, haben wir gewonnen.
Frage: Wann werden Roboter in der Zukunft selbst erkennen können, dass die gegenwärtigen Manipulationen für sie schädlich sind?
He Xiaopeng: Ehrlich gesagt weiß ich es nicht. Wenn der Roboter wüsste, was wir mit ihm tun, hätte er uns es heute nicht erlauben lassen, ihn aufzuschneiden. Ich denke, dass es viele Jahre dauern wird, bis es so weit ist, ich glaube, dass es unmöglich ist.
Frage: IRONs Katzenwalk wurde sehr populär, aber im Internet kursieren zahlreiche Videos von Robotern, die Hip-Hop-Tänze oder Boxen machen. Die Bewegungen sind viel komplexer als die "Katzenwalk". Sind diese Roboter stärker als die von XPeng? Was ist das Kriterium für die Qualität von Embodied AI-Anbietern?
He Xiaopeng: Ich denke, es hängt von der Anwendungsszene und dem Zweck ab. Beispielsweise will XPeng hochwertige humanoide Roboter entwickeln, keine Vierbeiner oder kleine Modelle.
Zweitens glaube ich, dass Embodied AI-Software und Hardware im Verhältnis 1:1 stehen sollten, und nicht dass die Hardware im Vordergrund steht. Es geht nicht nur um die Eigenentwicklung aller Komponenten, sondern auch um die Integration und Fusion, um die Balance und das Gleichgewicht des gesamten Körpers, einschließlich Gehirn, Kleinhirn und Gesicht, zu gewährleisten.
Die Logik des maschinellen Lernens kann einige Gelenke gut steuern, aber es ist nicht in der Lage, alle 82 Gelenke des Körpers eng zusammenzuarbeiten.
Deshalb haben wir uns für einen anderen Weg entschieden, der schwieriger ist. Ich weiß noch nicht, ob dieser Weg zum Ziel führt.
Frage: Warum setzt XPeng bei der Entwicklung von Robotern auf eine hohe Grad an Humanisierung? Eine hohe Grad an Humanisierung erfordert sehr hohe Kosten. Wie trifft XPeng Automobile Handelsentscheidungen?
He Xiaopeng: Ich denke, dass es in der Zukunft verschiedene Formen von hochwertigen Robotern geben wird, aber humanoide Roboter haben drei Vorteile - Erstens müssen Roboter, um intelligent zu sein, nicht auf Regeln setzen, sondern auf KI. Und nur aus der menschlichen Welt können sie die meisten Daten lernen.
Zweitens sind die meisten Szenarien in dieser Welt, wie beispielsweise Haushalte und Fabriken, für Menschen entworfen, gebaut und betrieben. Je menschenähnlicher ein Roboter ist, desto einfacher kann er sich an diese Welt anpassen.
Drittens sind humanoide Roboter aus Kaufsicht eher sympathisch, was möglicherweise zu höheren Verkaufszahlen führt. Höhere Verkaufszahlen ermöglichen Skaleneffekte, wodurch die Kosten sinken und ein positiver Kreislauf entsteht.
Frage: Welchen Anteil an Bauteilen können XPengs neue Roboter und Fahrzeuge gemeinsam nutzen?
He Xiaopeng: Ich habe keine genaue Antwort, aber viele Prozesse sind gleich, wie beispielsweise die Wahrnehmung und die Domänencontroller. 70 % der KI-Software ist identisch, aber die Gelenke und die Haut der Roboter gibt es bei Fahrzeugen nicht.
Über Physical AI: Die Verkaufszahlen von Robotern werden die von Fahrzeugen übertreffen
Frage: Zwei führende Robotaxi-Unternehmen haben sich gleichzeitig an der Hongkonger Börse notiert. Sie betonen immer noch, dass es einen grundlegenden Unterschied zwischen Assisted Driving und Autonomous Driving gibt und halten es für sinnlos, L4-Fahrzeuge noch mit Fahrern auszustatten. Wie kann XPeng beweisen, dass sein Ansatz richtig ist?
He Xiaopeng: Ich denke, ich werde nicht versuchen, andere zu widerlegen. Sie mögen richtig oder falsch liegen, es ist eine andere Richtung.
Nächstes Jahr werden wir drei Robotaxi-Modelle einführen, die Autonomous Driving tatsächlich so gut umsetzen, dass es nur einmal im Monat, einmal alle drei Monate oder sogar einmal alle sechs Monate zu einem Eingriff des Fahrers kommt. Die Nachfrage nach ROBO-Modellen wird sehr hoch sein.
Technologische Revolutionen führen zu Veränderungen der Benutzererfahrung und schaffen neue Szenarien und Bedürfnisse.
Es gibt keine richtigen oder falschen Entscheidungen, sondern verschiedene Unternehmen treffen verschiedene Entscheidungen, um verschiedene Ziele zu erreichen.
Frage: Was will XPeng bei der Formulierung von Branchenstandards mit der Open-Source-Version von VLA 2.0 erreichen?
He Xiaopeng: Wir haben in der zweiten Generation von VA viel Zeit und Geld investiert und viele Fehlschläge gemacht. Indem wir dies auf dem Tech Day preisgeben, möchten wir der Branche zeigen, dass der von uns erkundete Weg möglicherweise ein erfolgreicher ist. Sie können ihn gerne nutzen, und wir hoffen natürlich auch auf Anerkennung.
XPeng ist sicherlich eines der Unternehmen mit starkem Software-Know-how. Viele Unternehmen befürchten, dass ich zwar Hardware verstehe, aber keine Software, und fragen sich, was ich dann tun werde. Die Open-Source-Version des VLAd-Modells von XPeng kann ihnen mehr Vertrauen geben. Man muss sich selbst zuerst beweisen, bevor man andere dazu bringen kann, neue Fähigkeiten freizugeben.
Frage: Welchen Anteil soll der Physical AI-Bereich am Gesamtumsatz von XPeng Automobile haben?
He Xiaopeng: Der Automarkt weltweit ist ein Markt von Billionen von US-Dollar. Jährlich werden 90 Millionen Fahrzeuge hergestellt. Ich persönlich glaube, dass der Markt für Roboter 20 Billionen US-Dollar wert sein wird, obwohl dies möglicherweise 10 bis 20 Jahre dauern wird und nicht so schnell passieren wird. Die Entwicklung des Automarktes verläuft oft linear, da es eng mit strengen Sicherheitsvorschriften und politischen Rahmenbedingungen zusammenhängt. Im Gegensatz dazu wird die Entwicklung von Robotern, sobald der technologische und produktbezogene Wendepunkt erreicht ist, exponentiell ansteigen. Ich habe mir noch nicht überlegt, wie viele Roboter wir in zehn Jahren pro Jahr verkaufen können, aber ich denke, dass die Verkaufszahlen definitiv die von Fahrzeugen übertreffen sollten.
Frage: Wie gewährleistet XPeng Automobile die Rentabilität bei der Umsetzung des Robotaxi-Projekts? Wie unterscheidet sich das Geschäftsmodell von denen anderer Robotaxi-Unternehmen?
He Xiaopeng: XPeng ist möglicherweise ein unterschiedliches Robotaxi-Unternehmen. Wir haben serienmäßig vorkonfigurierte Fahrzeuge hergestellt. Unser Denkansatz ist nicht, dass die Technologie im Vordergrund steht, sondern dass wir uns fragen, ob unser Vorhaben kommerziell und für die Benutzer wertvoll ist, ob es einen technologischen Wendepunkt schafft und ob die Regierung und die Gesellschaft es akzeptieren.
XPeng wird auch Fahrzeuge mit Robo-Fahrassistenzsystemen anbieten, die direkt an Endverbraucher verkauft werden können. Dies kann die BOM-Kosten (ein wesentlicher Kostenfaktor bei der Fahrzeugentwicklung, Beschaffung, Herstellung und Montage) und die Forschungs- und Entwicklungsausgaben erheblich senken. Darüber hinaus können die Kosten für Robotaxi und Fahrzeuge von XPeng gemeinsam getragen werden, was uns im Vergleich zu anderen Unternehmen einen erheblichen Kostenvorteil von mehreren zehn Prozent oder sogar ein Vielfaches darstellt.
Außerdem benötigen wir keine hochauflösenden Karten, keine Straßenaufnahmen und keine Lidar-Sensoren. Wir denken eher wie Menschen in der realen Welt, was uns eine breitere Anwendbarkeit und Generalisierbarkeit sowie keine zusätzlichen Implementierungskosten bietet. Ich bin fest davon überzeugt, dass zukünftige vierrädrige Verkehrsmittel eine Kombination aus geteilten und privaten Fahrzeugen sein werden. Ich glaube nicht, dass alle Fahrzeuge zu Robotaxis werden.
In diesem Sinne bietet XPeng bei Robotaxi ein "Toolbox"-Konzept an, das Fahrzeuge, Software und SDK-Schnittstellen umfasst. Wir stellen diese Ressourcen unseren Partnern in verschiedenen Ländern und Regionen zur Verfügung, damit sie unsere Robotaxi-Fahrzeuge betreiben können.
Frage: Warum hat XPeng Robotaxi zuerst eine globale Ökosystem-Partnerschaft mit Gaode eingegangen?
He Xiaopeng: Gaode war früher von uns verwaltet, es ist also mein ehemaliger Arbeitgeber. Zweitens ist Gaode eine sehr große Mobilitätsplattform in China. Daher denke ich, dass es sinnvoll ist, dass sie die Fahrzeuge betreiben und wir die Toolbox bereitstellen. Dies entspricht der strategischen Ausrichtung beider Unternehmen.
Frage: Warum wird nicht auf L3 eingegangen, sondern direkt auf L4 abgezielt?
He Xiaopeng: Ich denke, dass es in Zukunft nur L2 und L4 geben wird, kein L3, da L3 weder L2 noch L4 ist.
Frage: Wurde bei XPengs zweiter Generation von VLA (Vision-Language-Action) wirklich das "L" vollständig entfernt, oder wurde es in andere Token-Formen umgewandelt?
He Xiaopeng: Wir haben V+L. Wir haben es nicht in menschliche Sprache und Formate umgewandelt, sondern in eine neue Sprache der realen Welt. Es ist keine für Menschen sichtbare und erkennbare Sprache, aber es ist effizienter und reichhaltiger. Zweitens können wir die Decodierungsprozesse nachvollziehen. Beispielsweise können wir erklären, warum ein Fahrzeug anstatt nach links geradeaus fährt. Dies haben wir bereits in der Bewertung des physikalischen Weltmodells erreicht.
Frage: Auf der XPeng Automobile Tech Day wurden verschiedene Anwendungen von Physical AI vorgestellt. Welche weiteren Anwendungsfälle und Träger für Physical AI haben Sie in Zukunft vor?
He Xiaopeng: Unternehmen, die früher starten, haben einen Vorteil. Ein wichtiger Aspekt von Physical AI ist der First-Mover-Vorteil, der in der realen Welt bisher nicht zu beobachten war.