Huawei's Embodied Brain No. 1 is developing a brain-inspired intelligent world model, competing with JEPA, and has received hundreds of millions of yuan in financing | Exclusive Report by Yingke
Autor | Huang Nan
Redakteur | Yuan Silai
Hard Krueger hat erfahren, dass das Unternehmen für körperliche Intelligenz „Juenao Panshi“ eine neue Runde von Finanzierungen im Milliardenbereich abgeschlossen hat. Diese Runde von Finanzierungen wurde von Spitzenbranchenkapital mit tiefgreifender Branchenbackground in der Bereich der Hirn- und körperlichen Intelligenz geleitet. Alte Aktionäre und mehrere Spitzenfonds haben wieder investiert und mitinvestiert. Duowei Capital fungiert als exklusiver Finanzberater. Gleichzeitig ist eine weitere Runde von Finanzierungen in der Abwicklung.
Das Kapital wird vor allem in die Forschung und Entwicklung von Kerntechnologien, die Erweiterung des Personalteams und die globale Markterweiterung investiert, um die Forschung und Entwicklung, die Engineering-Implementierung und die Validierung in realen Szenarien des Kognitiven Weltmodells (Cognitive World Model) zu beschleunigen.
Kognitives Weltmodell der Hirn-ähnlichen Intelligenz (Bildquelle/Unternehmen)
Juenao Panshi wurde im Jahr 2025 gegründet und baut auf der Hirn-ähnlichen Intelligenz als Basisparadigma ein Kognitives Weltmodell (Cognitive World Model) für die reale physische Welt auf. Das Unternehmen wurde von Zhu Senhua, dem „Ersten in der körperlichen Intelligenz bei Huawei“, gegründet und er fungiert als CEO. Er hat sich lange Zeit auf die Kreuzforschung zwischen KI und Hirnkognition konzentriert, hat an der Sun Yat-sen-Universität an der Informatik und KI geforscht, promoviert an der Universität von Pennsylvania in der Kognitiven Neurowissenschaft und hat seine Postdoktorandenforschung am Nationalen Schwerpunktlabor für Hirn- und Kognitionwissenschaften der chinesischen Akademie der Wissenschaften abgeschlossen.
Nach seinem Eintritt in Huawei hat Zhu Senhua als Direktor des AI-Algorithmus-Innovations-Lab von Huawei Cloud gearbeitet, Projekte wie die Cloudplattform für KI-Hirnwissenschaft, das Pangu-Körperliche Großmodell und das globale Innovationszentrum für körperliche Intelligenz geleitet und verantwortet. Er hat die systematische Validierung der Fusion von Weltmodell und Hirn-ähnlicher Intelligenz vorangetrieben und ist der Begründer der körperlichen Intelligenz von Huawei. Er verfügt über die kombinierte Fähigkeit in der Forschung der Hirnkognition, der Innovation und Validierung der Hirn-ähnlichen KI-Route und der Implementierung der körperlichen Intelligenz in der Branche.
Zhu Senhua an der chinesischen Technologieanwendungssummit für humanoide Roboter teilgenommen (Bildquelle/Unternehmen)
Der Mitbegründer Liu Jinyu hat sich lange Zeit auf die Produktivierung und Kommerzialisierung von KI-Robotertechnologien konzentriert und hat mehrere Produktabteilungen von Grund auf aufgebaut und weltweit kommerziell umgesetzt. Mehrere Partner in Technologie, Lieferkette und Betrieb stammen aus Forschungsinstituten wie Tsinghua-Universität, Peking-Universität, Fudan-Universität und der chinesischen Akademie der Wissenschaften und haben an der KI-Algorithmusentwicklung, Robotersystemen, Lieferketten und globaler kommerzieller Umsetzung in Unternehmen wie Huawei, Lenovo, Megvii und Geek+ teilgenommen. Das ursprüngliche Team deckt den gesamten geschlossenen Kreis von der vordersten Forschung über die Modellentwicklung bis zur Systemengineering-Umsetzung ab.
In den letzten 12 Monaten hat sich die Branche der körperlichen Intelligenz schnell entwickelt. Der beliebte Begriff in der Branche hat sich von „VLA“ auf „Weltmodell“ gewandelt.
Feifei Li hat sich auf die Raumintelligenz geeinigt, Yann LeCun hat das AMI Labs gegründet, um die kausale Inferenz zu erforschen, und Technologiegiganten wie NVIDIA und Google DeepMind beschleunigen die Entwicklung von physikalischer Simulation und realer Interaktionstechnologie. Hinter der Begeisterung bleibt jedoch eine grundlegende Frage unbeantwortet: Was genau ist ein Weltmodell? Ist es ein neues akademisches Konzept, die Kerntechnologie der nächsten Generation von KI oder ein vorübergehender Begriff, der immer wieder vom Markt validiert wird? Die Definitionen und Ansätze verschiedener Teams unterscheiden sich voneinander.
Zhu Senhua, der Gründer von Juenao Panshi, ist der Meinung, dass man zuerst die Wurzel der Frage verstehen muss, um die Antwort zu finden. „Um das Weltmodell wirklich zu verstehen, muss man seine technologische Herkunft und die Kernanforderungen klären und wissen, woher es kommt und welches grundlegende Problem es in der Branche lösen soll.“ Zhu Senhua hat Hard Krueger darauf hingewiesen: „Die zugrunde liegende Logik des Weltmodells ist in das 'Mentale Modell' der Hirn- und Kognitionswissenschaften verwurzelt. Es ist ein vorderstes Kreuzsystem zwischen der gegenwärtigen Hirnwissenschaft und KI. Ohne dieses kognitive System bleiben die meisten Diskussionen leicht auf der Ebene der Anordnung und Kombination von technischen Begriffen. Heute ist es VLA kombiniert mit Weltmodell, morgen ist es Weltmodell kombiniert mit VLA. Es scheint, als würde es schnell weiterentwickelt, aber tatsächlich wird die technische Essenz nicht erreicht.“
Diese Einschätzung hat direkt die Wahl der technischen Route von Juenao Panshi beeinflusst. Aus Sicht des Teams von Juenao Panshi geht die körperliche Intelligenz von der 'Bewegungsintelligenz' zur 'Kognitionsintelligenz'. Der Kern der nächsten Phase besteht nicht nur darin, dass Roboter Aufgaben verstehen und Aktionen ausführen können, sondern auch darin, dass Roboter die Fähigkeiten des abstrakten Lernens von kleinen Stichproben, der mehrdimensionalen Umweltwahrnehmung, des Langzeitgedächtnisses und der aktiven Inferenz haben und stabil in verschiedenen Szenarien in der realen Welt agieren können.
Allerdings stehen der Umsetzung der körperlichen Intelligenz derzeit noch mehrere Engpässe im Weg: Die massenhafte Erfassung von hochwertigen realen Daten ist schwierig, die Generalisierungsfähigkeit des Modells in verschiedenen Szenarien ist unzureichend. Wenn ein Roboter in eine neue Umgebung eintritt, muss er oft neu trainiert werden, und Roboter fehlen auch die Fähigkeiten des Langzeitgedächtnisses und des kontinuierlichen Lernens. Die Daten können nicht unbegrenzt gesammelt werden, und die Rechenleistung ist auch keine unbegrenzte Ressource.
Im Gegensatz dazu kann das menschliche Gehirn ohne eine riesige Menge an Lehrdaten und ohne hohe Energie- und Rechenleistungskosten kontinuierlich lernen, wahrnehmen, erinnern, vorhersagen, planen und handeln in einer komplexen und sich ständig ändernden Umgebung. Dies ist der Grund, warum Juenao Panshi die Hirn-ähnliche Intelligenz als Basisroute gewählt hat. Das heißt, nicht einfach die Struktur des Gehirns zu simulieren, sondern die Kernfähigkeiten wie die funktionellen neuronalen Mechanismen der Intelligenz des Gehirns zu extrahieren und in berechenbare Algorithmen und Architekturen umzuwandeln, um schließlich das nächste Generation von körperlichen Intelligenzgehirnen zu konstruieren.
Juenao Panshi hat von Anfang an ein kognitives Weltmodell auf Basis der Hirn-ähnlichen Intelligenz vorgeschlagen, das in die gleiche Richtung wie die von Yann LeCun vorgeschlagene JEPA (Joint Embedding Predictive Architecture) geht. Basierend auf der gemeinsamen Theorie der aktiven Inferenz in der Kognitionswissenschaft konzentriert es sich auf die Inferenz, Planung und Modellierung der realen Welt. Der Wert von JEPA liegt darin, dass die KI nicht nur 'aussichtlich richtige' Ergebnisse generiert, sondern auch lernt, wie sich der Zustand in einem abstrakten Repräsentationsraum entwickelt und zukünftige Trends inferiert, um so näher an den zugrunde liegenden Gesetzen der menschlichen Gehirnperzeption der realen Welt zu kommen.
Aber für Roboter, die in der realen Umgebung Aufgaben ausführen müssen, reicht die Fähigkeit der 'Repräsentation - Vorhersage' nicht aus, um einen vollständigen Intelligenzkreis zu bilden.
Intelligenzkreis (Bildquelle/Unternehmen)
Ein anschauliches Beispiel ist, dass ein Mensch beim Überqueren der Straße nicht die Geschwindigkeit, den Abstand und die Ampelzeiten der Fahrzeuge vor, hinter, links und rechts genau messen muss. Er braucht nur einen kurzen Blick auf die Umgebung, um sicher mit passender Geschwindigkeit und Rhythmus über die Straße zu gehen. Dies ist die aktive Inferenz im mentalen Modell. Zhu Senhua hat angegeben, dass das kognitive Weltmodell, das Juenao Panshi entwickeln will, genau diese Fähigkeit in die Praxis umsetzen soll, damit Roboter nicht nur vorhersagen können, wie sich die Welt ändert, sondern auch auf der Grundlage ihrer Umweltwahrnehmung Ziele selbst festlegen, Aktionen planen, Operationen ausführen und aus der Umweltrückmeldung kontinuierlich lernen, um ihr Verhalten zu korrigieren.
Dies bedeutet, dass ein Weltmodell, das für ein körperliches System verwendet werden kann, die Fähigkeiten des gesamten Prozesses von der Zustandsvorhersage bis zur Entscheidungsumsetzung umfassen muss.
Konkret bei der Umsetzungsmethode wandelt das Unternehmen die Mechanismen wie die mehrkammerigen Neuronen, die nichtlineare Aufmerksamkeit, das mehrstufige Gedächtnis, die sparse Berechnung und die aktive Inferenz in der Hirnwissenschaft in anwendbare Algorithmusmodelle und Engineering-Systemarchitekturen um. Dieser Ansatz führt schließlich zu vier Kerntechnologiezielen: geringe Datenmenge, hohe Generalisierungsfähigkeit, lebenslanges Lernen und geringer Energieverbrauch, um gemeinsam die realen Beschränkungen der körperlichen Intelligenz in Bezug auf die Datenkosten, die Anpassung an verschiedene Szenarien, den kontinuierlichen Betrieb und die Rechenleistungseinschränkungen zu überwinden.
Derzeit hat Juenao Panshi mehrere systemweite Technologievalidierungen in den Bereichen der körperlichen Wahrnehmung und Interaktion, Planung, mobiler Navigation, Bedienung und kollektiver Körperlichkeit abgeschlossen und mehrere PoC-Tests in realen Szenarien für Kunden in verschiedenen Branchen sowohl in China als auch im Ausland durchgeführt, um das kognitive Weltmodell von der Algorithmusstruktur in das reale Robotersystem umzusetzen.
Diese Vorgehensweise von der Algorithmusentwicklung bis zur Systemumsetzung bildet auch das Verständnis von Juenao Panshi für die Körperliche Intelligenz 2.0: Es geht nicht darum, dass Roboter in der Demonstration mehr Aktionen ausführen können, sondern dass Roboter tatsächlich die kognitiven Fähigkeiten des menschlichen Gehirns näherkommen - von wenigen Erfahrungen abstrakte Regeln lernen, in einer komplexen Umgebung kontinuierlich wahrnehmen und erinnern und in verschiedenen Aufgaben und Szenarien aktive Inferenz, stabile Entscheidungen und kontinuierliche Aktionen durchführen.
Im Folgenden ist ein Auszug aus dem Interview von Hard Krueger mit Zhu Senhua, dem Gründer von Juenao Panshi (leicht bearbeitet):
Hard Krueger: Zurzeit gibt es viele Diskussionen über das Weltmodell auf dem Markt. Wie können wir dieses Konzept verstehen?
Zhu Senhua: Aus unserer Sicht gibt es eigentlich fünf Ebenen des Weltmodells. Von unten nach oben sind es: Die erste Ebene ist die visuelle Wirklichkeit; repräsentiert durch die von Professorin Feifei Li geleitete Raumintelligenz, löst es das Problem der Wirklichkeit der Umgebung von 2D zu 3D. Die zweite Ebene ist die physikalische Wirklichkeit; ähnlich wie Sora versteht es die physikalischen Gesetze durch die Anhäufung von Daten, aber ob diese Methode wirklich zuverlässig ist, ist noch umstritten. Die dritte Ebene gehört zur interaktiven Wirklichkeit; repräsentiert durch Google DeepMind und NVIDIA, löst es das Problem, wie ein Intelligenzagent in der Umgebung die Berührung, die Rückmeldung und andere Interaktionsprozesse lernt.
Die vierte Ebene ist das abstrakte Lernen; repräsentiert durch die von Yann LeCuns Team vorgeschlagene JEPA, lernt es nicht mehr Pixel für Pixel, sondern abstrakt auf der Repräsentationsebene, um das Problem der Generalisierungsfähigkeit zu lösen.
Die fünfte Ebene ist die aktive Inferenz, d. h. die Theorie der aktiven Inferenz aus der Kognitiven Neurowissenschaft, die auf geringe Datenmenge, hohe Generalisierungsfähigkeit, lebenslanges Lernen und geringen Energieverbrauch abzielt. Das menschliche Gehirn hat bereits bewiesen, dass dieser Ansatz funktioniert.
Das technologische Hierarchiesystem des 'World Model' in der technologischen Sicht von Juenao Panshi (Bildquelle/Unternehmen)
Diese fünf Ebenen sind keine parallelen oder voneinander unabhängigen Schulen, sondern ein System von der Infrastruktur bis zur Entwicklung der Intelligenzfähigkeit. Die ersten drei Ebenen lösen das Problem, 'wie man kostengünstiger und zuverlässiger Daten und Trainingsumgebungen erhält', und die letzten zwei Ebenen lösen das Problem der Algorithmusarchitektur, 'wie man effizient lernt und inferiert'. Sie können getrennt erforscht werden oder sich gegenseitig stützen - wenn die Infrastruktur verbessert ist, wird die Arbeit auf der oberen Ebene effizienter; aber auch wenn die Infrastruktur nicht reif ist, beeinträchtigt es nicht die Validierung der oberen Algorithmen.
Hard Krueger: Was ist der Kernengpass der Hirn-ähnlichen Intelligenzroute? Ist es die Rechenleistung oder die ungelöste Theorie?
Zhu Senhua: Keines von beiden. Tatsächlich stammen viele Kernkonzepte, die in der heutigen KI-Branche alltäglich sind, einschließlich Neuronen, Neuronalen Netzen, Aufmerksamkeitsmechanismen und Weltmodellen, aus der Hirnwissenschaft. Mit jedem Schritt der Reife der Hirnwissenschaft kann die KI einen Schritt vorwärts gehen. Aber wir haben auch gesehen, dass die KI bereits heute auf einem hohen Niveau ist, bevor die Hirnwissenschaft das menschliche Gehirn noch nicht vollständig entschlüsselt hat. Also liegt der Engpass nicht darin, dass 'die Theorie noch nicht reif