Tsinghua-Universität Doktor: Gerade Wieder 1 Milliarde Yuan Kapital Beschafft!

Die Roboter, auf die Huawei setzt.

Wir erleben gerade die Aufmerksamkeit um Embodied Intelligence (körperliche Künstliche Intelligenz).

Die Investmentbranche hat erfahren, dass GigaVision die nahezu 1 Milliarde Yuan betragende Pre-B-Runde Finanzierung abgeschlossen hat. Die Investoren sind beeindruckend: Top-Kapitalgeber aus der Chip- und Automobilindustrie wie SMIC Capital, Pukuang Investment, Linxin Capital, Xingyuan Capital und Wanlin International sowie bedeutende staatliche Kapitalplattformen und bekannte Finanzinstitute wie CICC Capital, Suzhou Venture Capital, Huaqiang Capital, Yangtze River Capital, Optics Valley Venture Capital, Xishan State-owned Investment, Jinyu Maowu, Xinding Capital, Nuohui Investment, Caixin Capital, Zhangke Yaokun und Chengzhu Investment. Unter ihnen haben alte Aktionäre wie CICC Capital, Huaqiang Capital, Caixin Capital und Zhangke Yaokun weiter in großem Umfang investiert.

So ist erneut eine Finanzierung in der Branche der Embodied Intelligence erfolgt. Obwohl der Name GigaVision zunächst fremd klingt, steht hinter ihm ein Renommierter in der Branche – Huang Guan, ein Doktor der Tsinghua-Universität. Er hat zuvor bei Horizon Robotics und Jianzhi Robotics gearbeitet und auch Erfahrung in Instituten wie dem Microsoft Research Asia und dem Samsung China Research Institute gesammelt. In nur drei Jahren hat er GigaVision zu einem führenden Unternehmen in der Branche der Embodied Intelligence und allgemeinen Robotik aufgebaut.

Derzeit ist die Finanzierungssituation in der chinesischen Branche der Embodied Intelligence offensichtlich. Je deutlicher dies ist, desto wichtiger ist es, über die Zukunft der Embodied Intelligence nachzudenken: Wohin wird sich diese Branche entwickeln?

Angeführt von einem Doktor der Tsinghua-Universität

Schaffung des OpenAI der physischen Welt

Rückblickend betrachtet war Huang Guan einer der ersten in China, der in die Künstliche Intelligenzbranche eingestiegen ist.

Im Jahr 2009 begann Huang Guan sein Studium der Automatisierungstechnik an der Huazhong University of Science and Technology. Nach seinem Bachelorabschluss hat er mit der besten Note seiner Klasse ein Masterstudium am Institute of Automation der chinesischen Akademie der Wissenschaften begonnen und sich auf Mustererkennung und Künstliche Intelligenz spezialisiert. Danach hat er einen Doktorandenplatz an der Fakultät für Automatisierungstechnik der Tsinghua-Universität angenommen.

Währenddessen hat Huang Guan ein Praktikum am Microsoft Research Asia absolviert und mit Technologieexperten wie He Kaiming und Sun Jian zusammengearbeitet. Im Jahr 2016 ist er dann bei Horizon Robotics eingetreten und hat sich auf die visuelle Wahrnehmung konzentriert. Er hat die damalige weltweit größte Gesichtserkennungsdatenbank WebFace260M gegründet und sein Team hat in mehreren globalen Wettbewerben für visuelle Künstliche Intelligenz gewonnen und die Technologie in großem Maßstab in der Industrie implementiert. Danach hat er als Partner an der Gründung von Jianzhi Robotics beteiligt und zusammen mit seinem Team das weitgehend anerkannte BEV-Modell entwickelt.

Im Vergleich zu anderen AI-Unternehmern zeichnet sich Huang Guan durch seine umfangreiche Erfahrung in der technologischen Innovation, der industriellen Implementierung und der Unternehmensgründung in der physischen Künstlichen Intelligenz aus.

Im Juni 2023 hat Huang Guan seine neue Geschäftsidee umgesetzt und GigaVision gegründet. Obwohl das Team zu Beginn nur aus etwa zehn Personen bestand, hat das Kernteam die Entwicklung der physischen Künstlichen Intelligenz in den letzten zehn Jahren in Bereichen wie CV, autonomem Fahren, Embodied Intelligence und Weltmodellen miterlebt.

Der Mitgründer und Chefwissenschaftler Zhu Zheng hat 2019 seinen Doktor an der Institute of Automation der chinesischen Akademie der Wissenschaften gemacht und danach ein Postdoc an der Fakultät für Automatisierungstechnik der Tsinghua-Universität absolviert. Der Mitgründer Sun Shaoyan war zuvor Direktor bei Alibaba Cloud und Geschäftsführer der Datenclosed-loop-Produktlinie bei Horizon Robotics. Der Partner und Engineering-Vizepräsident Mao Jiming war Architekt bei Baidu und Inceptio und Leiter der Simulationstechnologie bei Baidu Apollo.

Aus der Sicht der Außenwelt ist dies ein „Traumteam“ in der Künstlichen Intelligenz – mit umfassenden technologischen Kenntnissen in der physischen Künstlichen Intelligenz und über 20 Jahren Erfahrung in der industriellen Implementierung mit einem Volumen von über 3 Milliarden Yuan. Von Anfang an hat GigaVision sich auf die allgemeine Intelligenz der physischen Welt konzentriert und hat die zukünftige Entwicklung der physischen Künstlichen Intelligenz sowohl in der Hardware- als auch in der Softwareentwicklung geplant. So hat es sich schnell zu einem führenden Unternehmen in der Branche der Embodied Intelligence und allgemeinen Robotik entwickelt.

Insbesondere umfasst das Produktportfolio von GigaVision die GigaBrain-Serie von Embodied Intelligence-Modellen, die Weltmodellplattform GigaWorld und den allgemeinen Embodied Agent Maker. So entsteht ein integriertes Konzept aus „Embodied Intelligence-Modell – Weltmodell – ursprünglicher Agent – generalisierte Szenarien“, was eher wie das „OpenAI der physischen Welt“ ist.

Die starke Modellleistung ist zweifellos der Schlüssel zum schnellen Aufstieg von GigaVision. Das Unternehmen hat nacheinander den Technologiebericht zu GigaBrain-0 veröffentlicht und die Basis-Modelle GigaBrain-0 und GigaBrain-0.1 open source gemacht, was weltweit führende Ergebnisse bei langen und komplexen Aufgaben auf realen Geräten erzielt hat. Bemerkenswerterweise hat das open source Modell GigaBrain-0.1 in dem weltweit größten Test auf realen Geräten viele Modelle wie Pi0.5 übertroffen und sich an der Spitze der Rangliste platziert.

Aber die Weiterentwicklung der Embodied Intelligence-Modellen bringt auch neue Herausforderungen mit sich. Huang Guan hat mehrfach betont, dass es derzeit zwei kritische Probleme bei den von VLA dominierten Embodied Intelligence-Modellen gibt: Einerseits ist die Effizienz der Modellarchitektur zu niedrig, andererseits ist die Effizienz der Datenerfassung in der Realität zu gering.

Das Weltmodell ist der Schlüssel, um diese Probleme zu lösen, indem es hochwertige, kontrollierbare und vielfältige Interaktionsdaten generiert und so die „Datenvermehrung“ erreicht. „Die rasante Entwicklung des Weltmodells bietet eine beispiellose, bahnbrechende und grundlegende Lösung für die Probleme der Modellarchitektur und der Datenquelle.“

So ist GigaVision das erste chinesische Unternehmen, das sich auf die Entwicklung des Weltmodells konzentriert. In Bezug auf die Modellarchitektur hat das Unternehmen GigaBrain-0.5M* veröffentlicht, das weltweit das erste Embodied Intelligence-Modell ist, das auf der Grundlage eines Weltmodells und der verstärkten Lernmethode effizient lernt und sich selbst verbessert.

Zur gleichen Zeit hat GigaVision ein Meilenstein erreicht – GigaWorld-Policy ist vor kurzem vorgestellt worden und hat die Effizienz und Leistung der gängigen „Welt-Aktionsmodell WA“ übertroffen.

Warum GigaWorld-Policy? Im Gegensatz zu der traditionellen WA-Architektur, die auf einem ineffizienten und langwierigen Videovorhersageprozess basiert, überwindet GigaWorld-Policy die Engpässe bei der Kopplung von verschiedenen Modalitäten mit einem aktionszentrierten Modellansatz und verbessert so die Inferenzeffizienz auf der Architekturebene sprunghaft.

Darüber hinaus hat GigaWorld-Policy einen hierarchischen und effizienten Trainings-Pipeline aufgebaut, um den Wert der Videodaten bei der Training von Embodied Actions zu maximieren und das Modell in der Lage zu machen, Strategien für Embodied Actions mit weniger Daten und in kürzerer Zeit zu lernen.

Die praktischen Testdaten zeigen, dass GigaWorld-Policy eine zehnfache Steigerung der Inferenzgeschwindigkeit und der Trainings-effizienz erreicht hat und die Erfolgsrate der Aufgaben um 30 % gestiegen ist. Dies markiert den Beginn einer neuen Ära in der Branche der Embodied Intelligence, die vom Weltmodell angetrieben wird.

Mit diesen Erfolgen nähert sich GigaVision dem Ziel des „OpenAI der physischen Welt“.

Eine beeindruckende Gruppe von Investoren

Selbst Huawei hat investiert

Seit seiner Gründung hat GigaVision einen tiefen Eindruck auf die Investmentbranche gemacht.

Schon zu Beginn hat GigaVision eine Seed-Runde von mehreren Millionen Yuan von Chentao Capital erhalten. Danach hat es sich beschleunigt und in September 2024 die Angel- und Angel+-Runden mit fast 50 Millionen Yuan Finanzierung abgeschlossen. Die Investoren waren BAIC Capital, Miracle Plus, Huamin Investment, Longding Investment, Qingzhi Capital und PKSHA Algorithm Fund.

Damals hat Mao Shengbo, Partner von Miracle Plus, gesagt: „Das Weltmodell ist der Schlüssel für die Realisierung von intelligenten Agenten in der physischen Welt wie autonomes Fahren und Robotik und auch wichtig für die Inhaltserstellung in der virtuellen Welt. GigaVision ist das erste chinesische Team, das sich auf die Entwicklung des Weltmodells konzentriert. Es hat auch Spitzentechnologien in Bereichen wie CV, autonomem Fahren und großen Modellen und reiche Erfahrung in der Industrie, im Geschäft und in der Unternehmensgründung.“

Im August 2025 hat GigaVision dann die Pre-A- und Pre-A+-Runden mit mehreren hundert Millionen Yuan Finanzierung abgeschlossen. Die Pre-A-Runde wurde von Guozhong Capital geleitet, wobei Zifeng Capital und der alte Aktionär PKSHA Algorithm Fund mitinvestierten. Die Pre-A+-Runde wurde von CICC Capital, Guangzhou Venture Capital, Yicun Songling und Huaqiang Capital finanziert.

Als Leitender Investor hat Shi Xin, Generaldirektor von Guozhong Capital, gesagt, dass GigaVision ein Pionier in der Branche des Weltmodells und der Embodied Intelligence in China ist. Es hat nicht nur frühzeitig die technologische Entwicklung und Innovation in dieser Richtung initiiert, sondern auch schnell die industrielle Implementierung in großem Maßstab erreicht. „Wir erwarten den ChatGPT-Moment in der physischen Welt und hoffen, dass GigaVision diesen Moment in China leiten kann.“

Sehr bald hat auch Huawei investiert – im November desselben Jahres hat GigaVision die A1-Runde mit einer Finanzierung von über 100 Millionen Yuan von Huawei Hubble und Huakong Fund abgeschlossen. Bei dieser Finanzierung hat Huang Guan gesagt: „Huawei hat das Weltmodell als eine der zehn wichtigsten technologischen Trends für die intelligente Welt von 2035 benannt, was der Grund für die Investition in GigaVision ist.“ Neben der Investition hat Huawei auch in mehreren Geschäftslinien mit GigaVision eine strategische Partnerschaft aufgebaut.

Ein Monat später hat GigaVision die A2-Runde mit 200 Millionen Yuan Finanzierung abgeschlossen. Die Runde wurde von Fortune Capital geleitet, wobei der alte Aktionär Huakong Fund mitgeleitet hat. Andere Investoren sind Shoufa Venture Capital, Puyao Xinyie, Caixin Capital, Huajin Capital, Zhangke Yaokun und Fuzhuo Venture Capital. Der alte Aktionär Hedging Capital hat sogar mehr investiert als zuvor. Dies bedeutet, dass GigaVision in nur drei Monaten insgesamt 500 Millionen Yuan in der A-Serie Finanzierung erhalten hat.

Jetzt ist die nahezu 1 Milliarde Yuan betragende Pre-B-Runde bekannt geworden. Die Investoren haben mit ihrem Geld ihre Zustimmung geäußert. Die Industriekapitalgeber wie SMIC Capital und Xingyuan Capital bieten GigaVision Raum für die strategische Planung und die industrielle Expansion. Die staatlichen Kapitalplattformen wie CICC Capital, Suzhou Venture Capital und Yangtze River Capital zeigen die Unterstützung durch langfristiges Kapital und Ökosystem. Darüber hinaus bestätigen die fortschreitenden Investitionen von führenden Finanzinstituten die Position von GigaVision in der Branche.

Mit der Ankunft der Investoren hat sich ein Super-Star in der Branche der Embodied Intelligence herausgebildet.

Die zentrale Frage für chinesische Roboter

Wie können sie in alle Branchen und Haushalte gelangen?

Zu Beginn von 2026 ist die Aufmerksamkeit um die chinesische Branche der Embodied Intelligence offensichtlich.

Einerseits sind vier humanoide Roboter auf der Frühlingsgalawocheinladung des Jahres des Pferdes aufgetreten und haben beeindruckende Leistungen gezeigt. Andererseits haben viele Unternehmen ihre Finanzierungen angekündigt, und die Summe von 1 Milliarde Yuan pro Runde ist fast zur Norm geworden. Doch hinter dieser Erscheinung verbirgt sich eine Kluft.

Es gibt immer mehr Anzeichen, dass die Branche einem „Matthew-Effekt“ unterliegt – Kapital, Ressourcen und Talente sammeln sich bei den führenden Unternehmen. Dies bedeutet, dass in der zweiten Hälfte der Entwicklung der Embodied Intelligence die Werte neu bewertet werden und die Branche sich von der „Technologiepräsentation“ zur „praktischen Anwendung“ wandelt. Das einzige Kriterium, um im Wettbewerb zu bleiben, wird die „Praktikabilität“ sein.

Es ist unbestritten, dass die Hardwarefähigkeiten der chinesischen Embodied Intelligence-Agenten deutlich verbessert wurden und die Lieferkette immer reifer wird. Aber die allgemeine Kognition und Entscheidungsfindung der Embodied Intelligence-Agenten sind immer noch unzureichend, um die komplexen Probleme in der Realität zu lösen. Ohne diese Fähigkeiten kann die „Praktikabilität“ nicht gewährleistet werden.

Deshalb ist der Kern der Wettbewerbs in der zweiten Hälfte der Branche die Fähigkeit der Basis-Modelle und die Fähigkeit der Modellentwicklung. Nur wenn die Embodied Intelligence-Modelle ständig verbessert werden, können die allgemeinen Roboter ihre Fähigkeiten bei der Ausführung von Aufgaben in der komplexen Realität verbessern und in alle Branchen und Haushalte gelangen.

Zum Beispiel hat die GigaBrain-Serie von Modellen von GigaVision in einer Reihe von schwierigen und langen Embodied Intelligence-Aufgaben bewiesen, dass es in der Lage ist, feine und dexter handhabende Aufgaben wie das Kochen von Kaffee, das Falten von Kleidung und das Ordnen von Toilettenpapier, lange Aufgaben wie das Aufräumen des Schreibtischs und das Ausschenken von Getränken, die mehrere Schritte erfordern, sowie komplexe Handlungen wie das Tragen von Kisten und das Aufnehmen von Kleidung stabil und effizient auszuführen.

Das neueste Modell GigaWorld-Policy hat ein gutes Gleichgewicht zwischen „Erfolgsrate“ und „Inferenzgeschwindigkeit“ erreicht. In