StartseiteArtikel

Jijia Vision hat eine strategische Finanzierung in der Serie A1 im Milliardenbereich erhalten, die von Huawei Hubble und Huakong Fund gemeinsam angeführt wurde. Jijia Vision führt die physikalische KI mit dem "Weltmodell" auf den Endtechnikpfad.

36氪品牌2025-11-03 10:26
Durchbrechung dreier technischer Engpässe: Jijia Shijie hat ein hochverfügbares Weltmodellsystem vorgestellt.

Überwindung dreier technischer Engpässe: Giga Vision stellt ein hochverfügbares Weltmodellsystem vor.

Wenn die Fähigkeiten von KI mit der physischen Welt verbunden werden, wird "Embodied AI" (eingebettete KI) zum Träger für die Umsetzung.

Seit diesem Jahr hat sich das Thema "Weltmodell" im Bereich der Embodied AI rasant entwickelt: Tech-Riesen wie Google, OpenAI, Tesla und NVIDIA haben sich intensiv in diesem Bereich positioniert.

Mehrere Branchenexperten gehen davon aus, dass Weltmodelle die Engpässe bei der Datenknappheit und der Schwierigkeit der Generalisierung in der Embodied AI lindern werden und höchstwahrscheinlich nach der VLA (Very Large Action) der Kerntechnologietrend im Jahr 2026 werden.

Vor diesem Hintergrund hat das auf Weltmodelle spezialisierte Physik-KI-Unternehmen Giga Vision in den letzten zwei Monaten drei Runden von Finanzierungen hintereinander abgeschlossen und über die neuesten Entwicklungen berichtet.

Nach Informationen aus "Intelligent Emergence" hat Giga Vision kürzlich eine neue Finanzierungsrunde im Milliardenbereich (A1-Runde) abgeschlossen. Diese Runde wurde von Huawei Hubble und Huakong Fund gemeinsam finanziert. Ende August hatte Giga Vision die Abschluss von zwei aufeinanderfolgenden Finanzierungsrunden (Pre-A & Pre-A+) im Bereich von Hunderten von Millionen Yuan bekannt gegeben.

Drei Finanzierungsrunden in zwei Monaten zeigen die Anerkennung des Kapitalmarktes für die Stärke des Teams von Giga Vision, seine technische Route und den Geschäftsfortschritt. Sie spiegeln auch die Einschätzung der Investoren über den entscheidenden Wendepunkt in der "Allgemeinen Intelligenz der physischen Welt" (Physik-KI) wider.

Gründetes im Jahr 2023, konzentriert sich Giga Vision auf Physik-KI und speziell auf die "Allgemeine Intelligenz der physischen Welt, die von Weltmodellen angetrieben wird". Seine Produkte umfassen das Weltmodell-Platform GigaWorld (Fahren und Embodied AI), das Embodied AI Basis-Modell GigaBrain und den universellen Embodied AI Körper Maker sowie andere Hardware- und Softwareprodukte im Bereich der Physik-KI.

Tatsächlich glaubt Giga Vision, dass die technische Umsetzung von Weltmodellen nicht bis nächstes Jahr warten muss. Ihr technischer Wert zeigt sich bereits in der gegenwärtigen Phase: Es verbessert nicht nur die Probleme der Knappheit hochdimensionaler und hochwertiger Daten und der Sim2Real-Lücke (Simulation-Realisierungslücke) bei traditionellen Simulatorsystemen, sondern auch die Effektivität des Reinforcement Learnings.

Was löst das Weltmodell eigentlich?

Einfach ausgedrückt, modelliert das Weltmodell die physische Welt und ihre Gesetze in der digitalen Welt: Es ermöglicht der KI, vor dem Handeln ein vereinfachtes physikalisches Sandkastenmodell in ihrem "Gehirn" zu erstellen, um vorherzusagen, was im nächsten Moment passieren wird, und darauf basierend die auszuführende Aktion auszuwählen. Dadurch kann die KI in unbekannten Umgebungen weniger Fehler machen und robuster agieren.

Derzeit haben mehrere Tech-Riesen in Silicon Valley bereits in Richtung Weltmodelle investiert. NVIDIA hat das Welt-Grundlagenmodell - COSMOS vorgestellt, um Anwendungen von Weltmodellen in Bereichen wie Robotik und autonomem Fahren zu erforschen; Google DeepMind hat Genie-3 veröffentlicht, das sich auf die hochpräzise Modellierung komplexer dynamischer Umgebungen konzentriert; Tesla hat ebenfalls die Weltmodelltechnologie tief in sein Simulationssystem integriert, um die Forschung und Entwicklung von autonomem Fahren und Robotik voranzubringen.

Dies zeigt die hohe Bedeutung, die die globale Industrie- und Wissenschaftsgemeinschaft dem Bereich der Weltmodelle beimisst.

Dr. Huang Guan, Gründer und CEO von Giga Vision, sagte: "Unabhängig davon, ob man die Anforderungen aus der realen Geschäftspraxis und der Technologie oder die Einigkeit auf Industrie- und Wissenschaftsebene betrachtet, ist das Weltmodell bereits ein wichtiger und beliebter Bereich in der Embodied AI. Huawei hat das Weltmodell auch als die wichtigste Technologietrend in den Top 10 Technologietrends für die intelligente Welt von 2035 benannt. Dies ist auch die zugrunde liegende Logik für die Investition in Giga Vision." Darüber hinaus fördert Huawei nicht nur die Investition, sondern auch die strategische Zusammenarbeit mit Giga Vision aus mehreren Geschäftsbereichen.

Nach der derzeitigen Geschwindigkeit der technologischen Entwicklung prognostiziert Dr. Huang Guan, dass der "ChatGPT-Moment für die physische Welt" in zwei bis drei Jahren eintreten wird.

Konkret wird das Weltmodell hauptsächlich die Generalisierbarkeit verbessern, während die VLA die Komplexität der Aufgaben löst und das Reinforcement Learning die Genauigkeit und Zuverlässigkeit verbessert. Wenn diese drei Elemente zusammenarbeiten, wird die Physik-KI in 90 % der Szenarien bei 100 gängigen Aufgaben eine Erfolgsquote von 95 % erreichen.

Überwindung dreier technischer Engpässe: Giga Vision stellt ein hochverfügbares Weltmodellsystem vor

Das Kernteam von Giga Vision ist eng mit dem Labor für Intelligente Vision der Fakultät für Automatisierung der Tsinghua-Universität verbunden. Seine Mitglieder sind renommierte Forscher aus der Tsinghua-Universität, der chinesischen Akademie der Wissenschaften und anderen renommierten Hochschulen sowie leitende Angestellte von Unternehmen wie Baidu, Microsoft und Horizon Robotics. Insgesamt haben sie über 200 Top-Publikationen in der KI-Branche veröffentlicht, zehntausende globale KI-Wettbewerbe gewonnen und mehrere weltweit einflussreiche Technologieergebnisse in der Physik-KI veröffentlicht.

Dr. Huang Guan, Gründer und CEO des Unternehmens, ist ein Doktor der Fakultät für Automatisierung der Tsinghua-Universität. Er hat auch Forschungsarbeiten in renommierten Unternehmen wie Microsoft, Samsung und Horizon Robotics durchgeführt und hat mehrere Male Teams von über 100 Forschern geleitet. Er hat auch reiche Erfahrung in der Unternehmensgründung im Bereich der Physik-KI und hat insgesamt als leitender Angestellter an Finanzierungen von über einer Milliarde Yuan beteiligt oder diese geleitet.

Basierend auf einer tiefen Einsicht in die Branche hat das Team die gegenwärtigen Engpässe in der Embodied AI in drei Herausforderungen zusammengefasst:

1. Es gibt einen Mangel an hochwertigen Daten. Die Abhängigkeit von der Datenerfassung mit echten Geräten führt zu hohen Kosten und niedriger Effizienz.

2. Es besteht eine Sim2Real-Lücke (Simulation-Realisierungslücke) zwischen Simulationsdaten und der Realität, was die direkte Anwendung erschwert.

3. Die Modellierungsfehler von traditionellen Simulatorsystemen beschränken die Effektivität des Reinforcement Learnings.

Dr. Zhu Zheng, Chefwissenschaftler von Giga Vision, sagte, dass das Embodied Weltmodell des Unternehmens eine systemische Lösung für die oben genannten Probleme ist.

Zunächst kann es aus einer geringen Menge an realen Daten lernen, um ein einheitliches Modell zu erstellen, das die Umgebung, die Aufgaben und die multimodalen Merkmale versteht. Daraufhin kann es eine große Menge an hochwertigen synthetischen Daten generieren, um die Datenlücke mit minimalen Kosten zu schließen.

Zweitens kann das Weltmodell in Bezug auf die Sim2Real-Lücke von traditionellen Simulatorsystemen die visuelle, taktile und haptische multimodale Rückmeldung kombinieren, um kontinuierlich zu optimieren. Durch die feinere Modellierung der kritischen Fehler kann es die Echtheit und Anwendbarkeit der generierten Daten erheblich verbessern.

Darüber hinaus kann das Weltmodell als hochwertige Trainingsumgebung für das Reinforcement Learning dienen, um die Strategie in einer hochrealistischen virtuellen Umgebung zu iterieren. Dadurch kann es effektiv die Strategietransferfehler vermeiden und die Leistung des Reinforcement Learnings in der realen Welt erheblich verbessern.

Das von Giga Vision trainierte GigaBrain-0 hat in Vergleichen ein höheres Potenzial für die Leistungssteigerung gezeigt.

Erste Ergebnisse zeigen die Leistungsvorteile von GigaBrain-0

Im Vergleich zu anderen Methoden hat es eine reichhaltigere Datenquelle für das Training: Es zeigt eine bessere Robustheit und Generalisierbarkeit bei Änderungen der Textur, Beleuchtung und Perspektive.

Es hat eine tiefere Architektur: Die Einführung einer tieferen Modellierung in den wichtigen Teilmodulen führt zu einer präziseren Handhabung.

Es gibt zwei Versionen des Modells: Das kleine Modell kann etwa 90 % der Leistung des großen Modells erreichen und kann in Echtzeit auf der Edge-Computing-Plattform Orin ausgeführt werden.

Zurzeit hat Giga Vision bereits tiefe Partnerschaften mit Innovationszentren für humanoide Roboter, Ausbildungseinrichtungen, Forschungsinstituten und Cloud-Computing-Unternehmen in verschiedenen Regionen eingegangen, um eine weltweit führende Datenfabrik für virtuelle und reale Integration und eine Plattform für Embodied AI sowie andere Full-Stack-Produkte zu schaffen.

In Bezug auf die Umsetzung von Szenarios wie Weltmodellen und VLA-Modellen hat Giga Vision auch tiefe Partnerschaften mit mehreren globalen Automobilkonzernen, führenden Embodied AI Unternehmen und Anwendungsunternehmen in verschiedenen Szenarien eingegangen. Alle Beteiligten erkunden gemeinsam die Umsetzung von Physik-KI in Bereichen wie Fahren, Industrie, Dienstleistungen und Haushalten, um die Explosion der Anwendungen von Physik-KI zu beschleunigen.

In Zukunft wird das Unternehmen die Forschung und Entwicklung von Intelligenzmodellen in der Physik-KI kontinuierlich vorantreiben, die Entwicklung von universellen humanoiden Körpern für Embodied AI beschleunigen und gleichzeitig die kommerzielle Umsetzung von Markenszenarien voranbringen. Durch die Integration von "Intelligenz - Körper - Szenario" wird es den "ChatGPT-Moment für die physische Welt" beschleunigt erreichen.

Quelle des Titelbildes | Visual China