Wenn ein 11 Jahre altes KI-Unternehmen sich auf dem Schlachtfeld der Embodied AI engagiert.
Dieses Jahr wird als das erste Jahr der Embodied Intelligence bezeichnet. Dieses Gebiet ist derzeit zur heißesten Schlachtzone für die Umsetzung von KI geworden.
Kürzlich hat das bekannte visuelle KI-Unternehmen Yufan Intelligence mit 11 Jahren Unternehmensgeschichte zwei Embodied-Intelligence-Produkte vorgestellt und die vollständige Eigenentwicklung von "Intelligenz + Hardware" angekündigt, um sich vollständig der Ära der Embodied Intelligence zu widmen.
Es scheint, dass dies ein großer Sprung ist, aber aus Branchensicht war Yufans Schritt in die Embodied Intelligence logisch und gerechtfertigt.
Einerseits ist die visuelle Fähigkeit bereits der Kernzugang für Maschinen, die physische Welt zu verstehen, und auch die Grundlage für multimodale KI. Teams mit Hintergrund in der Bildverarbeitung sind zu einer wichtigen Kraft im Bereich der Embodied Intelligence geworden. Der Schritt in die Embodied Intelligence war für dieses Unternehmen eine unvermeidliche Weiterentwicklung seiner Fähigkeiten.
Außerdem hat Yufan langjährige Erfahrungen in der integrierten Hardware- und Softwareentwicklung auf dem Weg von "Intelligenz + Hardware". In der Ära der visuellen KI konnten die Rechenleistung der damaligen Geräte noch nicht die direkte Umsetzung von KI-Algorithmen unterstützen. Yufan war eines der ersten Unternehmen in der Branche, das die Algorithmen basierend auf der Leistung der Edge-Chips neu gestaltete, um den Hardwareverbrauch der Algorithmen zu reduzieren und die End-to-End-Leistung zu optimieren.
Diese gesamte Erfahrung in der kooperativen Entwicklung von Hardware und Software, von der Anpassung der unteren Hardwareebene bis zur Optimierung der oberen KI-Algorithmen, hat Yufan in der Ära der visuellen KI erfolgreich gemacht und ihm den Weg zur kommerziellen Umsetzung und massenhaften Lieferung erleichtert. In der Ära der Embodied Intelligence ist die Zusammenarbeit von Hardware und Software für die Umsetzung von intelligenten Robotern ebenfalls von entscheidender Bedeutung. Yufans Vergangenheit bietet sicherlich eine Stütze hierfür.
"Wir wissen, wie man Embodied Intelligence umsetzt, und sind entschlossen, auf Basis der Erfahrungen der letzten zehn Jahre schnell zu einer Spitzenposition in der Branche der Embodied-Intelligence-Roboter zu gelangen. Bei dieser Welle der KI sollen die Roboter nicht nur sehen, verstehen, kommunizieren und handeln können, sondern auch wirklich lernen, eigenständig zu denken und zu entscheiden", sagte Zhao Hongyi, Vorsitzender von Yufan Intelligence.
01 Warum sich vollständig der Embodied Intelligence widmen?
Im Bereich der Embodied Intelligence gibt es einen neuen Spieler.
Vor einigen Tagen hat das bekannte Unternehmen Yufan Intelligence im Bereich der visuellen KI eine Feier zu seinem 11-jährigen Jubiläum und eine Partnerkonferenz abgehalten. Neben der Vorstellung neuer visueller KI-Hardware und neuer Agent-Produkte hat Yufan auch offiziell zwei Embodied-Intelligence-Produkte vorgestellt - das Raumkognitions-Großmodell Manas und den Vierbein-Roboterhund - und damit angekündigt, dass dieses Künstliche-Intelligenz-Unternehmen mit 11 Jahren Unternehmensgeschichte offiziell in die Ära der Embodied Intelligence eintritt.
Das Raumkognitions-Großmodell Manas wurde bereits im Juli dieses Jahres auf der offiziellen WeChat-Seite von Yufan Intelligence vorgestellt. Es handelt sich um ein multimodales Sprachmodell (Multimodal Large Language Model, MLLM). Laut den Informationen von Yufan hat Manas auf den gängigen Datensätzen für Raumverständnis, wie VSI-Bench und SQA3D, im Vergleich zu gleichgroßen Modellen der Branche Spitzenleistungen erzielt.
Bei der offiziellen Vorstellung wurde beobachtet, dass die Rolle von Manas in Yufans Embodied-Intelligence-Strategie klarer wurde. In Zukunft wird es als das "Gehirn" der Embodied-Intelligence-Hardware von Yufan Intelligence fungieren und die Rolle der Raumkognitionsbasis einnehmen, damit die intelligente Hardware die reale physische Welt wahrnehmen und eigenständig entscheiden kann.
Der neu vorgestellte Vierbein-Roboterhund ist das erste Embodied-Intelligence-Roboterprodukt von Yufan Intelligence. Laut Angaben wurde seine mechanische Struktur, die Motoren, die Bewegungskontrollplattform und die Fähigkeiten alle von Yufans Team eigenentwickelt.
Die Vorstellung dieser beiden Produkte hat auch Yufans Strategie in der Ära der Embodied Intelligence sichtbar gemacht - die Tradition von "Intelligenz + Hardware" fortsetzen und die vollständige Eigenentwicklung von Gehirn, Kleinhirn und Körper des Roboters vorantreiben, um sich vollständig der Physical AI zu widmen.
Yufans Eintritt in den Bereich der Embodied Intelligence kommt für die Branche nicht überraschend.
Tatsächlich hat sich mit der Weiterentwicklung der Technologie der Large Language Models die Intelligenz von verschiedenen Arten von Hardware im weiteren Sinne verbessert. Top-Unternehmen in der Maschinensehbranche wie Hikvision haben multimodale Modelle in ihre Geräte integriert, um die Intelligenz der Hardware zu steigern.
Im Bereich der Robotik hat die enge Integration von Robotern und Large-Language-Modell-Technologien sowie die Entwicklung der Fähigkeiten von multimodalen Large Language Models, insbesondere die visuelle Fähigkeit, eine stärkere Generalisierungsfähigkeit gebracht, und das "Gehirn" der Roboter hat sich weiterentwickelt. Früher konnten Roboter nur einzelne Aufgaben in einzelnen Szenarien ausführen, aber jetzt besteht die Hoffnung, dass sie zu "Universalisten" mit stärkerer Generalisierungsfähigkeit werden können.
Es gibt bereits einige Unternehmen aus dem Bereich der visuellen KI, die in den Bereich der Embodied Intelligence eingestiegen sind. Beispielsweise hat SenseTime Ende letzten Monats auf der WAIC ein Embodied-Intelligence-Gehirn vorgestellt und sich damit auf diesem Gebiet positioniert.
Außerdem sind Forscher und Praktiker aus dem Bereich der Bildverarbeitung eine wichtige Kraft im Bereich der Embodied Intelligence. Professor Sun Fuchun von der Tsinghua-Universität hat im Juni dieses Jahres in seinem Vortrag auf der 2025 Beijing Zhiyuan-Konferenz erwähnt, dass die Embodied Intelligence traditionell von zwei Gruppen bearbeitet wird: Die eine Gruppe ist die Computer-Vision-Schule, die auf die visuelle Wahrnehmung zentriert ist, wobei Li Feifei ein typischer Vertreter ist, und die andere Gruppe besteht aus ehemaligen Praktikern aus dem Bereich der Robotik.
Zhao Hongyi hat in seinem Vortrag die strategischen Überlegungen hinter dieser Vorstellung erläutert. Er hat betont, dass die multimodale Fähigkeit, insbesondere die visuelle Fähigkeit, für die Entwicklung der Embodied Intelligence von entscheidender Bedeutung ist.
Zhao Hongyi hat festgestellt, dass Yufans Eintritt in den Bereich der Embodied Intelligence sowohl eine strategische Entscheidung eines KI-Unternehmens mit 11 Jahren Technologieerfahrung ist, um sich der industriellen Wende anzupassen, als auch die Rückkopplung der ursprünglichen Vision des Gründerteams für die Entwicklung von Robotern ist, die schließlich nach der Reife der internen und externen Technologien Wirklichkeit geworden ist.
Er hat ein Detail aus Yufans Gründungsphase preisgegeben, das bisher wenig beachtet wurde. Im Jahr 2014 hat Yufan mit einem Demo-Produkt eines Haushaltsroboters seine erste Angel-Investition erhalten. "Unser ursprüngliches Gründungstraum war es, intelligente Roboter zu entwickeln."
Damals musste die Robotik-Technologie drei große technologische Herausforderungen in den Bereichen Bilderkennung (Wahrnehmung), Sprachinteraktion (Verständnis und Dialog) und Bewegungskontrolle (Handlung) meistern. Aufgrund der technologischen Einschränkungen und der Größe des Teams hat Yufan schließlich den Bereich der Bilderkennung gewählt, um die geschlossene Schleife der kommerziellen Umsetzung zu erreichen. Aber das Team hat seine Vision und seine ursprüngliche Motivation für intelligente Roboter nie aufgegeben.
Mit der Welle der Large-Language-Models hat sich die KI von der Ära der KI 1.0 zur Ära der KI 2.0 entwickelt. Das Gebiet der Embodied Intelligence ist zu einer der Hauptschlachtzonen für die Umsetzung von KI geworden. Roboter entwickeln sich von der Fähigkeit, "sehen, hören, sprechen und handeln" zu können, hin zur Fähigkeit, eigenständig zu entscheiden. Dabei wird die visuelle Wahrnehmung zur Schlüsselstütze für die Kognition und Entscheidung von Robotern.
"Von allen Wahrnehmungsarten hat die visuelle Information die höchste Dichte und die stärkste Allgemeingültigkeit. Sie ist der Kernzugang für Maschinen, die physische Welt zu verstehen, und auch die Grundlage für multimodale KI. In Embodied-Intelligence-Szenarien bestimmt die visuelle Wahrnehmung nicht nur, was die Maschine sieht, sondern auch, was sie als nächstes tut."
Für Zhao Hongyi ist diese Vorstellung eher eine strategische Weiterentwicklung von Yufan. In der Ära der KI 1.0 war die Bildverarbeitung der klarste Weg zur Umsetzung. Jetzt besteht die Hoffnung, dass die visuelle Wahrnehmung zum Zugang für intelligente Roboter werden kann. Da das Gründerteam seine Vision für Roboter immer noch hat, war es unvermeidlich, dass sie diesen Schritt gehen, sobald die technologische Vorräte reif waren.
02 Was hat Yufan getan, um sich der Physical AI zu widmen?
Abgesehen von seinem visuellen Hintergrund hat Yufans Vorstellung von zwei Embodied-Intelligence-Produkten auf einmal auch die technologischen Reserven dieses KI-Unternehmens in der multimodalen Fähigkeit und der intelligenten Hardware gezeigt.
Nehmen wir die multimodale Fähigkeit als Beispiel. Yufan hat im vergangenen Jahr viele Überlegungen angestellt und Ergebnisse erzielt, um zu verstehen, wie Agenten die Fähigkeit zur Raumwahrnehmung erlangen können.
Derzeit befindet sich die Branche noch in der Erkundungsphase, um zu verstehen, wie Roboter ein intelligenteres Gehirn erhalten können. Die technologischen Ansätze sind noch nicht "konvergiert". Einige Branchenmitglieder glauben, dass es verschiedene Ansätze gibt, wie das end-to-end VLA-Modell (Vision-Language-Action), die Architektur von Gehirn und Kleinhirn sowie das Weltmodell.
Obwohl die technologischen Ansätze unterschiedlich sind, besteht ein Konsens darin, dass Roboter die Fähigkeit zur multimodalen Inferenz benötigen. Dies wird als der Schlüssel angesehen, damit KI wie Menschen umfassend wahrnehmen, verstehen und entscheiden kann. Und das multimodale visuelle Sprachmodell wird als die Kernbasis für die multimodale Inferenz angesehen. Denn es kann Pixel, 3D-Strukturen und Texte in denselben hochdimensionalen Vektorraum abbilden und eine "Cross-Modal Alignment" herstellen.
Hier ist die natürliche Sprache die explizite Zwischenstufe des Inferenzprozesses, die sowohl für Menschen lesbar ist als auch von nachgelagerten Strategienetzen verwendet werden kann. Das visuelle Sprachmodell spielt die Rolle des zentralen Steuerungszentrums in der Embodied Intelligence, das die Wahrnehmung, die Entscheidung und die menschlichen Anweisungen verbindet.
Aber nicht alle multimodalen Modelle eignen sich als Gehirn für Roboter. Ein Branchenmitglied hat festgestellt, dass GPT-4o als Roboter-Gehirn nicht ideal ist, da es an Langzeitplanung und Raumverständnis mangelt. Dies ist auch das Problem vieler multimodaler Sprachmodelle auf dem Markt. Obwohl sie in Wahrnehmungsaufgaben wie Bilderkennung und Sprachverständnis hervorragend abschneiden, weisen sie in der Raumwahrnehmung deutliche Schwächen auf. Beispielsweise sind sie bei der Wahrnehmung von feingranularen, lokalen und geometrischen Informationen nicht so präzise wie traditionelle reine visuelle Modelle.
In Embodied-Intelligence-Szenarien müssen Roboter Objekte genau greifen können. Das Modell muss nicht nur die semantische Bedeutung eines Bildes "verstehen", sondern auch die genaue Fähigkeit zur Raumwahrnehmung besitzen. Geometrische Informationen wie die tatsächliche Größe von Objekten, ihre relative Position und die räumliche Anordnung sind die Grundlage für komplexe Aufgaben wie Pfadplanung, Objektmanipulation und Umweltverständnis der Roboter.
Wang Tao, CTO von Yufan Intelligence, hat erklärt, dass dies bedeutet, dass das "Gehirn" des Roboters die Sprachmodelle und die Raumwahrnehmungsfähigkeit tiefgreifend integrieren muss, um robuste Operationen und Interaktionen in der realen Welt zu ermöglichen. Erst wenn die Fähigkeiten zur Semantikverstehen und zur Raumlogik gleichzeitig vorhanden sind, besteht die Möglichkeit, dass die Embodied Intelligence wirklich in der Massenanwendung eingesetzt wird.
Das im Juli dieses Jahres vorgestellte Manas ist ein multimodales Sprachmodell (Multimodal Large Language Model, MLLM), das für Embodied-Intelligence-Szenarien optimiert wurde. Sein Grundmodell ist ein Open-Source-Large-Language-Modell, und Yufans Team hat es speziell in Bezug auf die Raumverständnisfähigkeit trainiert und verbessert. Es repräsentiert die Erkenntnisse von Yufans Technikteam über die Raumkognition in der Embodied Intelligence und die Ergebnisse in der multimodalen Technologie.
Zunächst hat Yufan Ende vergangenen Jahres das multimodale Inferenz-Framework UUMM eigenentwickelt. Es basiert auf der Architektur von Large Language Models und ist für Embodied-Intelligence-Szenarien angepasst. Es nimmt menschliche sprachliche und visuelle Eingaben entgegen und gibt Handlungsanweisungen aus, um einen schnellen Optimierungszyklus zu bilden.
Darauf aufbauend hat das Yufan-Team im März dieses Jahres HiMTok vorgestellt. Dies ist eng mit Yufans VLA-Projekt verbunden. Durch eine innovative Methode wurde die Fähigkeit zur Bildsegmentierung in das Large-Language-Modell integriert. Bei weitgehend gleichbleibender Modellstruktur und Parametern wurde die organische Integration von Aufgaben wie Bildverständnis, Bildsegmentierung und Objekterkennung erreicht. Diese Arbeit hat den Weg für die Weiterentwicklung von Large Language Models von der reinen Textausgabe hin zu multimodalen Ausgaben wie Bildern und Robotereingaben (Robot Action) geebnet.
Anschließend haben sie die multimodale Ausgabe-Fähigkeit des Modells mit Techniken des Reinforcement Learnings verbessert.
Durch diese Arbeiten hat Yufans MLLM-Modell Manas hervorragende Ergebnisse in Benchmarks für Raumverständnis wie Objektzählung, absoluter/relativer Abstand, physikalische Größe, Pfadplanung und räumliche Beziehungen aus eigener Perspektive erzielt. Die Vorstellung von Manas bedeutet, dass Yufan in Bezug auf die Fähigkeiten des Embodied-Intelligence-Gehirns reif geworden ist.
Das andere vorgestellte Produkt, der eigenentwickelte Vierbein-Roboterhund, bedeutet, dass Yufan auch die Fähigkeiten zur Entwicklung des Körpers und des Kleinh