StartseiteArtikel

Exclusive Interview mit Hard Krypton | Wang Xiaogang, Mitbegründer von SenseTime, leitet neues Geschäft in der Embodied Intelligence, um Roboter beim Neuerlernen der Realität zu helfen

黄 楠2025-12-15 09:30
Aufbauen eines "Weltmodells", das die physikalischen Gesetze der Welt und die logischen Regeln des menschlichen Verhaltens versteht.

Autor | Huang Nan

Redakteur | Yuan Silai

Im Bereich künstlicher Intelligenz (KI) ist SenseTime ein Unternehmen, das bereits elf Jahre alt ist und sich längst an die immer wiederkehrenden Höhen und Tiefen des Marktes gewöhnt hat.

Zeit der Entstehung der visuellen KI ist es aus dem Labor der Hongkonger Universität Chinesischer Kunst und Kultur hervorgegangen und die Türen zur massenhaften Implementierung geöffnet. Doch das B2B-Geschäft ist nie einfach. Die meisten Unternehmen, darunter auch SenseTime, müssen sich mit den langfristigen kundenspezifischen Entwicklungserfordernissen auseinandersetzen.

Seit der Entstehung von ChatGPT haben alle Unternehmen sich auf die Entwicklung von Large Language Models (LLMs) konzentriert. SenseTime, das im Bereich Rechenleistung einen Schritt voraus war, hat damit neue Chancen gefunden. Laut dem Jahresbericht von SenseTime beliefen sich die Einnahmen aus generativer KI im Jahr 2024 auf 2,4 Milliarden Yuan, was einem Anteilserhöhung von 34,8 % im Jahr 2023 auf 63,7 % entspricht. Dies hat die generative KI zum wichtigsten Geschäftszweig von SenseTime gemacht.

Nach drei Jahren des rasanten Wachstums von LLMs stellt sich jedoch eine praktische Frage: "Wie kann die KI, abgesehen von punktuellen Durchbrüchen in bestimmten Szenarien, tatsächlich in die physische Welt eindringen und zu einem nützlichen Werkzeug werden, das Produktion und Alltag verändert?"

Dies ist auch die zentrale Frage, die SenseTime in jeder technologischen Iteration stellt.

Da Embodied AI zum Hauptschauplatz der nächsten KI-Revolution wird, wurde vor kurzem die Firma Daxia Robotics gegründet. Wang Xiaogang, Mitbegründer und Vorstandsmitglied von SenseTime, übernahm die Position des Vorsitzenden von Daxia Robotics. So hat sich das Unternehmen offiziell in das Feld der Embodied AI engagiert.

Wang Xiaogang sagte Hard Krypton, dass die Gründung von Daxia Robotics nicht darum geht, der "Innenschlacht" oder der "Aufzeigung komplexer Fähigkeiten" in der Branche zu folgen, sondern die echten Probleme anzugehen. Dafür wurde ein neues Forschungsparadigma namens "Human-centric" eingeführt. Basierend auf der Entwicklung eines "Gehirns", das die Gesetze der physischen Welt versteht, soll am Ende ein Hardware-Software-Integrationsprodukt entstehen, das den Anforderungen realer Szenarien entspricht.

Dies ist auch ein Branchentrend. Das Vorjahr war die Embodied-AI-Branche noch in der Phase der Erforschung von Bewegungsstabilität und Anwendungsfällen. In nur einem Jahr hat sich die Situation komplett gewandelt. Einige Unternehmen haben bereits Aufträge in Höhe von Hunderten von Millionen Yuan erhalten und sind in die Robotikfabriken in Shenzhen, Shanghai und Suzhou eingedrungen. So ist die Embodied AI nicht mehr nur eine Geschichte für Venture Capitalisten.

Die Entwicklung der KI-Technologie geht von der "digitalen Intelligenz" zur "physischen Intelligenz". Die etablierten KI-Unternehmen in diesem Bereich befinden sich in einer weiteren wichtigen Transformation.

SenseTime hat im ersten Halbjahr 2025 ein Nettodefizit von 1,162 Milliarden Yuan verzeichnet, was einen Rückgang von 50 % gegenüber dem Vorjahr bedeutet. Die Forschungs- und Entwicklungsausgaben steigen weiterhin. Das Unternehmen muss daher nach praktikableren Geschäftsfeldern suchen.

Der Durchbruch in der allgemeinen Intelligenz liegt nicht in der Illusion eines Allround-KI-Systems (AGI), sondern in der Fähigkeit, aus realen Interaktionen wiederverwendbare Fähigkeiten zu entwickeln. Der ultimative Wert eines Roboters liegt nicht in seiner aufwendigen Gestalt, sondern in seiner Fähigkeit, reale Probleme in der physischen Welt zu lösen. Von der visuellen KI über die LLMs bis hin zur Embodied AI versucht SenseTime mit Daxia Robotics nicht nur, einen Markt der Embodied AI im Milliardenbereich zu erschließen, sondern auch die Möglichkeit einer tiefgreifenden Interaktion zwischen KI und physischer Welt zu erschließen.

Im Folgenden finden Sie die Transkription des Interviews von Hard Krypton mit Wang Xiaogang. Der Text wurde bearbeitet:

Kein reines Unternehmen für Embodied AI-Gehirne

Hard Krypton: Dieses Jahr gilt allgemein als das Jahr der Implementierung von Embodied AI. Warum hat SenseTime sich entschieden, in diesem Moment Daxia Robotics zu gründen und in den Bereich der Embodied AI einzusteigen?

Wang Xiaogang: Die Entscheidung basiert hauptsächlich auf zwei Aspekten: der Industrialisierung und dem technologischen Paradigma.

Im Bereich der Industrialisierung ist die Embodied AI ein riesiger Markt mit einem Potenzial von mehreren Billionen Yuan oder sogar noch mehr. Wie Huang Renxun, Gründer von NVIDIA, sagte, könnte jeder Mensch in Zukunft ein oder mehrere Roboter besitzen. Die Anzahl der Roboter könnte die Anzahl der Mobiltelefone übersteigen, und ihr Einzelwert könnte dem eines Autos entsprechen.

Für SenseTime, das sich in der Vergangenheit hauptsächlich auf die B2B-Software konzentriert hat, ist der Roboterbereich eine wichtige Möglichkeit, das Geschäft zu erweitern und die Hardware-Software-Integration zu verbessern. Dank der Erfahrungen in verschiedenen Branchen versteht das Team die Bedürfnisse und Probleme der Kunden. Im Vergleich zu anderen Unternehmen in der Embodied-AI-Branche, die Schwierigkeiten haben, die Anwendungsfälle zu verstehen und reale Probleme zu lösen, wird von SenseTime eine bessere Fähigkeit in der Umsetzung von Anwendungsfällen erwartet. Dadurch könnte die Industrialisierung schneller voranschreiten.

Betrachtet man das technologische Paradigma, so hat die traditionelle Entwicklung der Embodied AI deutliche Schwächen.

Die Hardwareentwicklung der Roboter läuft zwar rasant voran, aber die Intelligenz ihrer "Gehirne" ist relativ gering. Das Kernproblem liegt in der "Machine-centric"-Technikroute. Dies bedeutet, dass verschiedene Roboter mit unterschiedlichen Formen und Parametern zuerst entwickelt werden, bevor die Daten für die Schulung eines allgemeingültigen Modells gesammelt werden. Dieser Ansatz ist nicht zielführend. Genau wie Menschen und Tiere in der Natur nicht dasselbe Gehirn teilen können, ist es auch schwierig, verschiedene Roboter wie Greifarme, Klemmen und Roboterarme mit unterschiedlicher Anzahl von Gelenken an ein einheitliches Modell anzupassen.

Hard Krypton: Inwiefern unterscheidet sich das von Daxia Robotics verwendete technologische Verfahren?

Wang Xiaogang: Wir haben ein neues technologisches Paradigma namens "Human-centric" eingeführt. Zuerst untersuchen wir, wie Menschen mit der physischen Welt interagieren und wie ihre Bewegungen funktionieren. Mit Hilfe von Tragegeräten und Kameras aus dritter Person sowie anderen Werkzeugen sammeln wir Daten aus verschiedenen Dimensionen wie Sicht, Tastempfindung und Kraft. So können wir die menschlichen Verhaltensweisen, insbesondere komplexe alltägliche Handlungen, in realen Produktions- und Lebenssituationen aufzeichnen.

Durch die Eingabe dieser Daten in ein Weltmodell kann das Modell die Gesetze der physischen Welt und die Logik des menschlichen Verhaltens verstehen. So können wir ein starkes "Gehirn" für Roboter entwickeln. Gleichzeitig kann ein ausgereiftes Weltmodell auch die Hardwareentwicklung leiten, so dass die Hardware besser an die tatsächlichen Anwendungsfälle angepasst ist.

In den Monaten August und September dieses Jahres haben Unternehmen wie Tesla und Figure AI angekündigt, von der Entwicklung echter Roboter wegzukommen und sich stattdessen auf die visuelle Lösung basierend auf Kameras aus erster Person zu konzentrieren. Doch diese Lösung basiert nur auf der Aufzeichnung menschlicher Verhaltensweisen durch die Kamera und berücksichtigt nicht wichtige Dimensionen wie Kraft, Tastempfindung und Reibung. Diese Dimensionen sind jedoch von entscheidender Bedeutung für die dreidimensionale Interaktion der Embodied AI mit der physischen Welt.

Mit rein visuellen Techniken können Roboter zwar Tänze und Boxbewegungen imitieren, aber in Situationen, in denen sie mit der physischen Welt interagieren müssen, wie beim Verschieben von Flaschen oder beim Eindrehen von Schrauben, stoßen sie schnell an ihre Grenzen.

Das von Daxia Robotics eingeführte Human-centric-Paradigma hat sich bereits in der Praxis bewährt. Das Team von Professor Liu Ziwei, einem Kernmitglied von Daxia Robotics, hat kürzlich einen Datensatz namens EGO life erstellt, der 300 Stunden an realen menschlichen Verhaltensdaten aus erster und dritter Person enthält. Ein auf diesem Datensatz basierendes Embodied-Vision-Modell hat sich in Tests als effektiv erwiesen, um das Problem zu lösen, dass bestehende Datensätze hauptsächlich einfache und sinnlose Handlungen enthalten und daher nicht ausreichen, um komplexe Bewegungen zu lernen.

Teammitglieder von Daxia Robotics: In der ersten Reihe von links nach rechts sind es Li Hongsheng, Tao Dacheng, Wang Xiaogang und Pan Xingang; in der zweiten Reihe von links nach rechts sind es Lü Jianqin, Zhao Hengshuang, Liu Ziwei und Liu Xihui (Quelle: Unternehmen)

Hard Krypton: Öffentliche Daten zeigen, dass der chinesische Markt für Embodied AI im Jahr 2024 bereits 80 Milliarden Yuan überschritten hat. In den letzten zwei Jahren sind Hunderte von Start-ups in diesen Bereich eingestiegen. Wie definiert Daxia Robotics seine ökologische Nische in der Branche?

Wang Xiaogang: Das Ziel von Daxia Robotics ist es, ein Hardware-Software-Integrationsprodukt zu entwickeln, das reale Probleme in verschiedenen Anwendungsfällen lösen kann. Wir wollen nicht einfach nur ein Modellunternehmen sein.

Während des Entwicklungsprozesses haben wir festgestellt, dass die bestehende Hardwareentwicklung oft nicht auf die Anwendungsfälle zugeschnitten ist. Dies hat uns dazu gebracht, gemeinsam mit Partnern an der Hardwareentwicklung zu arbeiten und kundenspezifische Lösungen zu entwickeln.

Nehmen wir beispielsweise die Roboterhunde in der Branche. Die Kameras der traditionellen Roboterhunde haben eine begrenzte Sichtweite und sind niedrig montiert. Dadurch können sie an Kreuzungen nicht genau die Fahrtrichtung erkennen und haben Schwierigkeiten, die Ampelsignale zu erfassen. Wir haben zusammen mit Insta360 ein Panoramakamera-Modul entwickelt, das eine 360-Grad-Sichtweite bietet und somit das Problem der begrenzten Sicht löst.

Darüber hinaus haben viele Roboterhunde immer noch Probleme mit der Wasserdichtigkeit, hohen Kosten der Rechenplattform und begrenzter Akkulaufzeit. Diese Mängel verhindern, dass sie in realen Anwendungsfällen regelmäßig eingesetzt werden können.

Hard Krypton: Wie sieht das Kooperationsmodell bei der gemeinsamen Entwicklung aus?

Wang Xiaogang: Unsere Stärken liegen in den Modellen, der Navigationsfähigkeit und der Bedienungskapazität auf der Seite des "Gehirns". In der Vergangenheit hatten wir zwar B2B-Softwarelösungen und eine Infrastrukturplattform, aber noch keine standardisierten Produkte auf der Geräteebene.

Unterstützt von den in den letzten zwei Jahren von SenseTime investierten Unternehmen in Bereich der Hardware und Komponenten von Robotern, wendet Daxia Robotics ein Ökosystem-Kooperationsmodell an. Wir geben die Hardware-Entwurfsrichtlinien vor und arbeiten mit Partnern an der Entwicklung der Hardware. Gleichzeitig bleiben wir auch auf der Seite der Modelle offen und bieten Basis-Modelle und Ressourcen.

Hard Krypton: SenseTime hat in den Bereichen Sicherheit und automatisiertem Fahren reiche Daten und Technologien gesammelt. Welche Kernfähigkeiten können direkt auf den Bereich der Embodied Roboter übertragen werden?

Wang Xiaogang: Es gibt zwei Kernfähigkeiten. Die erste ist das Forschungs- und Entwicklungssystem sowie die Sicherheitsstandards. Sowohl beim automatisierten Fahren als auch bei Embodied Robotern hängt die technologische Entwicklung von einer großen Menge an Daten ab. Das entwickelte Forschungs- und Entwicklungssystem, der Datenkreislauf und die Daten-Flywheel haben sich bewährt und können die Effizienz der technologischen Entwicklung von Robotern verbessern. Gleichzeitig können die strengen Sicherheits- und Datensicherheitsstandards aus dem Bereich des automatisierten Fahrens auch auf die Entwicklung von Embodied Robotern übertragen werden, um die Zuverlässigkeit der Produkte zu gewährleisten.

Die zweite Kernfähigkeit sind die Anwendungsfunktionen. Die von uns in der Stadtplanung entwickelte Ark-Plattform hat mehr als hundert verschiedene Anwendungsfunktionen. Früher war sie hauptsächlich für Kameras an festen Standorten konzipiert. Jetzt können wir sie mit Embodied Robotern verbinden. Wenn die Geräte draußen sind, können sie die Analysefähigkeiten der Plattform nutzen und ihre Funktionen erweitern.

"Innerhalb ein oder zwei Jahren wird das Human-centric-Paradigma zuerst bei Roboterhunden massenhaft eingesetzt werden"

Hard Krypton: Wenn wir uns die letzten elf Jahre von SenseTime ansehen, haben wir die komplette Entwicklung von der massenhaften Implementierung der visuellen KI bis zur Explosion der Embodied AI miterlebt. Wie verstehen Sie die unterschiedlichen Entwicklungspfade der Technologien in jeder Phase und die dahinter liegende Logik?

Wang Xiaogang: Die Entwicklung von SenseTime spiegeln die Entwicklung der KI-Technologie von Version 1.0 bis 3.0 wider.

Als das Unternehmen 2014 gegründet wurde, war die KI in der Version 1.0. Die Gesichtserkennungstechnologie erreichte damals eine Erkennungsrate, die die des menschlichen Auges übertraf. Die damalige "Intelligenz" basierte auf der manuellen Annotation von Bildern. Durch die Hinzufügung von Tags zu Bildern wurde ihnen eine "Kognition" verliehen.

Aber wegen der begrenzten Informationen und der hohen Spezialisierung der Tags mussten für verschiedene Aufgaben separate Bilder und Videos annotiert werden. Es gab das Phänomen, dass "je mehr Menschen, desto mehr Intelligenz". Aufgrund der begrenzten Daten waren die damaligen Modelle nicht nur klein, sondern auch schlecht in der Lage, auf verschiedene Szenarien und Branchen zu übertragen.

In die Version 2.0, der Large-Language-Modell-Zeit, hat sich die Situation grundlegend geändert. Der Kernunterschied liegt darin, dass die Daten selbst jetzt mehr Intelligenz enthalten. Wir nutzen Texte und Bilder aus dem Internet. Ein Gedicht, ein Artikel oder ein Code enthält die von Menschen über Jahrtausende gesammelten Verhaltensweisen. Dies ist weit mehr als die Intelligenz in einfachen Tags.

Die LLMs haben zusammen mit diesen Daten eine Intelligenzexplosion ausgelöst. Die Modelle können jetzt über verschiedene Szenarien und Branchen hinweg eingesetzt werden und haben eine hohe Allgemeingültigkeit.

Aber der Wert der Internetdaten wird immer mehr "erschöpft", und die Marginalwirkung der Allgemeingültigkeit nimmt ab.

Wir gehen jetzt in die Version 3.0, die Embodied-AI-Zeit. Hier wird es darum gehen, direkt mit der physischen Welt zu interagieren. Um ein "Weltmodell" zu entwickeln, das die physischen Gesetze der Welt und die Logik des menschlichen Verhaltens versteht, reicht es nicht aus, nur Texte und Bilder zu studieren. Wir müssen in die physische Welt eintauchen und reale Interaktionen haben. In Situationen wie dem Aufräumen eines Zimmers oder dem Anbieten von Dienstleistungen steckt eine komplexe Echtzeitintelligenz. Durch die direkte Interaktion mit der Welt kann die KI die Grenzen der bestehenden Daten überwinden und neue Wege für das Wachstum der Intelligenz finden.

Hard Krypton: Aus der Branchenperspektive hat