Um die Paradigma der eingebetteten künstlichen Intelligenz - Wahrnehmung neu zu gestalten, hat HorizonX Technology ein neues Produkt der visuellen "Raumintelligenz" vorgestellt.
2026 wird höchstwahrscheinlich von den Nachfolgern als Wendepunkt der Embodied Intelligence (eingebettete Intelligenz) markiert. In den letzten zwei Jahren haben wir den großen Ausbruch des Bereichs der humanoiden Roboter miterlebt, und sie sind zur Lieblingsdarstellerin im Rampenlicht geworden. Doch hinter dem glänzenden Demo-Vorzeigeschau breitet sich eine stillschweigende Sorge in der gesamten Branche aus: Warum können die Roboter, die auf der Pressekonferenz tanzen, Kleider falten und sogar Rücksprünge machen können, nicht in die echten Fabriken und Haushaltsküchen gelangen?
„Die gegenwärtige Branchenschranke liegt nicht darin, ob die Roboter sich bewegen können, sondern in der Langzeitzuverlässigkeit in der realen Welt.“ So hat Hu Wen, Mitbegründer und CEO von Chenjing Technology, treffend festgestellt. Einfach ausgedrückt, müssen die Roboter nicht nur einmal die richtige Bewegung ausführen können, sondern auch in einer unkontrollierten offenen Umgebung tausendmal die Aufgabe ausführen, ohne dass es zu Fehlern kommt.
Hu Wen hat eine Rechnung gemacht: „Die Kunden kaufen immer die ‚Kosten pro Einheit der Aufgabe‘ und die ‚Uptime (Fehlerfreie Betriebszeit)‘. In den Demos können Sie durch Voreinstellungen und Fernbedienung ‚schummeln‘, aber in der realen Welt können Änderungen der Beleuchtung, rutschige Böden oder sogar die unterschiedliche Anordnung eines Stuhls zu solchen Randfällen werden, die die Logik des Roboters zerstören können. Wenn man diese Rechnung nicht hinbekommt, kann die Embodied Intelligence niemals über das Labor hinausgehen.“
Chenjing Technology ist ein führender Akteur im Bereich der Raumintelligenz und setzt sich für die Schaffung einer ‚Rauminfrastruktur‘ ein, die die physische und die digitale Welt verbindet.
Während die gesamte Branche versucht, die ‚Todesrinne‘ zwischen der Demo und der Umsetzung zu überwinden, hat Chenjing Technology einen äußerst herausfordernden, aber möglicherweise erfolgversprechenden Weg gewählt: Die teuren Lidarsysteme werden verlassen, und die ‚Augen‘ und das ‚Gehirn‘ der Embodied Intelligence werden mit einer reinen visuellen Lösung neu aufgebaut.
Abschied von der ‚Alles-Einkreisen‘-Methode, Willkommen zur ‚Raumintelligenz‘
Die großen Modelle haben die Schwierigkeit, die menschliche Sprache zu verstehen, gemeistert, aber die Embodied Intelligence steht vor einer noch schwierigeren Herausforderung: Die Maschine muss in der physischen Welt eine absolut präzise ‚geometrische Wahrnehmung‘ erlangen. Diese Wahrnehmung besteht darin, in Millisekundenbewegungen die dreidimensionale Struktur der Welt in Echtzeit zu messen und ein strenges Raum-Zeit-Koordinatensystem aufzubauen.
Der von der Professorin Fei-Fei Li, der ‚Mutter der KI‘, vorgeschlagene Begriff der ‚Raumintelligenz‘ hat den Prozess der aktiven Erkundung der Welt durch die KI eingeleitet. Kurz gesagt, soll die KI ein ‚physikalisches Intuition‘ entwickeln, um ständig ihre eigene Haltung, Position und die geometrischen Abstände der Objekte wahrzunehmen.
Nach Ansicht von Hu Wen ist dies genau das technische Gebiet, in dem Chenjing Technology seit Jahren tätig ist. Als ein Raumrechnungsunternehmen, das bereits 2019 mit der Planung des ‚Spiegeluniversums‘ begann, setzt sich Chenjing Technology für die 1:1-Klonung der realen physischen Welt in der Cloud zu einem digitalen Zwillingsobjekt ein. Dieser extreme Anspruch an die ‚Raumkonsistenz‘ hat es Chenjing Technology ermöglicht, in den zugrunde liegenden Technologien eine hohe Hürde zu errichten.
Die herkömmliche maschinelle Wahrnehmung gibt normalerweise nur ein zweidimensionales Label aus (z. B. ‚Dies ist eine Flasche‘), was in der physischen Interaktion jedoch unzureichend ist. Die echte Raumintelligenz gibt stattdessen ‚Raumstruktur + Raumkoordinaten + dynamische Beziehungen‘ aus. Unabhängig davon, wie stark der Roboter schaukelt, kann er die absoluten Koordinaten und die geometrische Haltung des Ziels immer genau verfolgen. Diese hochpräzise Positionsbestimmung ist die Voraussetzung für die präzise Greifbewegung des Roboters.
Das neue Produkt, das Chenjing Technology bald vorstellen wird, zielt darauf ab, dass der Roboter ein ‚berechenbares, vorhersagbares und ausführbares‘ internes Weltmodell aufbaut. Dieser generative Sprung von der ‚Erkennung‘ zur ‚Messung‘ bedeutet, dass der Roboter nicht mehr auf hochpräzise Karten oder QR-Codes angewiesen ist, sondern wie ein Mensch eine biologische ‚Raumintuition‘ durch seine beiden Augen entwickelt.
Willkommen zu Teslas FSD, der Angriff der reinen visuellen Lösung
Bei der Wahrnehmungsroute hat Tesla Optimus sich vollständig auf die reine visuelle End-to-End-Trainingsmethode verlagert, was die Entstehung eines ‚neuen gemeinsamen Nenners‘ in der Branche markiert: Nur wenn die Roboter möglichst die gleichen visuellen Modalitäten wie die Menschen teilen, können sie die physikalischen Regeln der menschlichen Gesellschaft nutzen.
Nach Ansicht von Hu Wen ist die reine visuelle Lösung nicht nur das Ziel der Zukunft, sondern auch die beste Lösung für die Gegenwart. „Wir haben uns entschieden, ein ganzheitliches System mit der visuellen Wahrnehmung als Kern zu wählen, basierend auf drei grundlegenden Tatsachen für die Umsetzung: Skalierbarkeit, Generalisierbarkeit und kontinuierliche Iteration.“
Zunächst ist es die Kostengesetzmäßigkeit. Um die Fähigkeiten in Millionen von Robotern zu integrieren, müssen die Sensoren billig und in großen Mengen verfügbar sein. Die Kamera, als eine etablierte Komponente in der Konsumelektronik, folgt dem Mooreschen Gesetz, während die Kostensenkungskurve des Lidars noch immer nicht ausreicht, um die privaten Anwendungen zu unterstützen.
Noch wichtiger ist die Informationsdichte. Das Lidar kann nur die geometrische Position liefern, während das visuelle System eine riesige Menge an Informationen wie Semantik, Textur und physikalische Eigenschaften enthält. „Das visuelle System trägt die größte Informationsmenge. Vom Straßenaufbau bis hin zu den Innenräumen ist es im Wesentlichen das Problem eines gleichen Weltmodells. Wir hoffen, dass das Skalierungsgesetz (Scaling Law) wie bei den großen Sprachmodellen auch bei den visuellen Modellen wirksam wird. Nur die reine visuelle Lösung kann das universelle Weltmodell sättigen.“ So betont Hu Wen.
Natürlich hatte die reine visuelle Lösung auch Schwächen. Die herkömmliche visuelle Lösung ist sehr empfindlich. Sie hat Probleme mit Reflexionen. Wenn es auf eine Glaswand oder eine Edelstahlplatte trifft, hat es oft ‚Halluzinationen‘, nimmt das Glas für Luft und rennt direkt dagegen, oder wird von den reflektierten Scheinbildern abgelenkt. Es hat auch Probleme mit starkem Licht, da plötzliche Änderungen der Beleuchtung die Tiefeninformationen verlieren lassen. Und es hat Schwierigkeiten mit Bewegung. Wenn der Roboter sich schnell dreht oder beim Gehen wackelt, wird das Bild unscharf, und der Roboter wird sofort ‚durcheinander‘, was zu einer Positionsverschiebung führt.
Und genau dies ist das, was das neue Produkt von Chenjing Technology zu überwinden versucht. Durch die hohe Rechenleistung am Geräteende und die eigenständige Algorithmusentwicklung wird die visuelle Wahrnehmung auch in einer industriellen Umgebung stabil bleiben.
Der ‚Wasserhändler‘ in der Ära der Embodied Intelligence
Mit der zunehmenden Konkurrenz in diesem Bereich könnte die Eigenentwicklung eines Spitzenvisuellsystems für viele Roboterhersteller eine enorme ‚strategische Falle‘ darstellen. „Die Eigenentwicklung eines gesamten Systems ist ein langfristiger Krieg, der viel Kapital und Spitzenkünstler fordert. Für die Hersteller der Roboter-Körper ist die Zeitspanne am knappsten.“ So hat Hu Wen offen gesagt.
Chenjing Technology hat für sein neues autonomes Raum-AI-Kameraprodukt eine klare Positionierung vorgenommen: Es soll die ‚standardisierte Augen‘ und der ‚Eingang zum Weltmodell‘ der Roboter sein. Hu Wen hat gesagt, dass der kommerzielle Weg des Produkts klar sei: „Es ist sowohl eine der Schlüsselhemmnisse für die Massenproduktion der Roboter im B2C- und B2B-Bereich als auch einer der Bereiche, in denen sich am leichtesten eine plattformbasierte Skaleneffizienz bilden kann.“ Hu Wen hat auch verraten, dass das neue Produkt von Chenjing Technology bereits eine Partnerschaft mit dem Top-Unternehmen Unitree Technology eingegangen ist. Bisher hat Unitree mit Produkten wie G1 und H1 in der Bewegungskontrolle Spitzenleistungen erbracht, aber in der Robustheit der Wahrnehmung in komplexen Umgebungen hat die Branche schon lange nach einer stärkeren Lösung gesucht.
Als ein anerkannter Hardcore-Technologieherausforderer hat Unitree Technology extrem hohe Anforderungen an die Hardware. „Unitree Technology ist extrem technologiegetrieben, und sie haben bereits in mehreren Szenarien unseren visuellen Wahrnehmungsansatz Looper Robotics getestet und deployt.“ So hat Hu Wen verraten. Die Tatsache, dass es die strengen Tests von Unitree bestehen konnte und sogar im Antriebsversuch eine Beschleunigung von 24 g aushalten kann, was es für hochdynamische Arbeitsanforderungen geeignet macht, beweist bereits die industrielle Stärke dieses visuellen Ansatzes.
Am Morgen des 28. Januar 2026 wird Chenjing Technology in Hangzhou eine Pressekonferenz für das neue Produkt abhalten und offiziell die Marke LooperRobotics für die Embodied Intelligence starten und ihre Produktpalette vorstellen. Dies könnte die Produktkombination sein, die derzeit am nächsten an der Endform der ‚Raumintelligenz‘ kommt:
Insight vollautonome Raumintelligenzkamera: Eine intelligente Kamera, die speziell für die Embodied Intelligence entwickelt wurde. Sie ist mit einer Recheneinheit mit hoher Rechenleistung ausgerüstet, die die ursprünglichen schweren KI-Algorithmen direkt an den Geräteendpunkt verlagert, und verfügt über einen integrierten Hochleistungs-VSLAM-Motor, der die Grenzen der visuellen Wahrnehmung am Geräteende erheblich erweitert. In Kombination mit einem 188°-Weitwinkelobjektiv und einer maximalen Beschleunigung von 24 g kann sie in extremen Bewegungen komplexe Rauminformationen in Echtzeit verarbeiten und den Robotern eine so empfindliche und stabile visuelle Rückmeldung wie bei Lebewesen liefern.
TinyNav Hochleistungs-Navigationsalgorithmus-Bibliothek: Eine leichte und hochpräzise 3D-Navigationsalgorithmus-Bibliothek, die die ‚räumliche Subkonsciousness‘ der Roboter darstellt. Sie bricht die Abhängigkeit der herkömmlichen Navigation von teurer Rechenleistung und kann auch auf kostengünstigen eingebetteten Systemen eine stabile Positionsbestimmung und Kartenerstellung bieten. Die tiefgreifend optimierte lokale Wahrnehmungsfähigkeit von TinyNav stellt sicher, dass die Roboter in komplexen Umgebungen mit hoher Unsicherheit eine sehr hohe Robustheit aufweisen.
RoboSpatial Raumbearbeitungswerkzeugkette: Eine 3D-Raumbearbeitungswerkzeugkette für die Anwendungen in der Embodied Intelligence-Branche. Sie zerlegt die komplexen Raumintelligenzfähigkeiten in einfache ‚Hinzufügen, Löschen, Ändern und Abfragen‘-Operationen, und die Entwickler können wie beim Bearbeiten eines Dokuments in der 3D-Realität POI definieren und Aufgabenlogik festlegen. Durch die nahtlose Verbindung mit dem zugrunde liegenden System kann die Umsetzung von Anwendungen in der Embodied Intelligence von Monaten auf Tage verkürzt werden.
Wenn die Roboter tatsächlich über Raumintelligenz verfügen, werden sie nicht mehr einfach nur Maschinen sein, die Befehle ausführen. Der Moment, in dem die Embodied Intelligence ‚aufwacht‘, beginnt mit LooperRobotics.