Der Schöpfer von Apples Face ID entwickelt ein Ende-zu-Ende-Wahrnehmungssystem für "physikalisches KI" und hat 107 Millionen US-Dollar an Kapital beschafft.
In den letzten 12 Monaten ist es zum Konsens in der Branche geworden, dass "Physik-AI" die nächste Hauptentwicklungstrendrichtung von KI darstellt. Zuvor waren wir der Meinung, dass "Physik-AI" an Mangel an Embodied-AI-Daten und an unreifen Weltmodellen leidet. Beide Mängel betreffen die Intelligenz von "Physik-AI". Tatsächlich ist auch das, was die Branche als relativ reif anseht - die Wahrnehmungsebene - noch lange nicht reif.
Bisher wurde die Wahrnehmungsfähigkeit oft als ein Problem einzelner Komponenten angesehen, nicht als ein systematisches Problem. Die Hardware-Teams haben Jahre lang darauf verwendet, den Wahrnehmungstechnologie-Stack von Grund auf aufzubauen, darunter die Beschaffung von Sensoren von mehreren Lieferanten, die Kalibrierung der Systeme und die Fehlersuche bei Synchronisierungsproblemen. Sie haben ständig das Rad neu erfunden.
Tatsächlich wurde die systematisierte Wahrnehmungsfähigkeit bereits im Bereich der Konsumelektronik überwunden und in großem Maßstab angewendet. Beispiele hierfür sind Microsofts Kinect und Apples FaceID. Jetzt haben die Schöpfer dieser beiden Technologien ein Team gegründet und das Startup Lyte ins Leben gerufen.
Sie integrieren fortschrittliche 4D-Wahrnehmung, RGB-Bildgebung und Bewegungswahrnehmungsfähigkeiten auf einer einzigen Plattform. Über eine einzige Verbindung können sie einheitliche räumliche und visuelle Daten liefern, sodass die "Augen" direkt mit dem "Gehirn" kommunizieren können und die von der Branche fehlende Wahrnehmungsinfrastruktur aufgebaut wird.
Kürzlich hat Lyte eine Frühphasensonderfinanzierung in Höhe von 107 Millionen US-Dollar erhalten. An der Investition beteiligten sich Avigdor Willenz, Fidelity, Atreides Management, Exor Ventures, Key1 Capital und Venture Tech Alliance.
Die Schöpfer von Microsofts Kinect und Apples FaceID entwickeln ein Ende-zu-Ende-Wahrnehmungssystem für KI
Lyte wurde von Alexander Shpunt (CEO), dem Schlüsselarchitekten für Tiefenwahrnehmung und Wahrnehmungstechnologien bei Apple, sowie von Arman Hajati und Yuval Gerson gemeinsam gegründet.
Das Gründerteam von Lyte
Alexander Shpunt war Mitgründer der 3D-Wahrnehmungsfirma PrimeSense und deren Cheftechnologiewissenschaftler. Seit 2005 hat er sich mit der Frage beschäftigt: Wie kann man Maschinen beibringen, Tiefe wahrzunehmen? Er wollte, dass Maschinen den Raum wie Menschen wahrnehmen - nicht flache Pixel, sondern Dimensionen, Entfernungen und die Beziehungen zwischen Objekten im dreidimensionalen Raum.
Dafür hat er und sein Team die "Lichtkodierungstechnologie" entwickelt: Ein Infrarotprojektor wirft unsichtbare Punktmuster auf die gesamte Szene. Eine Kamera liest, wie sich diese Punktmuster in verschiedenen Entfernungen verzerren, und wandelt sie mithilfe der Triangulation in Echtzeit-Tiefenbilder um.
Fünf Jahre später führte diese Technologie zu einem revolutionären Bewegungserkennungsgerät - dem Microsoft Kinect, von dem innerhalb von sechzig Tagen acht Millionen Stück verkauft wurden.
2013 wurde seine Firma von Apple übernommen. Er und seine Teammitglieder gingen zu Apple, wo sie diese Kerntechnologie weiterentwickelten. 2017 kam Apples FaceID auf den Markt und wird heute in Milliarden von Geräten eingesetzt.
2021 erkannte Alexander Shpunt die frühen Trends von "Physik-AI". KI soll nicht nur Texte lesen und Bilder erkennen, sondern auch in Lagerhäusern navigieren, Maschinen bedienen und Straßen mit Fußgängern und Fahrzeugen teilen - KI geht in die Realität über und integriert sich in die reale Welt.
Aber damit gehen auch Risiken einher. Bei der Wahrnehmung ist es im Vergleich zu gelegentlichen Instabilitäten auf Smartphones, wenn es in Lagerhäusern oder auf offenen Straßen eingesetzt wird, viel gravierender, wenn es zu Fehlern kommt.
Alexander Shpunt ist der Meinung, dass ein wichtiger Faktor für die erfolgreiche Entwicklung von "Physik-AI" die zuverlässige Wahrnehmung der physischen Welt ist. Roboter müssen in komplexen und dynamischen Umgebungen sicher funktionieren, nicht nur in kontrollierten Umgebungen.
Er gründete ein neues Team auf Basis seiner Kollegen bei Apple. Dieses Team umfasst die Bereiche Wahrnehmung, Chips und physische KI. Neben Alexander Shpunt selbst hat Arman Hajati (CTO) die Architektur des Taptic Engine von mehreren Generationen von iPhones und Apple Watch gestaltet. Yuval Gerson (Vizepräsident für Technik) konzentriert sich auf komplexe mechanische und Mikromechanische Systeme (MEMS). Reza Nasiri Mahalati (Verantwortlicher für Hardware) hat reichhaltige Erfahrungen in der Integration fortschrittlicher Wahrnehmungsmodule auf Hardware-, Software- und Algorithmusebene.
Die vierte Dimension, die bei strukturlichem Licht fehlt: Geschwindigkeit
Laut einer Prognose von Grand View Research wird der Markt für KI-Roboter bis 2030 auf 125 Milliarden US-Dollar anwachsen. Dennoch zeigen die Daten von McKinsey, dass über 60 % der industriellen Unternehmen über keine internen Fähigkeiten zur eigenständigen Implementierung von Roboterautomatisierung verfügen, einschließlich der Fähigkeit zur Sensorintegration.
Die traditionelle Lösung für Unternehmen besteht darin, Wahrnehmungssysteme von mehreren Lieferanten zusammenzustellen und dann monatelang Sensoren zu kalibrieren, Software zur Datenfusion zu schreiben und Integrationsfehler zu beheben.
Lyte will dieses strukturelle Problem lösen. Mit dem Ansatz eines vertikal integrierten Technologie-Stacks integrieren sie Sensorhardware, kundenspezifische Chips und Wahrnehmungssoftware auf einer einzigen Plattform. Sie bieten so autonomen Maschinen (einschließlich, aber nicht beschränkt auf Embodied-AI-Roboter) die klare und zuverlässige Wahrnehmungsebene, die sie für den Betrieb in der realen Welt benötigen.
Strukturiertes Licht (der allgemeinere Name für Lichtkodierung) ist eine wichtige Wahrnehmungstechnologie, die erfolgreich in Innenräumen und bei der Gesichtserkennung eingesetzt wird. Aber strukturiertes Licht hat seine Grenzen: Es funktioniert nur in kurzen Entfernungen und kann nur feststellen, wo sich ein Objekt befindet, nicht wohin es sich bewegt.
Für Maschinen, die sich in der Welt bewegen, reicht das bei weitem nicht aus. Ein Roboter, der in einem Lagerhaus navigiert, muss nicht nur wissen, wo sich ein Gabelstapler befindet, sondern auch, dass er mit einer Geschwindigkeit von vier Metern pro Sekunde auf ihn zukommt. Ein Lieferroboter, der auf einem Bürgersteig fährt, muss nicht nur ein Kind sehen, sondern auch, dass es rennt.
Herkömmliche Sensoren erfassen die Position. Um Bewegung zu verstehen, muss die Software verschiedene Bildschirme vergleichen: die aktuelle Position mit der vorherigen. Das führt zu Verzögerungen. In einer dynamischen Welt ist Verzögerung die Quelle von Risiken.
Die Bewegungserkennungsgeräte, die das Lyte-Team zuvor entwickelt hat, können nicht nur die Körperpositionen von Menschen sehen, sondern auch ihre Bewegungsweisen verfolgen. Die Gesichtserkennungstechnologie zeichnet nicht nur das Gesicht von Menschen, sondern kann auch feststellen, dass es sich um ein lebendiges, anwesendes und echtes Gesicht handelt. Beide Technologien können dynamische Szenen verstehen, nicht nur statische Momente.
Jetzt wendet das Lyte-Team dieselbe Fähigkeit auf größere Entfernungen, höhere Geschwindigkeiten und Maschinen an, die in offenen Räumen funktionieren.
Sie haben eine neue Kerntechnologie entwickelt - "Kohärente Vision". Bei dieser Technologie wird Licht nicht mehr in Form von Mustern projiziert und die Verzerrungen gelesen, sondern es werden kontinuierliche Signale gesendet und die Rücksignale gemessen. Position und Geschwindigkeit werden in demselben Moment erfasst, ohne dass nachträglich berechnet werden muss. Diese Fähigkeit ist in die Messung selbst integriert.
Es ist eine andere Art, Licht zu nutzen. Es wird nicht mehr in Form von Mustern projiziert und die Verzerrungen gelesen, sondern es werden kontinuierliche Signale gesendet und die Rücksignale gemessen. Position und Geschwindigkeit werden in demselben Moment erfasst, ohne dass nachträglich berechnet werden muss. Diese Fähigkeit ist in die Messung selbst integriert. Sie führt eine vierte Dimension in die Wahrnehmung ein, nämlich die Geschwindigkeit. Die Position eines Objekts und seine Bewegungsrichtung werden gleichzeitig erkannt.
Einfach ausgedrückt: In der Vergangenheit musste die Geschwindigkeitsinformation mit Algorithmen ergänzt werden, was zu Verzögerungen führte. "Kohärente Vision" erfasst die Geschwindigkeitsinformation direkt auf der physikalischen Ebene, sodass es keine Verzögerungen gibt.
LyteVision: Direkte Kommunikation zwischen den "Augen" und dem "Gehirn" einer Maschine
Basierend auf dieser Kerntechnologie hat das Lyte-Team die einheitliche Raumintelligenzplattform LyteGalaxy entwickelt. Sie integriert Sensoren, Rechenmodule, Software und Algorithmen und bildet so einen vollständigen und einheitlichen Wahrnehmungstechnologie-Stack für Roboter.
LyteVision
In Bezug auf die Wahrnehmung ist ihr Kernprodukt LyteVision, ein Ende-zu-Ende-Wahrnehmungssystem, das auf der CES 2026 den "Besten Innovationspreis" in der Robotiktechnologie gewann. Dieses neue Produkt integriert fortschrittliche 4D-Wahrnehmung, RGB-Bildgebung und Bewegungswahrnehmungsfähigkeiten auf einer einzigen Plattform und kann über eine einzige Verbindung einheitliche räumliche und visuelle Daten liefern.
Es vereinheitlicht nicht nur die Sensoren, sondern auch den gesamten Weg von der Wahrnehmung zur Intelligenz: Sensoren und Chips werden integriert, die Chips werden für die Software maßgeschneidert, und die Software ist für die KI-Berechnung entwickelt. Vom Moment, wenn Photonen auf den Sensor treffen, bis zur Entscheidung, die an die Maschine zurückgesendet wird, ist der gesamte Technologie-Stack - eine einheitliche Architektur, nahtlos verbunden.
Genauer gesagt wird in drei Integrationsphasen die Rohdaten der Sensoren in handlungsfähige Intelligenzinformationen umgewandelt.
Erste Phase: Wahrnehmung. In einem Plug-and-Play-Modul, das sofort einsatzbereit ist, werden 4D-Kohärente Vision, RGB (sichtbares Licht) und IMU (Trägheitsmessgerät) integriert. Dieses Modul hat eine komplette und kompakte Wahrnehmungsfunktion und wird über ein einziges Kabel installiert. Es ist ein sofort einsatzbereites Wahrnehmungssystem.
Zweite Phase: Fusion und Verarbeitung. Der kundenspezifische Chip dieses Systems verarbeitet auf Hardwareebene sofort die Fusion mehrerer Sensoren und liefert einheitliche, zeitlich synchronisierte Wahrnehmungsdaten. Dadurch können Entwickler sich auf die Entwicklung von Roboterverhalten konzentrieren und müssen sich nicht mehr um die Synchronisierung der Sensoren kümmern.
Dritte Phase: Verständnis. Die Augen sind über das Nervensystem mit dem Gehirn verbunden. Ein Roboter, der die Welt sehen kann, muss aber auch verstehen, was er sieht. Das bedeutet, dass Sensoren, Chips, Software und KI-Berechnung verbunden werden müssen. Dann fließen die Daten vom Rand zum Cloud und zurück. Das Modell verarbeitet die Informationen, die der Roboter wahrnimmt, trifft Entscheidungen und gibt Befehle aus. Und dieser gesamte geschlossene Kreis wird in Millisekunden abgeschlossen. Das gewährleistet die Echtzeitfähigkeit.
Das Endergebnis ist: LyteVision, ein unabhängiges Modul mit nur einem einzigen Anschluss, kann mehrere Sensoren einheitlich ausgeben. Es kann auch Position und Geschwindigkeit in Echtzeit erfassen und sofort eingesetzt werden. Aufgrund der Einheitlichkeit des Moduls können alle Maschinen, die es verwenden, eine einheitliche "Ansicht" der Welt teilen.
Die Wahrnehmung der physischen Welt ist komplex, aber Lyte hat diese Komplexität intern verarbeitet und bietet eine Wahrnehmungsebene, die mit der Intelligenzebene verbunden ist. Es ermöglicht die direkte Kommunikation zwischen den "Augen" und dem "Gehirn".
Das bedeutet, dass "Physik-AI" bei der Wahrnehmung nicht mehr an Entwicklungseinschränkungen stößt.
In Bezug auf die Anpassungsfähigkeit kann LyteVision eine Vielzahl von physischen KI-Plattformen unterstützen, einschließlich autonomer Mobilroboter, Roboterarme, Vierbeinroboter, selbstfahrende Taxis und Humanoidroboter.
"Physik-AI" ist noch in der Frühphase, es gibt viele Chancen
Mit dem Fortschritt der Technologie tritt KI in immer mehr Szenarien auf. Mit dem Aufstieg von Physik-AI entwickelt sich der Bedarf an Wahrnehmung von KI von statischer und einseitiger zu allgemeiner und Echtzeitfähiger.
Bisher musste KI nur ein statisches Gesicht erkennen. Jetzt muss sie sich in einer offenen und komplexen physischen Umgebung frei bewegen können, und jederzeit können "Unvorhergesehenes" auftreten, das nicht in den Trainingsdaten enthalten ist.
Das Lyte-Team hat seit 2005 mit der "Wahrnehmung" von Maschinen begonnen und hat sich diesem Hauptthema gewidmet. Angesichts der neuen Trends und Bedürfnisse von "Physik-AI" haben sie neue technologische Lösungen entwickelt.
Ende-zu-Ende ist der nächste Trend bei Wahrnehmungssystemen. Tesla ist ein gutes Beispiel. Es hat kein komplexes Hardware-System aus Radaren und Kameras, sondern verwendet ein reines Kamerasystem. Die riesigen Datenmengen, die von den Kameras gesammelt werden, werden jedoch mit dem hinteren Deep-Learning-Modell kombiniert, was zu einem Datenkreislauf führt. So kann es sich ohne Erhöhung der Hardwarekomplexität immer stärker entwickeln.
Das Produkt von Lyte ist auch ein Ende-zu-Ende-System. Durch die vertikale Integration von Hardware und Software hat es die Komplexität des Wahrnehmungssystems (Hardware + Software) internalisiert und bietet den Kunden ein einfaches Produkt. Dieses Produkt ist auch universell genug, um sich an verschiedene Hardwareformen und Anwendungsfälle anzupassen.
Derzeit ist "Physik-AI" noch in der Frühphase. In unseren vorherigen Artikeln haben wir festgestellt, dass es Mängel bei der KI-Betriebssystem für intelligente Hardware, bei den Embodied-AI-Daten, die die Entwicklung des Weltmodells behindern, und bei den unvollständigen "Weltmodellen" gibt. Aber wenn man die Branche genauer betrachtet, gibt es tatsächlich noch mehr Mängel. Beispielsweise hat Lyte die bisher als reif angesehene Wahrnehmung revolutioniert.
Ob bei der Intelligenz, der Wahrnehmung oder der Bewegungskontrolle, ob auf Hardware- oder Softwareebene, es gibt viele Chancen für Durchbrüche in "Physik-AI", die sich für Unternehmer lohnen, zu erkunden.