首页文章详情

苹果FaceID缔造者为“物理AI”打造端到端的感知系统,融资1.07亿美元

阿尔法公社2026-01-14 18:37
“物理AI”还在早期,机会还有很多

过去一年,“物理AI”成为AI的下一个主要发展方向,已经逐渐成为行业共识。此前,我们认为“物理AI”面临具身智能数据缺乏,世界模型不成熟等缺项。这两个缺项都是关于“物理AI”的智能,其实在行业认为相对成熟感知层面,目前也远称不上成熟。

此前,感知能力常被视为一个零部件问题,而非一个系统性问题。硬件团队们花费数年时间从零开始构建感知技术栈,包括从多家供应商采购传感器、校准系统、调试同步问题,周而复始地造轮子。

其实系统化的感知能力,早已在消费电子领域被攻克,并被规模化地应用。例如微软的Kinect和苹果的FaceID。现在,这两项技术的缔造者,组成了一个团队,创立了创业公司Lyte。

他们将先进的4D传感、RGB成像和运动感知能力集成到单一平台中,仅通过一个连接即可提供统一的空间与视觉数据,让“眼睛”与“大脑”直接对话,构建行业所缺乏的感知基础设施。

近日,Lyte获得1.07亿美元的早期融资,Avigdor Willenz、Fidelity 、Atreides Management、Exor Ventures、Key1 Capital和Venture Tech Alliance参与投资。

微软Kinect和苹果FaceID的缔造者,为AI打造端到端的感知系统

Lyte由苹果深度传感和感知技术的关键架构师Alexander Shpunt(CEO)、Arman Hajati和Yuval Gerson共同创立。

Lyte的创始团队

Alexander Shpunt曾联合创立3D传感公司PrimeSense并担任其首席技术官。从2005年开始,他就致力于一个问题:如何教会机器感知深度?他想让机器像人类一样感知空间——看到的不是扁平的像素,而是维度、距离,以及三维空间中物体间的关系。

为此,他和团队创造了“光编码技术”:红外投影仪将不可见的点阵投射在整个场景上;摄像头负责读取这些点阵在不同距离上如何扭曲,并通过三角定位法将其转换成实时深度图。  

五年后,这项技术催生了一款革命性的体感设备——微软Kinect,它在六十天内售出了八百万台。

2013年,他的公司被苹果收购,他和团队成员进入苹果,将这个核心技术继续演进,2017年,苹果FaceID面世,如今已应用于数十亿台设备中。

在2021年,Alexander Shpunt就看到了“物理AI”的早期趋势,AI不仅要阅读文本和识别图像,它还被用于在在仓库中导航、操作机械、与行人和车辆共享道路——AI正走向实体化,融入现实世界。

但是风险随之出现,对于感知,相比在智能手机上偶尔不稳定,当它用在仓库里,开放道路上,出现错误的后果将是灾难性的。

Alexander Shpunt认为,“物理AI”能否顺利发展,一个重要的因素是能否对物理世界的可靠理解。机器人必须能够在复杂、动态的环境中安全运行,而不仅仅是在受控的环境中。

他以自己在苹果的班底为基础组建团队再次出发,这个团队横跨传感、芯片和实体AI领域。除了Alexander Shpunt自己外,Arman Hajati(CTO)曾主导了多代iPhone和Apple Watch的Taptic Engine架构设计;Yuval Gerson(工程副总裁)专注于复杂的机械和微机电系统(MEMS),Reza Nasiri Mahalati(硬件负责人)对于先进传感模块在硬件、软件和算法层面的集成工作有丰富经验。   

补上结构光缺失的第四维度:速度

根据Grand View Research的预测,AI机器人市场规模到2030年将达到1250亿美元。然而,麦肯锡的数据显示,超过60%的工业企业缺乏自主实施机器人自动化的内部能力,包括传感器集成能力。

企业的传统解决方式,是从多家供应商处拼凑感知系统,然后花费数月时间校准传感器、编写融合软件并调试集成故障。

Lyte要解决的就是这个结构性问题,他们以垂直整合技术栈的思路,将传感硬件、定制芯片和感知软件统一整合到单一平台中,为自主机器(包括但不限于具身智能机器人)提供在现实世界中运行所需的清晰而可靠的感知层。

结构光(光编码更通用的名称)是一种重要的感知技术,它成功应用于室内空间和人脸识别。但结构光有其局限:它只在近距离有效,且只能捕捉物体身在何处,而非去向何方。

对于在世界中移动的机器而言,这还远远不够。一台在仓库中导航的机器人,不仅需要知道叉车在哪里,还需要知道叉车正以每秒四米的速度向它驶来。一个在人行道上行驶的配送机器人,不仅需要看见孩子,还需要看见孩子正在奔跑。

传统传感器捕捉的是位置。为了理解运动,软件需要比较不同的帧画面:此刻的位置与前一刻的位置。这会引入延迟。在一个动态的世界里运行,延迟是风险的根源。

Lyte团队此前开发的体感设备不仅能看到人们的身体位置,还能追踪他们的运动方式。面部识别技术也不仅是绘制人们的的面容,更能确认这张脸是活生生的、在场的、真实的。这两项技术都能理解动态演进的场景,而非静止的瞬间。

现在,Lyte团队将同样的能力应用于更远的距离、更快的速度,以及在开放空间中运行的机器。

他们开发了一个新的核心技术——“相干视觉”。这项技术在运用光时,不再是投射图案并读取扭曲,而是发射连续信号并测量其返回信号。位置与速度,在同一瞬间被同时捕捉,无需事后计算,此能力内建于测量本身。

运用光的不同方式。它不再是投射图案并读取扭曲,而是发射连续信号并测量其返回信号。位置与速度,在同一瞬间被同时捕捉,无需事后计算,此能力内建于测量本身。它为感知引入了第四个维度,就是速度。一个物体的位置及其运动方向,被同时获知。

通俗的说,过去需要靠算法补齐速度信息,所以有延迟,而“相干视觉”是靠物理层直接获取速度信息,所以无延迟。

LyteVision,让机器的“眼睛”与“大脑”直接对话

基于这个核心技术,Lyte团队打造了LyteGalaxy这个统一的空间智能平台,它集传感器、计算单元、软件与算法于一体,为机器人构筑起一个完整统一的感知技术栈。

LyteVision

而在感知方面,他们的核心硬件产品是LyteVision,这是一个端到端的感知系统,它在2026年CES上荣获机器人技术“最佳创新奖”。这个新产品将先进的4D传感、RGB成像和运动感知能力集成到单一平台中,通过一个连接即可提供统一的空间与视觉数据。

它不仅统一了传感器,还统一了从感知到智能的整条路径:传感器与芯片融合,芯片为软件定制,软件为AI计算而生。从光子触及传感器,到决策返回至机器的完整技术栈——单一架构,无缝衔接。

具体来说,它经过三大集成阶段,将原始传感器数据转化为可执行的智能信息。

第一步,感知。在即插即用、任务就绪的模块中集成了4D相干视觉、RGB(可见光)和IMU(惯性测量单元)。这个模块具备完整而紧凑的传感功能,采用单电缆部署,是开箱即用的感知系统。

第二步,融合与处理。这套系统的定制芯片在硬件层面即时处理多传感器融合,提供统一、时间同步的感知数据。让开发者专注于构建机器人行为,免除调试传感器同步的麻烦。

第三步,理解。眼睛通过神经系统连接大脑,而一个能看见世界的机器人,仍需理解它所见的一切。这意味着要将传感器、芯片、软件与人工智能计算连接起来,然后数据从边缘流向云端再返回,模型处理机器感知到的信息,做出决策,发出指令。而且这整个闭环,在毫秒间完成。保证了即时性。

最终的成果是:LyteVision这个仅有单个连接器的独立模块,能将多个传感器,统一输出;而且能实时捕捉位置与速度,即刻部署。因为模块的统一性,它让每一台使用它的机器都能共享对世界的一致“看法”。

感知物理世界是复杂的,但Lyte将这些复杂性内部消化了,然后提供一个连接智能层的感知层。让“眼睛”与“大脑”直接对话。

这让“物理AI”在感知上,不再面对发展的限制因素。

在适应性上,LyteVision能够赋能广泛的实体AI平台,包括自主移动机器人、机械臂、四足机器人、自动驾驶出租车和人形机器人。

“物理AI”还在早期,机会还有很多

随着技术进步,AI进入越来越多的场景,而随着物理AI的崛起,AI对感知的需求从静止化、单一化向通用化、实时化发展。

以往,AI只需要识别出一个静态的人脸,现在它要在开放而复杂的物理环境中自由行进,随时都可能有训练数据之外的“意外”发生。

Lyte团队从2005年开始就开始涉足机器的“感知”,他们沿着这个主要方向前进,面对“物理AI”的新趋势和新需求,创造出新的技术解决方案。

端到端是感知系统的下一个趋势,特斯拉就是很好的例子。它没有复杂的雷达和摄像头结合的硬件系统,采用了纯摄像头方案,但是前端的摄像头收集的巨量数据与后端的深度学习模型相结合,形成了数据飞轮,就能在不增加硬件复杂性的前提下,越来越强。

Lyte的产品,也是端到端的,它通过软硬件结合的垂直整合技术,将感知系统的复杂性(硬件+软件)内化了,提供给客户的是一个简单的产品。而且这个产品足够通用,能够适应客户的各种硬件形态和应用场景。

目前,“物理AI”还很早期,我们在此前的文章里总结过,它有赋能智能硬件的AI操作系统、掣肘世界模型发展的具身智能数据,以及“世界模型”不完善等缺项;但是用更细的眼光去看行业,缺项其实并不止这三大项,例如我们以为已经成熟的感知,就有Lyte来进行革新。

那么,无论是智能、感知,还是行动控制,无论是硬件层面,还是软件层面,“物理AI”都还有很多突破的机会,值得创业者们去闯。

本文来自微信公众号 “阿尔法公社”(ID:alphastartups),作者:发现非凡创业者的,36氪经授权发布。