首页文章详情

机器人开可乐发扑克有多难?聊聊灵巧手的硬件与算法

硅谷1012025-12-17 20:09
灵巧手,打开人形机器人能力上限的“金钥匙”。

2026年,人形机器人将迎来规模化量产的元年。最清晰的信号来自特斯拉,“金色擎天柱”Optimus Gen 3预计在2026年第一季度亮相,并计划在年底前建成产能高达100万台的生产线。马斯克曾多次表示,特斯拉未来约80%的价值来自这里,而非汽车。而“擎天柱”的攻关关键,正在于它的“手与前臂”。

灵巧手,从驱动方案上可分为三大路径,每一派都有各自的代表:

【连杆方案】充分展现了机械设计的美感,但通常意味着低自由度,但也有以韩国ILDA为代表的高自由度灵巧手。

【绳驱方案】优势是轻量化、自由度高、力量输出稳定。特斯拉的Optimus和在硅谷101 Alignment科技大会上表演开可乐罐的TetherIA灵巧手,都是绳驱方案中“单向拉绳”的代表选手;“双向拉绳”的代表则有被誉为“灵巧手皇冠明珠”的Shadow Robot和ORCA Hand。但这类方案也临着走线延伸、材料蠕变、装配难度高等问题。

【直驱方案】优点在于方便精细控制。在行业展会上,Sharpa机器人凭着一双电机直驱灵巧手惊艳了众人,它一张一张地发扑克牌,拿着相机按下快门。劣势则是抗冲击力差,重量较大等。

本期《硅谷101》,泓君邀请了灵巧手模型算法方面和硬件方面的两位专家——来自的亚马逊&前Meta机器人研究科学家齐浩之,TetherIA联合创始人陶一伟,一起聊聊灵巧手的现状,不同技术路线的特点,以及它在数据和算法上面临的挑战。

嘉宾们认为,对灵巧手头部公司来说,短期内针对单项任务打造成功一个的Demo并不难,真正的突破在于通用性与可扩展性。当算法能让机器人在短时间内学会开可乐、开门、拧螺丝等多样化的灵巧操作,才意味着灵巧手到达了类似ChatGPT的泛化突破阶段。

01机器人灵巧手的能力与挑战

泓君:可能听众最迷惑,在很多Demo里,大家看到机器人可以去拿吸尘器、倒垃圾、烧水,甚至把盘子放在洗碗机里。我记得特斯拉有一年的发布会,擎天柱现场给大家倒酒,看起来这个手已经是很智能了。所以可不可以概括一下,现在机器人的手它能做哪些场景?它到了一个什么样的发展程度?

齐浩之:好的,我会认为,在遥操作的情况下,如果这个手的手指不需要很精细的动作,那它是一个比较简单的问题,比如说擎天柱倒酒,它就是把手放到出酒的那个把手上,往下压,这个在控制上是比较简单的。

与此相对的是,比如说今天我们想让一个机器人使用我们家庭里面的各种工具,比如说像螺丝刀、像剪刀这样的东西,在这个过程中我们的手指需要更加精细灵巧的操作,在这种情况下它的操作就会变得很难。以及我们需要它适应于千家万户不同的工具,这个难度就会呈指数级的上升。

“擎天柱”(Optimus)展示倒酒 图片来源:X

泓君:你刚刚提到了一个词是“精细运动”,还有一个我理解就是讲它的“泛化能力”,就是把它放在不同的场景中,在这两块是还需要加强的。

陶一伟:我稍微补充一点,刚才齐老师可能是从系统端的角度来讲这个问题,我可能更多地是从硬件这方面去切入。一是把现有的硬件方案做得更可靠,就是说让机器人能够在真实的环境中不停地长时间稳定的运行,并且和自然物体的交互,在长时间使用中不会损坏,这个事情实际上也没有完全地去做到。

并且这个硬件还是需要继续地去迭代,比如增加它的自由度,增加它的触觉传感。在这个过程中,由于系统复杂性的增加,它的可靠性又变成了更大的挑战。这也是从硬件端还需要我们去做的很多工作。

泓君:我给听众一个更加形象的例子,今年我们的年会上,Evan是在现场用机器人表演了开可乐的。其实在彩排的时候,它是一个不稳定的状态。比如说当时我也想去试让这个机器人打开可乐,但是我随意放了一个角度,这个时候可能需要机器人旋转一下才能把这个可乐打开。旋转一下这个动作,对机器人很难吗?

陶一伟:没错,这个是一个非常好的问题。首先开可乐本身,看似只要一双手,再加上一个指甲就可以实现,但是真正把它放到一个双臂机器人系统上,还是非常有挑战的工作,而我们也只是浅浅Demo了一下,未来还有非常多的工作,怎样能让整个事情变得完全自动地实现起来,并且成功率非常高地去实现,还是一个很长的路要走。

可乐怎么去对准这个事,精度是一个方面的问题,还要感知到现在可乐的状态,以及,人可以实现用任意姿态去抓起这一罐可乐,然后在单手调整可乐的角度,去达到最完美的状态,再让另一只手过来,又以一个最完美的状态把它拉开。这个机器人还是需要一个过程,包括手的硬件设计、控制这些方面的能力。

泓君:现在世界上有其他的公司,比如说它在自由度上做得更多的,他们能做到很好地去旋转可乐,然后再把它打开吗?

陶一伟:我觉得一些比较头部的公司去调整优化一下他们的硬件,包括去更多地在这方面下一些工夫,也是可以实现这么一个Demo的。但是目前说让它完全自主去做,我觉得可能还是没有看到哪一家可以去做到。这个可能更多的我要看看齐老师的观点。

泓君:对对,齐老师还有论文是讲用视觉跟触觉做手内旋转的,应该是这方面的专家了。

齐浩之:我的看法是,现在大家有不同的宣传策略,或者说他们的一些发展或者研究的侧重点。比如说,对于像陶总这样的硬件厂商,他们可能目标是为了证明他们的硬件非常地好用,无论是从机械结构上,或者说用它做的一些控制系统上,所以去展示一些很炫酷的Demo是非常好的。

与此相对的,还有一些做灵巧手的算法,但是不做灵巧手硬件的公司,他们可能就会比较少的展示这样方面的能力,而更多的是一种展示它的泛化性的能力。

就正如陶总所说,如果我们只优化这一个视频,那有一些头部的硬件厂商或者算法的研究院,他们可以做出来。但是从长远的角度来看,我们更应该专注的是什么样灵巧手的构型是能够适用于最多种类的任务,以及对于算法的接口最好。

图片来源:Figure

泓君:所以现在,浩之,根据你的研究,你觉得已经有公司它能做到我随意摆上去——我们不说任何环境、任何场景——我们就说这个可乐罐,它的瓶跟它的开口,不一定是正对着这个机器人的手的,它能把它打开的这样的一些公司吗?

齐浩之:我觉得现在是没有这样的公司的。如果一个公司他们今天想要完成这个任务,他们可能会从技术上花几个月去做到这件事情,但是他们可能需要花费非常多的资源和非常多的时间,可能就是出于对他们本身公司路线的考量,他们不会去做这件事情本身,而更倾向做一些算法上的改进,让他能够缩短以后想要做这件事情的时间。

泓君:就是他们不会针对单个的任务去做这种优化,而是他是希望现在在优化的方向是让他适应尽可能多的任务,就是还是更加看重它的泛化性。

齐浩之:是的。

泓君:了解。如果照这个来说的话,我印象中之前Figure AI他们放了一些视频出来,大概就是有机器人它能把盘子放进洗碗机里。所以这个视频它可能是拍很多次失败挑出来的一些成功的案例?还是像你说的,它其实是通过遥操,它只是一个展示类的视频,它并不代表机器人拥有这样的一些能力?

齐浩之:我觉得这里面没有一个确定的信息源吧。但是我觉得就是现有的算法是可以做到在一个固定的场景下能比较容易地拍出这种视频,比如说它整个任务的成功率可能有80%-90%,在这种情况下拍一个视频,也是自主完成的,它的难度也没有特别高。但是距离让这种人形机器人走入千家万户,它可能差的是如何在每一个场景下都可以以100%的成功率去完成这些任务。比如说把盘子放到洗碗机里,很可能90%也是不够的,因为有10个盘子,如果碎了一个,大家就不想用这个机器人了。所以可能需要改进的就是成功率,以及老生常谈的泛化性的问题。

泓君:所以现在在灵巧手的问题上,大家关注的也还是泛化性。

陶一伟:对,我这里也补充一下,实际上我们在每一个任务中还是要去细分地看它整体的难度。因为刚才泓君您提到装洗碗碟和从洗碗机里往外拿,这个任务拆解下来,它主要是机器人拿起碗碟,打开洗碗机的门,然后放进洗碗机的架,这几个就像齐老师说的,做简单的抓取物体,并且拉动一些拉杆,属于相对比较简单的任务。这个难度实际上跟刚才我们谈到的开可乐还不是一个数量级。

因为开可乐仔细去分析这个事情,它实际上是一个用左手或者右手把可乐从桌面上拿起来,调整好罐口方向,再用另外一只手从空气中对准之后,以一个合适的角度卡入拉环,并且以一个合适的角度和力去打开这个可乐。并且在这个过程中,因为它是双手对一个物体进行同时操作,你的另外一只手要对抗这个拉可乐的力,对抗的过程中你又要怎么保证你的手指不会产生过大的力把这个易拉罐给捏爆?从整体机器人控制系统上来说,这是比收纳碗碟难得非常多的一件事情。

图片来源:TetherIA

泓君:所以大家觉得,现在如果我们综合来说整个灵巧手它的瓶颈是在哪?它是整个机器人行业的问题,就比如说我们还是说这个模型的问题、泛化性的问题,还是说灵巧手它除了这个之外,它还是有很多它自己这个行业独有的难题?

陶一伟:灵巧手我们不能光看它是硬件的一个模块,它能产生它的价值肯定是要配上至少一个双臂的这么一个系统。这个双臂的系统会形成一个最小可以用来工作的机器人。但是当我们想要真正让它泛化地去在一个环境里执行任务,你就会需要一个移动的底盘、移动的平台。有了这样移动的平台,大家就会说轮式的是不是可以针对一些可能更复杂的路面情况,包括机器人的上下的运动?大家又会说,那可能还真的是一个全人形的更合适。所以说真正能让灵巧手有价值,肯定不是简简单单一个硬件模块可以去解决的事情。

齐浩之:它的难点肯定是整个机器人到处都是难点。经常也会有人问我做灵巧手最难的地方是什么?我认为现在来看,硬件和软件还会有一个很大的提升空间。

从软件层面来说,我的理解是一些比较成熟的在机械臂或者一些轮式机器人上面的算法,就是一些机器学习的算法,当把它们直接应用在灵巧手或者人形机器人这种更复杂系统的时候,它会出现一些之前没有预料到的问题。比如说现在的灵巧手可能有四五个手指,然后每一个手指有各种各样的关节,每一个关节都可能与这个环境发生交互、与这个物体发生交互。那么怎么能在保证这些交互所产生的一些影响是对我们有利的?比如说我们今天想要抓一个物体,如果我们用一个夹爪去抓,我们只需要考虑两个接触点该怎么去触碰这个物体?但是如果我们现在给了10个接触点,那么这10个接触点该怎么去分别地接触这个物体?有的接触点之间可能是互相对抗的作用,这种情况下在计算复杂度上就会显著地变难。

从硬件层面来说,我开始研究灵巧手可能是2021年、2022年,在那个时候是只有非常少的选择,我们可以买到并且还可以用的灵巧手。在最近的一两年,我们的灵巧手硬件,尤其是国内厂商,还有美国这边一些造硬件的公司都有了长足的进步,所以我觉得这方面的瓶颈在逐渐地减少。但是我的预测是还需要几轮的迭代,才能做到一个比如说大家现在能看到的宇树机器人那样,一个逐渐收敛的构型。

泓君:现在的灵巧手,市面上能买到的,大家的形状、硬件都各不一样,那你就要去根据这个硬件调配自己的软件。

齐浩之:嗯,就是以像人的灵巧手居多。但是每一家公司他们的技术路线都会有所不同,像陶总的公司应该是绳驱的技术方案,也有一些公司是把电机放在灵巧手的手指上这种驱动方案。

02 盘点灵巧手硬件三大技术路径

泓君:其实说到技术路径,就我知道现在业界比较流行的有几种,一种是连杆驱动的,一种是绳驱的,绳驱还分单向绳驱跟双向绳驱,还有电机驱动的。要不要跟大家简单地介绍一下,这些技术路线各自的优劣势是什么?现在业界的主流方向在向哪个方向发展?它有没有收敛的趋势?

陶一伟:我先从硬件本身这个角度来谈一下,之后可能麻烦齐老师再补充,从使用者的角度来看,到底哪一种是它更倾向的。

首先我们先看三个主要的方式,一个就是连杆,另外一个绳驱,最后一个就是直驱。

连杆最早应该是大家比较传统意义上的那种假肢手,是采取这样的一个结构驱动方式,它通过底下驱动器,无论是直线的推杆、电缸,或者是用蜗轮蜗杆的方式产生一个旋转运动,最后实现手指弯曲。

这是属于传统意义上六自由度的低自由度灵巧手,它更多的是像手的一个形状,但是它的手指的运动轨迹其实是相对还是比较低自由度的,它的指尖是跟随一个固定的路线,是个一维的这么一个轨迹。大拇指它的设计也是它侧摆之后直接正对应食指或者中指之间,它也是通过这么一个固定轨迹的方式去合拢,所以说从使用的角度来说,它和夹爪相比,特点并没有那么的明显。这是低自由度连杆手的一个特点。

泓君:低自由度灵巧手,六个自由度,差不多就是五个手指这样合拢,然后还有一个自由度在哪?

陶一伟:是大拇指的侧面摆动。

泓君:就是大拇指有两个自由度,然后其他的手指各一个自由度。

由韩国阿犹大学的智能机器人研究实验室(IRLAB)设计并开源的ILDA灵巧手图片来源:Iir LAB AJOU

陶一伟:没错。连杆手实际上还有另外一条路线,也是高自由度的路线,就是之前韩国一篇论文叫ILDA,这篇论文的手基本上思路也是通过一个相对更复杂的连杆方式,把每个手指根部设计出三个主动的直线驱动器,然后通过也是比较复杂的连杆系统,实现每个手指三个自由度的方式。这样的手的确还是比较先进,但是它可能存在的问题是它的体积还是比较大,并且它的所有的零部件进行刚性的连接,使用中缺少一些柔性。这个柔性不仅在抓握物体的过程中感觉并不是非常的柔顺,并且它也会在碰撞的过程中相对来说更容易损坏一些。

泓君:这是第一个,连杆驱动优劣势。

陶一伟:然后我谈一下第二个,直接驱动的这些方式。直驱的灵巧手其实是这一两年才逐渐出现的这么一个方案。实际上现在电机驱动器也有很多的发展,把电机驱动器做得足够小,使得这样的直驱方案变得可行了。

优点是它的自由度可以做得非常高,它可以在每个关节排布一个驱动器,并且它从控制角度来说,因为关节和电机直接对应的,是相对来说比较容易去做的。它的缺点可能更多的是一个贵。我觉得最终可能应该成本也能往下走,但是它更多的一个点在于它把电机做得微小之后,它的减速比还是相对来说比较高,它大的减速比会使得整个的传动透明性比较差一些。也是说它里面的齿轮、零部件都比较精密,也是在实际的应用中可能寿命或者是抗冲击能力会是它的一个问题。并且因为把他的电机所有的这些零件做得非常小型化,使得它的所有结构都非常需要有高强度的金属结构,这就使得整个手的系统的重量没有办法做得非常的小而轻。所以普遍直驱的灵巧手都是在将近一公斤或者一公斤以上,这个在机器人末端来说还是挺大的一个负载。

泓君:一公斤的手那好重啊,这设计平衡都是一个问题。

陶一伟:的确,对,这些是它的一些问题,还有一些就是包括刚才提到的可靠性、易维护性,这可能我们还是看一看这个方面的发展。

图片来源:Sharpa

泓君:所以它现在算是业界里面从灵活度来说是做得比较高的这样的一种灵巧手,就是也可以理解成它是能完成更多的精细运动跟复杂动作的类型。因为之前是有人跟我推荐过,说我们应该去聊一聊Sharpa这家公司,就觉得它做得还挺好的,他们好像就用的这种电机直驱的方式。

陶一伟:没错没错,他们做得真的是非常的惊艳。它的产品的完成度非常高,感觉它集成的很好,整个工业设计还非常不错,它每个关节有独立的电机,使得它的整个真的是非常灵活。

泓君:它能做到哪些其他灵巧手做不到的工作?

齐浩之:我觉得从展示这个视频的角度来说,他们可能做了一些,比如说用相机拍照,比如说有一个双臂灵巧手的系统给大家发扑克牌,这个会比较难,因为比如说我们想象一叠扑克牌的时候,两张牌之间它的间隔很小,当我们自己人手发牌的时候,我们需要控制一个比较精确的力,才能把这个牌从这个牌堆上面拿出来,然后再给大家。如果说碰牌的点不是很准,或者是力太大,很容易一下发很多张牌,或者把牌堆给打散,所以他们做的这个视频还是相当惊艳。

泓君:嗯,就是如果要一张牌一张牌地发,对手部精细度的要求还是比较高的。对,这个是直驱的方案。然后还有一种应该是Evan你这边比较熟悉的,就是拉绳跟绳驱的这种方案。

陶一伟:对的,绳驱的方案其实现在市面上几家主流的公司方案的话也主要分两种,一个是双向拉绳的方案,一个是单向拉绳的方案。双向拉绳的主要以最早的我们可能都听说过,灵巧手的皇冠的明珠吧,Shadow Hand他们的一个产品,是一个15万美金的天价产品,超高26个自由度的灵巧手。他们的方案就是在每个关节用两根绳同时连到旋转电机的两个方向上,使得旋转电机向顺时针转就是弯曲,逆时针转就是伸直,是这样的一个思路。

图片来源:Shadow Robot

还有比较类似的另外一款目前开源的手叫ORCA Hand,是苏黎世理工做出来的,他们这个也是非常不错的一款双向拉绳开源的灵巧手方案。这样的灵巧手比较大的难度在于一个双向拉绳、一个张紧问题。因为当你一个旋转轴去控制末端的另外一个旋转轴的时候,它需要两侧绳的长度长时间保持不变,因为绳在使用的过程中材料会产生蠕变,这个蠕变一旦发生就会有一个松动的现象发生,这个松动的现象使得系统的精度降低,并且比较难以控制。

从解决的角度来说,ORCA Hand有一个比较聪明的方式,一个精妙的设计,就是在它驱动器上用了一系列的棘轮机构,使得你可以轻松地去张紧这个绳。但是这个问题也是在于你还是要在使用过程中时不时要去调整一下这个东西,这是这个方案比较大的一个难度。

ORCA Hand中的棘轮机构 图片来源:ORCA

还有一点就是,这种高自由度灵巧手,其实绳子本身虽然不占太多的体积,但是绳驱设计的走线,在机械设计中它对空间的利用率实际上非常低。它不像是你设计齿轮或者设计其他类似的方案,你可以说很紧密地把电机排布在一起。你要去考虑到整个绳的走线,然后整个关节运动中绳的一个范围变化,一个非常动态的事情。所以使得高自由度灵巧手,尤其是绳驱方案,很少有能够全部做在手掌内的,这就使得它的驱动器都要往手腕以下去延伸。像Shadow Hand和ORCA Hand,以及特斯拉。实际上我们国内有一家公司源升智能,他们做的绳驱方案是把驱动器全部整合在手掌内,但是这样也的确使得他们手掌的体积稍微还是比较大的。

泓君:特斯拉是哪种方案?

陶一伟:特斯拉是单向拉绳的方案。然后就说到单向拉绳,这也是一个主流的方案。单向拉绳好处就是说,对于腱绳材料的蠕变它不是那么的敏感,它可以通过算法的方式相对容易地去克服这个事情。但它的缺点就是说它的伸直运动是没有主动的力,相当于是靠弹簧去实现伸直。这个弹簧伸直的过程中,一是这个力相对来说还是比较小的,如果你想要尽量去优化你的抓握力的话,因为你在抓握过程中实际上是跟你的弹簧力一个对抗,你有更强的伸展力,你就浪费掉你的抓握力。但是有的时候人在一些精细的操作,人用手的过程中,反向地推这样的力,的确也会有它的作用,但是现在这个阶段我们还是在解决抓握的事情。

泓君:就没有想到张开的事情,是吧?

陶一伟:对,张开的的确还用得并不是那么多。反向推,你可以想象你如果去闭着眼睛在你的书包里掏一些东西,你可能需要把其他东西拨开。这个的确是需要一个推的动作,但是更多的还是要整手的触觉,这个确实是非常难的一个问题了,现在大家都没有去考虑这个事情。

泓君:对,那业界现在大家在向哪几个方向收敛呢?

陶一伟:从我看来,硬件上业界现在主要是朝着直驱和单向拉绳这个方向去收敛,包括特斯拉还有我们都是这样的一个方式。直驱的话也是非常惊艳的,连杆的手可能相对高自由度的做的公司会少一些。

泓君:Figure AI他们用的是什么方案?还有Physical Intelligence。

陶一伟:Figure AI,我简单看了一下他们的专利,它可能是一个六自由度的,或许是连杆,或者是其他的一些方案的一个手。

图片来源:Figure

泓君:浩之有什么补充的?讲讲你作为使用者的体验。

齐浩之:我自己是用过连杆和直驱电机的这两种,我确实没有用过绳驱动的手。

我们现在去做“机器人+AI”,大概有两种比较主流的方式。第一种方式就是先用遥操作采数据,然后去训练一个神经网络去完成某些任务。在这种情况下,比较经典的代表可能是Aloha,还有像Physical Intelligence的这条路径。

另外一条比较主流的路径是在一个物理的模拟器中,去用强化学习去训练这么一个网络,就直接把这个网络从仿真器里面迁移到真实世界。比较成功的案例就是基本上所有大家看到的四足机器人、双足机器人跳舞、走路都是走的这条技术方案。

灵巧手的话,任何一种方案在现在这个时间点都有它的缺陷。但是其中的这套从仿真器中训练一个网络,再迁移到真实世界也是非常流行的。所以这个就有一个问题,就是我们在选择灵巧手的时候会去衡量它有多容易被仿真。之前我们比如说比较连杆的手以及直驱的手,我们会觉得直驱的手相比于连杆的手,会容易仿真很多,所以在我们做一些需要高自由度,需要一些用强化学习才能学到的这种灵巧操作的时候,就会选择用直驱的这个手。在之前这种直驱的手,就像刚才Evan说的,它最大的缺陷是当时的电机非常大,也是在最近几年这个电机才做得越来越小,比如说Sharpa。

当时我们觉得Sharpa惊艳的另外一个原因就是说,在Sharpa之前,跟人手差不多大小的这种机器人的手,它一般都是要么是连杆驱动,要么是绳驱,对于我们想做的这个技术路线不太适用。所以当时我们觉得它既有人类的大小,然后又是电机驱动的,就是很适用于我们做这方面的研究。

图片来源:Sharpa 

泓君:所以我觉得挺有意思的,就是如果用仿真的方式去研究灵巧手的话,其实你首先需要这个手长得跟人类的手一样,甚至你的自由度、你的关节数有多少要跟人类的手越接近越好。刚刚大家提到Sharpa的手,我看它的价格好像是10万美元一只。还有Evan你刚刚提到Shadow Hand的那个手,它是15万美元。谁在买这些这么贵的灵巧手?都是科研机构跟大公司的研发部门吗?

齐浩之:Sharpa应该是5万一只。

泓君:5万一只,10万两只,它会按对卖吗?

齐浩之:应该是可以按对卖的。我的理解是,首先这些厂商他们不会靠卖这个硬件去盈利,至少在此时此刻,因为他们还远远没有到量产的那个阶段。他们现在对于这个公司最重要的可能是先确定他们现在这个构型哪里还值得被优化,接下来再去往一个正确的方向继续迭代。这样的迭代可能还有很多很多轮。他们的这个价钱很多时候我个人的理解可能是有一些筛选作用在的,就是他们只想给那些真正对他们的硬件有一个很强烈的需求的人,可能是大厂,或者是一些来自于政府资助的高校。举一个例子,当时Shadow Hand的一个主要客户就是17、18年的OpenAI,他们当时做灵巧手转魔方,他没有足够的财力去支持他们做这样的工作。

泓君:挺有意思的。我理解,其实他们现在也不是靠卖硬件赚钱,还是希望能把这条路跑通。他们其实也是希望能够吸引在上面的开发者,然后把整个生态搭起来,让更多的人去用到他们去改进这个方案。

齐浩之:嗯,我是这么理解的。Evan可以从硬件从业者的角度来讨论一下。

陶一伟:或者从我的创业者的角度来讨论一下这个事吧。我们公司的商业模式可能还跟他略有不同。因为就像刚才齐老师说的,这些机构是一个走高端学术路线,包括筛选精品客户的角度来做这个事情。

的确,像现在泓君您看到很多Demo在应用场景中似乎已经是可以落地。而我们思路是做一款稳定可靠、价格更低,能让真正地做应用端的客户能够很快地去部署的这么一个产品。可能我的自由度,包括整个的性能,包括触觉没有那么的高级,但是我们会去做一款这样的产品。这样使得大家可以在落地的过程中逐渐建立起这个生态,然后帮我们更多地获得和客户的反馈。这是我们从创业公司的角度来说,我们的一个策略。价格比较便宜的灵巧手并不代表没有技术含量,也并不代表它没有商业价值。

03 特斯拉灵巧手研发故事

泓君:Evan,其实你进特斯拉的时候应该是在两年多以前,2023年7月份,对吧?正好是特斯拉Optimus手的研发,你要不要跟大家简单介绍一下它整个的手是怎么演进的?

陶一伟:没问题。其实是最早我加入的时候,当时做手的团队,我们整个Optimus做机械硬件的团队应该大概是十几个人这么一个团队。我和另外一个人主要是负责这个手的项目。实际上外界现在也不是很清楚当时那一代手是个什么样的方案。它是个蜗轮蜗杆绳驱方案,六个主动自由度,十一个全关节,这么一个欠驱动灵巧手。

当时在内部,我们已经是迭代到了第三代。我当时加入的时候最主要的一个升级就是增加灵巧手的关节编码器,就是怎么能够捕捉到灵巧手在空间中的位姿,另外一个是增加它的触觉。

虽然这两个工作似乎只是电路上的升级,但是从整个系统设计的角度,因为有了这些新的功能的加入,整个灵巧手当时沿用第一代的构型,就使得装配过程中非常困难。

我刚进去的第一个星期的任务,就是带领生产团队亲手去组装这个刚设计好的第三代灵巧手。的确是个非常痛苦的过程。可能一个手我们从早装到晚也装不出来。从没有搞机械的角度来说可能很难理解,就是你每一个工序可能都要花一两个小时在那里慢慢地做,这个实际上就是一个硬件构型设计上还不完善的地方。

泓君:就是Tesla自己做的,他也没有用其他的硬件的方案,就相当于他全部是自己设计、自己研发,然后你来正好就是赶上要自己组装这个事情。

陶一伟:没错。马斯克实际上当时看到的那个第三代的手他没有特别满意,因为是从外形的设计包括各方面还是更多的有点像实验室的样机这么一个状态。

泓君:他想要什么样的?他是对外形不满意?还是对里面的技术方案不满意?

陶一伟:马斯克看到的是一个外形、一个是产能。外形他觉得不是很满意,另外一个产能当时可能一天只能组装一两台,就这样的产能太差。

泓君:所以他其实当时可能在质疑整个的这个设计环节,就是从外形到这个方案是不是好落地?

陶一伟:是的,所以这就是我当时进去的时候第一个任务就是带领整个项目把它的手重新设计一遍,和工业设计很紧密地去合作,整个把它的结构从里外重新的架构调整了一下,包括很多的设计细节也是我们独创的。这是我们做出来的一个我们内部叫3.1代的手,但对外就是我们所有目前看到的装机,还是大规模装机,一直到现在用的这款手。

图片来源:Tesla

泓君:改进以后,现在装一只手要多久?

陶一伟:离开的时候,我记得是一个星期要一百多台,是我们的技术工人在现场装,自己有条产线。从我们工程师的角度来说,我们肯定先要自己先做一遍,先要走一遍这个流程之后才能交给工人去做。

泓君:那马斯克对灵巧手的这个问题上,提出过哪些他的想法?

陶一伟:马斯克他是非常坚信第一性原理,所以说他的很多的指导也是从这个角度来的,包括去做仿生这样的事情。

泓君:仿生的问题上,就我知道特斯拉内部你们其实是做过人体的分析,去看人体是怎么感知力的,就是人的手他是怎么工作的。

陶一伟:没错,首先我们是看了很多生物解剖上面的学术论文,学习了人的肌腱的运动的发力的方式。还有甚至一个小小的故事,就是说我们其中有一个伙伴的妈妈是一个手部的外科医生,我们也正好有这么一个机会去到现场观察真的人手的结构,当时这个经历还是很有趣的。

泓君:然后你刚刚提到其实你们有看过很多生物学的论文,你从中获得的最大的一个启发是什么?或者说整个特斯拉他从人体的工作里面得到的启发是什么?

陶一伟:其实特斯拉从上一代,到未来马上要发的这一代手,最大的一个变化就是把驱动器从手掌内移到小臂,这个也是借鉴了一部分人的设计,因为人的手指的弯曲的驱动的肌肉是在小臂上的存在。

泓君:不是在手掌内,是在小臂上。

陶一伟:其实是都有,所以说这也是我们自己方案和特斯拉有一些差异的点。它的小臂控制更多的是一个大的抓握力的肌肉,你可以这样理解,因为它的肌肉还是比较大的。手掌内分布的肌肉更多的是控制手的一个灵巧的精细化的操作运动。

齐浩之:我有一个比较好奇的问题,刚才二位也提到了装配一个绳驱的灵巧手可能要花的时间非常多,而且要非常专业的人去做。我比较好奇的是,这会不会使它的产能相比直驱的灵巧手有一个比较大的区别?

陶一伟:是的,我认为是这样的,直驱灵巧手因为作为可能更像传统意义上的机械结构,包括机器人系统,它通过传统的一些比较成熟的机械的工艺的方式,可以实现比较容易的装配,你可以通过拧螺丝或者是焊接的这种方式去组装,这样的方式都是已经比较成熟的方式,它既能保证精度,也可以保证整个效率。

但是绳驱,因为腱绳的方案,传统意义上这方面的整合的事情就做得不是那么多,所以说这方面是需要整个行业去推进的一个事情,包括腱绳怎么两端固定的驱动器和末端的执行元件的连接,既能保证它生产速度,同时保证它的精度,这个事情大家还是在探索的过程中。但是这个事情最终还是一个工程的问题,它并不是一个基础的科学问题。所以说随着整个行业的推进,我们认为这个事情最终是能被克服的。

04 揭秘灵巧手“数据金字塔”

泓君:我们刚刚聊了很多跟灵巧手的硬件相关的问题,那接下来我们可以聊一聊算法层面的,就是浩之你这边主要在研究的。

齐浩之:在过去的几个月里面,我主要研究的是如何从一些人类的视频中学习这些灵巧操作的技能。

现在大家可能比较了解的是应用一些遥操作的方式。遥操作就是现在我们有一个操作员,他可以戴一些动作捕捉的手套或者一些动作捕捉的衣服,然后把这些人的动作映射到机器人的手上。但是这样其实可能有一些缺陷,第一个缺陷就是说每一个操作员都要适配一台机器人,那么如果我们想要把机器手操作的数据一直把它推广到像有语言数据那么多,是非常困难的,因为没有那么多机器人以及产能不够。

所以另外一条路就是说我们能不能根据一些现有的数据,比如说有很多视频是包括人去录制自己如何做饭、如何去清理家务,有一些手的动作,我们就想要研究能不能通过让机器人观看这些手的动作,然后让它自己就学会了这些技能。

泓君:现在表现怎么样?

齐浩之:现在我会把它归类为还在研究的阶段。如果我们的目标是想要达到一个最好的效果,那么肯定是直接用遥操作的方式去采集机器人本身的数据会是最好的。但是因为现在我们还没有把从人类视频中学习数据的这个样本数目推广到足够多。我相信从长远来看,这条路径很有可能会取代遥操作。

泓君:我觉得挺有意思的,而且我注意到之前1X它还发了一个机器人Neo,这个Neo它是可以进家庭,可以帮你做一些基础的家务的,但是很可怕的是大家是以出卖隐私的方式去让这个机器人工作的,因为每个机器人后面有一个遥操的人在控制这个机器人。那我理解,其实这也是他们自己收集数据的一种方式。

Neo演示广告片 图片来源:1X

齐浩之:对,没错,就是我的理解是现在还没有一家公司能够把机器人卖到用户的家里,完成他们想要做的任务。所以1X相当于是一种有点像特斯拉在自动驾驶上面的策略,先把车卖给用户,用户去开这个车,开这个车的同时就采集到了数据。只不过是人形机器人的话,用户自己并不能操作这个人形机器人,所以就有一个他们自己的操作员去操作这个机器人。当然他涉及到的一些隐私问题、一些道德层面上的问题,其实都是需要更多地被讨论。

泓君:你刚刚提到,你2021年~2022年开始去做机器人的这些部分的,那个时候其实GPT3已经出来了,但是能不能用端到端的方式去训练机器人跟灵巧手,我觉得在那个时候它还不是市场的一个主流方向,那时候大家研究机器人的一些主要的方向在哪里呢?

齐浩之:我会认为那个时候大家研究的机器人主要是想让机器人在某一个任务上,在有限的泛化性的要求下去完成这个任务。因为那个时候硬件也不是很多,能做灵巧手科研的课题组也不是很多,灵巧手这个问题本身大家也没有很想做。特斯拉宣布做人形机器人之后,整个人形机器人行业和这个灵巧手行业迎来了一波爆发,大家才逐渐开始做这个方面。

然后在后来最近的几年,就有越来越多的人试图用GPT的研究方式去做一些端到端的模型,包括在一些比较简单的机器人本体上也做得还行,就是也有了一些初步的验证结果,比如说Physical Intelligence,他们就用很大规模的数据加上遥操作去展示了这个机器人有很强的能力。但是对于灵巧手的话,有一个更难的地方,就是灵巧手采集数据会比其他机器人采集数据要难很多。

图片来源:TetherIA

泓君:你是说手部的数据?

齐浩之:对。所以即使我们有操作员不停地一直在采集数据,距离到GPT那个等级的数据,或者说Physical Intelligence那个等级的数据还不是一个非常简单的任务。 

泓君:我上次其实有跟他们的研究员聊,他们π0.5好像是说1万多个小时的数据,对吧?就1万多个小时已经算整个机器人行业最大的真实数据集,当然这个是高质量的数据。

齐浩之:对,肯定有很多公司在收集数据的过程中,他们所产生的数据远超1万个小时。但是还有一个问题就是在于什么样的数据,对于训练机器人来说是有用的。

泓君:我们聊一下你的研究,我知道你在研究用视觉跟触觉去做比如说手内旋转,或者是用两只多手指去学习一些复杂操作的。整体上你的工作其实是证明触觉带来的提升,就你能不能简单跟大家解释一下,为什么机器人它要有触觉?加进去了以后机器人多了哪些能力?

齐浩之:我觉得机器人有触觉其实是有几个方面的好处。我之前做过一个比较有趣的实验。在美国这边可以买到那些有一些麻醉凝胶,像牙医做一些小手术,会把那些麻醉凝胶放到牙龈上,我当时就把一些麻醉凝胶放到我的手上,这个是完全无害的,只是有一些时间让你感觉不到一些东西,然后我就去试图在这种情况下去做一些操作,很多时候这个操作也可以被完成,但是就会感觉它做得很慢,因为实际上我是要用我的眼睛仔细地去看我的手到底有没有接触到,我想比如说拿一根铅笔,或者说拿一个板擦这种东西。

所以我觉得首先有触觉,当你的手指和物体交互的时候,它能给到更精确的信息。比如说我们现在想象一个人形机器人,它去进行一些操作,它的手可能拿到了一个东西,这个时候这个视觉一定是很难看到它到底有没有拿到东西了,因为手把这个接触点挡住了,所以天然地来说在这种情况下触觉会更有用。

泓君:所以触觉就是加传感器,对不对?

齐浩之:对。另外一个非常有用的点是说,它可以控制力的大小。比如说回到最初我们提到的开可乐瓶的例子,刚才Evan提到我们需要一个手用足够多控制住这个可乐瓶的力,但是又不能把它捏爆,另一只手可能就需要去拉可乐瓶的拉环,然后这个拉环当然也是要有一定的角度,就是使力的角度要非常的精确,不然很可能把这个拉环拉断了,但是可乐瓶还没有开。在这种情况下去感知你操作时候它所用的力也是非常重要的,这样感知力最好的方式就是通过一些触觉的传感器。

泓君:所以触觉的传感器,它是不仅仅能感知到我摸到了这个物体,它还是能感知力的。感知力这个是怎么做到的?

齐浩之:现在的有各种技术方案,我可能就简单说两三种。比如说我们可以把一些压感传感器放到手指尖上,然后这个压感传感器大概就是说当外界给一定的压力的时候,这个电路会产生不一样的电流,然后根据这个电流的大小来判断这个压力有多大。

另外的一些方案,就比如说,有一种叫视触觉传感器。比如说我们现在有一个手指,我们就在手指内部加了一个另外的相机,这个相机会往外看,它会有一些材料能够当手指进行接触的时候产生一些形变,相机就会捕捉到这些形变。当它捕捉到这些形变之后,就可以反向地推断出外界的力是从哪个方向来的,是有多大的力,把这些信息放到一些视觉处理器或者一些神经网络中就可以得到我们想要的触觉信号。

陶一伟:对,我可以稍微再补充一点,关于触觉,刚才齐老师说的主要是在手指或者手表面覆盖的这样的一些触觉传感器,实际上从我们跟客户的交流过程中,另一部分客户比较在意的灵巧手的力反馈信息,其实也是来自于驱动器的一个电流的大小。就是说驱动器到底用多大的力来拉动这个手指,这个也是另外一部分比较重要的力反馈信息。这个其实和人类的感知系统也比较类似,因为当人类去抓握物体或者操作物体的时候,人的皮肤表面是有一层的触觉信号,还有另外一层是来自于你的肌肉收缩的感知能力。

泓君:我觉得挺有意思的,就是我聊了这么多,其实有一个感受是我们之所以把机器设计得这么复杂,是因为我们对人体跟我们自身一无所知。

陶一伟:没错。

齐浩之:我觉得刚才Evan补充得非常好,就是绳驱这条技术路线一个很大的优势就是在于它可以比较容易地实现力控,因为它可以通过收缩这个力的大小来达到这一点。

泓君:你觉得像你这样的一个研究科学家大概一天能收集多少这种遥操的力的数据呢?

齐浩之:这个其实很取决于我想要什么样的任务。假如说我现在最简单的用这个手去抓取一个东西放到另外一个地方,这个其实可以收集很多,只要我不累,我就可以一直以很高的成功率收集这样的数据。

但是比如说一些更难的任务,比如说我现在要去遥操作一个机器人去用剪子剪窗花或者折纸这种,即使是收集一条都非常难。这个也是我们在做算法的时候,想要去解决的一些任务,就是这种很难去采集数据的任务,能不能用一些其他的算法上的突破去解决?

泓君:所以现在大家主流的方案是跟着视频学。

齐浩之:对,大家现在有不同的探索路径,视频是其中一条很多人在研究的路径。还有就是用模拟器作为路径。还有一种就有点像最近出的Sunday和Generalist,就是用一些特定的设备去采这样的数据,然后把它转化成机器人可以用的数据。

图片来源:Sunday Robotics

泓君:这个其实是从数据不同的收集方式来训练模型的角度去考虑的。我们说遥操它的数据量小,但是它的数据质量非常高,视频的数据可能缺乏了很多比如说力的这些信息,但是它的优点是多,哪一种效果是好的?就是现在这个事情业内有共识吗?

齐浩之:如果对于一个公司来说,他们还是用遥操作的比较多,因为他们需要追求绝对的效果。用视频数据很多人在研究,但是我觉得它是一种研究的阶段,包括特斯拉最近也发布了他们用人类视频学到的一些操作的视频,但是我觉得从绝对的能力来说还是不如遥操作的。之所以在这种情况下还要研究视频,是因为大家相信可能在未来的几个月或者一年或者更久,当视频的量积累到了一定程度之后,它的能力可以超过遥操作。但是应该不是此时此刻。

泓君:可能它追求的东西是不太一样的,精确性就是还是需要遥操的数据,泛化性可能视频也很重要,我不知道我的总结对不对。

齐浩之:对,我觉得可以这么理解,不同的数据它有不同的特征,有的数据就是能让你得到一个比较快的能力上的提升,但是它比较难采集,然后有一些数据是很容易采集,但是大家如何最好地利用它也没有一个定论。

我们业界研究的时候会有一个金字塔这样的模型,比如说遥操作,它就在金字塔尖,它的量比较少,但是很有用,视频的数据可能就在金字塔的底座,就是它非常的多,但是它并不是最能够提升机器人效果的这一个数据。

中间部分有各种各样,比如说有机器,比如说有仿真。

泓君:对,我记得之前我有在一个活动上跟很多像DeepMind、OpenAI的这些科学家也讨论过,问大家什么样是他们喜欢的方式。那天正好其实是Genie3这个世界模型刚出来,我发现大家分成两派截然相反的看法,一派是觉得Genie3对整个的机器人行业帮助不大,不是一个很重要的事情。但另一派就会觉得这个事情很重要,它可以帮助训练机器人。

齐浩之:我觉得从做研究的角度来看,我肯定是觉得这种新的基础模型肯定是有帮助的,只是我们需要找到方式最好地利用它。说它完全没用,肯定有失偏颇,但是我觉得说它我们只需要去训练一个很大的视频生成模型,它就能解决机器人,其实也是不现实的,因为很简单的道理就是现在的视频生成还没有完全解决它的物理的真实性。

虽然我们每年都看到它在物理层面上有越来越多的进步。但是我想我之前比较爱举的一个例子是说,假设我们能够靠学习视频模型把这个预测物理世界会发生什么解决,那这也就意味着我们可以训练这个语言模型,让它能够没有Hallucination(幻觉)。因为它相当于学到了一些真实数据的物理规则,而并不是说去简单地过拟合这个数据。

所以我觉得语言模型我们现在仍然没有解决Hallucination,那我觉得距离视频模型学到真正的物理世界的规律还是任重而道远。所以我们不能完全依赖于视频模型去训练我们的机器人,但是它可以提供一些很好的初始化也好,或者是一些其他方面的信号,就都是可以有帮助的。

泓君:还挺有意思的。你们觉得实现手部的灵巧动作,我们就说开可乐,回到开始的问题,有多难?它到了一个GPT3时刻吗?

陶一伟:说不定我觉得还的确是,如果机器人能够真正做到开可乐,是很好的一个benchmark(基准测试),达到了GPT时刻,我认为因为它的确是灵巧性的综合能力的考量。

齐浩之:对,我可能想稍微说远一点,举一个例子,比如说我们看20年前其实就有一些能跑步的机器人,就是本田,就是Honda的ASIMO,它已经能在舞台上很好地跑步、上下楼梯。就有很多质疑的声音说,为什么我们过了20多年,这个人形机器人也就能达到20多年前的水平?这其实涉及到一个问题,就是有多简单能够达到这样的水平。现有的算法是可以很容易,当它达到了跑步,然后你就稍微改一些东西,它可以很容易地达到跳舞,这个跟20年前让一个机器人跑步可能需要很多高精尖的团队一起负责迭代几个月或者几年是完全不一样的。

所以我觉得如果我们未来有一个算法,这个算法框架本身确定了以后,它可以用很短的时间让机器人开可乐,它还可以让这个机器人做开门、拧螺丝这样各种各样的任务,那我觉得确实就是GPT时刻了。

泓君:我们离这样的一个时刻有多远?

齐浩之:这个预测总感觉会被打脸,我觉得可能还有3-5年。

泓君:那这个比我想象中快太多了。

陶一伟:我觉得从硬件的角度、产品的角度,应该是今年内就会产品能够满足这样的能力。

泓君:你是说在任何场景下开一罐可乐,机器人也可以旋转它、随便放,就是自主操作,不是遥控。

陶一伟:可以这么说。我认为硬件是非常快能够达到这个。的确,硬件是相当于给整个机器人行业提供一个基石,更多它的上限的天花板,要靠软件和背后的模型能力的提升来释放出整个系统的能力的。

齐浩之:据我观察,最近这两年灵巧手实现了一个井喷式的飞跃,感觉有一个非常光明的未来。

第一方面就是市场上来说,人形机器人火起来之后,大家首先更容易有一些硬件,更容易有一些能够做复杂硬件的厂商,然后他们去做灵巧手以及人形机器人。

其二就是有很多比较简单的本体,像是轮式或者说平行夹爪,他们在科研问题本身做得也比较开始大同小异了,就是没有一个新的爆点。所以大家正在探索在更复杂系统上如何迭代算法,也就是灵巧手和人形机器人。

我觉得这两点共同促进了整个研究行业的发展。

泓君:好的,非常期待。今天聊得非常精彩,谢谢两位。

本文来自微信公众号“硅谷101”,作者:硅谷101,36氪经授权发布。