首页文章详情

AI觉醒前夜,找到更懂物理世界的大脑

时氪分享2026-03-23 17:48
AI是未来基础设施,具身智能与数据中心是关键。

AI是塑造当今世界的最强大力量之一,在大众的认知里,AI是一款智能应用或单一模型,但其实它如同电力和互联网一样,是未来不可或缺的基础设施。AI的未来是我们每一个人需要思考的问题,要理解AI的未来,审视计算领域发生的根本性变革,最好的方法是回归第一性原理,即从最初原理出发进行思考。

作为一名长期从事国内外前沿科技的投资人,我清醒地认识到现在已经处于AI觉醒前夜。我们正在真正见证的不单单是算法的进化,更是一场“AI如何落地现实”时代革命。

那么,决定AI从实验室走向万亿实体产业的根本因素是什么?

回答是:具身智能。本文我也将从黄仁勋的五层架构中的“应用层、模型层、基础设施层”这三层来切入,回到AI的本质,回到产品的本身,来分析讨论算法的进化,AI智能成为如何实现走进千家万户媒介。

具身智能的“小脑”已经实现领先

“应用层”是经济价值真正产生的地方,例如:具身智能、自动驾驶汽车、工业机器人等等。

2026正式进入了具身智能的“上市大年”,在通用智能算法还没成熟之前,打造一个好身体是具身智能的基础,具身智能有两个明确的发展方向,一个是大脑任务拆解和操作能力,另外一个是运动能力即小脑层面。春晚展示了我们国家数一数二的人形机器人产品的运动能力,跑步、跳跃、保持平衡、适应复杂地形,G1机器人的运动能力毋庸置疑已经达到国际顶尖水平,机身、机械臂、执行器高端精密制造得到了全球的认可。

从投资角度看,具身智能板块在运动能力上尚有较大想象空间的是灵巧手。灵巧手也被称为具身智能的“入口”,核心难点在于——引导这只手去实现想要的功能。比如马克杯与玻璃杯,生鸡蛋与熟鸡蛋施加的压力不相同,相同型号的手采来的数据可能不一样,一旦涉及精细和定向操作,就非常依赖于硬件的稳定性和一致性。

我们目前建议关注基于视觉的触觉传感器,与视觉同源,适合融入模型端,它有更高的分辨率,为融合感知提供了新路径,这是我们投资人就灵巧手比较看好的方向,整个行业从硬件到软件可以突破的空间非常之大。

具身智能的“小脑”已实现全球领跑,紧跟上来的就是“大脑”的能力,即AI大模型与具身智能的协同突破,未来3—5年较明确的红利方向。

大脑理解世界——从LLM到VLA、世界模型的范式跃迁

机器人能够跳舞、功夫都是运动控制和本体硬件,让机器人真正自己动手干活,依靠的还是“大脑”—AI模型。

AI模型发展的分水岭清晰可见,可以说Open AI的大语言模型路线只走了一半。AI模型终点绝不是止步于让AI在屏幕里陪用户对话。大语言模型的文本能力值得肯定,但也暴露了其脱离物理世界的根本局限。语言模型只需学文本内的统计关联,无需理解物理世界,语言大模型红利已经吃得差不多,也催生了当下的主流VLA模型。让AI长出手、长出脚,与机器人物理协同接管这个世界。

VLA—Vision-Language-Action ,VLA模型打通了“看见什么”“理解什么”“执行什么”之间的壁垒,而在实践的过程中,VLA大模型“不够用”这个问题也很快暴露,VLA本质依靠的仍是大规模情景的训练数据训练出来的,是它并没有人类的智慧,缺乏泛化能力、真实交互数据不够,它是个天才执行者,但也只是“执行者”。

从投资的角度,依赖数据与算力堆砌的模型已触及天花板。短期语言大模型仍是商业主角,变现能力强,需求明确;但空间智能世界模型已成为新的投资焦点,世界模型的潜在价值远非LLM与VLA所能比拟,这对于全球的投资人而言都是万亿级实体产业空间。

世界模型的核心是一种因果思想,先让模型自己内部推演,如果做了什么动作,会产生什么样的结果,赋予模型思考,这是与VLA模型最大的区别,而非VLA的看见情景触发指令。

李飞飞今年让普通人直观地明白什么是世界模型。工作人员仅用手机摄像头扫描了一间办公室,便在电脑上生成了一个一模一样高保真的3D模型,一个戴上VR眼镜可以走进去的真实数字世界。3D世界生成模型Mable展示了给AI一张窗户的照片,它可以脑补出窗外的“春暖花开”,这些都属于人类的认知能力。Real Time Frame Model实时帧模型,在用户操作的同时实时生成画面,每一帧都随着动作几乎零延迟,这意味着大多数人都可以在AI生成的无限世界里玩游戏,走到哪儿,AI生成到哪儿,这是目前显存要求最低的实时交互世界模型之一。具身智能的落地规模化需要一个模拟世界来练习,那World labs生成的1亿个符合物理规律的3D世界就是一所顶级学校。World labs的出现,标志着AI开始尝试理解物理,这是通往通用具身智能、能干体力活的机器人必经的道路。

World Labs仅仅成立2年已经实现了估值50亿美金,是全球空间智能与事件模型赛道的标杆企业。同时全球互联网科技领域的龙头Google也在加速布局AI时代,Google的策略是做通用的AI大脑平台,实现AI大脑泛化落地。简单来说就是做一个机器人的安卓平台,塞进机器人里。平台拥有世界模型,机器人就有了大脑里的模拟器,可以在数字孪生世界里走到床边叠被子、开冰箱拿杯子倒水先试错一万次。在虚拟仿真里用海量的数据快速训练AI/具身智能,协同SIM to real,从虚拟向现实迁移,把学到的策略无缝搬到真实世界,这将解决具身智能行业那个著名的莫拉维克悖论——让AI做成人级推理很容易,让AI像一岁孩子奔跑很难。

新的问题出现了,端到端、VLA和世界模型是否矛盾与对立?这个问题已经有了答案,将三者进行融合。

具身智能实现规模化落地,端到端已经成为行业共识,它的核心是模仿学习,模仿学习会产生两个问题:数据稀缺,无法覆盖低频场景;模仿难度太高,不具备因果推理能力。

解决数据问题,可以使用世界模型,在端到端主干网络下,用世界模拟器生成虚拟的低频数据,然后再用强化学习做后训练;或者构建一个虚拟世界,让模型在这个世界里训练解决所有问题,最后在终端实现视频输入、控制信号输出。本质上都是世界模型,但要产生和真实世界一样的虚拟数据并不容易,时间和成本都是重大阻碍。3D Gaussian Splitting 是当下的绝佳选择。

3D GS将真实场景建造成可训练、可渲染、可微调的3D场景,再基于真实数据作调整,比如世界模型可以在人打开冰箱的瞬间让冰箱里的苹果突然滚落或者杯子掉下来,生成这些是在现实世界里的小概率事件,这样就解决了低频场景数据少、生成难以及不准确的问题。

AI要走到AGI关键在于数据处理,输入数据的质量和数量偏差会导致模型出现“幻觉”,输出会有偏差。对数据处理先行整理清洗,再放入模型训练,喂给模型的东西才有价值。在数据整理这块,相信未来还会慢慢跑出几个主流角色。

然而这只解决了数据稀缺问题,并没有解决推理能力的问题。又回到了VLA模型推理架构的核心——通过将问题拆解再分而治之的方式,不断叠加token,层层传导,让模型在推导的过程中逐步形成理解能力。而从3D GS到VLA推理过程都在集成的原生网络中,在云端实现,终端仍采用端到端模式,以解决架构庞大的问题。端到端模仿学习最核心的低频数据和推理能力问题就被巧妙化解了,这也是自动驾驶,具身智能行业公认的最优解之一。通用且拥有预判能力才是具身智能真正的护城河,才有可能实现具身智能走进千家万户。

全球资本巨头已经进入AI行业,2025年全球AI新创吸金占创投总额的48%,疯狂涌向具备核心技术壁垒的世界模型,世界模型是全球AI投资的“首选赛道”。等到具身智能技术突破的时刻,全世界50%以上的资源也都将涌入进来,AI将是全球经济最大的驱动因素。作为前沿科技领域的投资人,擅于看到未来5-10年,甚至更长时间的硬科技领域发展趋势。

投资世界模型,本质是投资AI对物理世界的“直觉”,直觉背后,作为投资人更需要做的就是前瞻每一个与国同行的机会,一路调研跟踪,夯实对目标行业的认知,抓住每一个细节。真正意义上认识到世界模型的重要地位,是理解物理世界、实现通用机器人能力的核心,是迈向AGI的关键方向。市场的突发风险不会阻碍AI科技的进步和突破,不会改变国家繁荣资本市场支持新质生产力发展。

AI世界的算力底座——数据中心

具身智能“ChatGPT时刻” 的两大瓶颈,最大的痛点就是上文阐述的世界模型,第二个就是数据,训练具身智能需要海量的训练数据,真机采集效率低,而打造世界模型装下整个世界,则要用能容纳世界的机房。

这个机房就是:AI 5-Layer Cake的第三层“基础设施层”,包括了:土地、电力输送、网络连接等,将无数个处理器整合为一台机器的系统—AI工厂,即数据中心。

世界模型要对物理世界实时、高精度地建模、预测推演,这对于算力、存储、带宽都提出了极高的要求,数据中心是其运行的底座,世界模型必须要用到更大更强的数据中心有以下几个原因。

第一传统语言大模型以文字为主,互联网现成的语料库量大且方便标注,世界模型则需要超大的存储集群和高速的读写架构,1秒高清视频≈数万字文本;第二训练和推理都需要“巨型算力”,世界模型需要万卡级GPU/AI芯片集群,才能实现建模物理规则、预测未来多步状态、高维空间建模;第三实时性与并行性要求极高,需要超高带宽、低时延网络和分布式调度系统,典型场景便是自动驾驶、具身智能;第四,模型本身在持续暴涨,世界模型是大语言模型、视觉大模型、时序预测模型、物理引擎和世界记忆的集合,单卡/小集群根本跑不起来。

基于以上四点足以论证只有超大规模的数据中心能提供世界模型所需。

根据最新行业数据,截至2025年年底,国内向公众提供服务的互联网数据中心机架数量达到93.8万架,2026年这个数字有望突破100万。一个万亿级别的市场正在形成,新的增长引擎也一定是AI算力。

世界模型要对物理世界高精度地建模、预测推演,这对于算力、存储、带宽都提出了极高的要求,数据中心是其运行的底座,世界模型必须要用到更大更强的数据中心。世界模型不同于大语言模型,轻资产、变迁快,它的商业化的节奏相对会缓慢稳健,走的重工业路线。“算电协同”今年也是首次被明确列为新基建工程,战略高度实现了从技术探索到国家顶层设计的跃升。

投资人在调研数据中心标的时需要重点关注每家公司的“AI工厂效率”来评估核心竞争力,挖掘正在触发戴维斯双击的优质企业,严谨严格考核该企业的安全垫护城河,基本面、产业逻辑,发现技术突破、研究上下游厂家反馈、发掘业绩拐点做安全底座,站在时代的角度布局,判断企业想象空间,只有做到产业研究和企业逻辑全方位了解才能对是否投资做出抉择。

此外,面对AI模型、数据中心的周期长、部署复杂、验证成本高这些特性,要求我们投资者必须具备韧性。一旦踏上AI革命的这条道路,那就不可能一帆风顺,必须不断打碎自己再重新拼凑,感谢每一个挫折,韧性锻造品格,品格成就伟大。

 结语:抓住机遇,等待全栈AI生态的黎明

Open Claw已经打开了智能体计算时代,企业已经走向智能体,具身智能正在规模化落地,自动驾驶、工业机器人、人形机器人共同构成Physical AI的下一个重大机遇。时代催促着人类将目光聚焦Physical AI、世界模型、具身智能、算力、电力、芯片、生物制药、创新药这些确定性高的前沿科技领域。

互联网革命、移动云革命各自孕育出一批划时代的企业,AI变革时代的开发者正在不断创造新场景并取得突破,一批极具影响力的公司也正在构建一个互利共赢的生态链,用生态的力量加速构建AI智能时代。

世界模型成熟,具身智能一夜之间觉醒,AI生态彻底大爆发,这会是跨时代级的意义。到那时全球GDP高速增长,AI让人类彻底解放出来,人们可以做自己想做的事情,劳动力成本趋近于零,解决人类无法解决的复杂情况,生产力无上限,实现真正意义上的全民高收入,全栈AI生态繁荣。

本文来自投稿,作者:周鑫