首页文章详情

没有统一名字的战争:国内各家大厂的世界模型版图

IT桔子2026-06-25 17:15
世界模型:大厂在“造世界”的赌桌上下注

世界模型这个名称,在业内至今没有一张统一的名片。有人叫它世界模型,有人叫世界基座模型,有人叫物理AI,还有人把它藏在自动驾驶大模型、VLA 或具身智能系统的架构里不单独命名。

阿里的Qwen-AgentWorld、HappyOyster、Qwen-RobotWorld 分别指向语言世界、虚拟世界和物理世界;腾讯的 HY-World 偏向 3D 可编辑世界;车企更愿意说驾驶世界模型或世界行为模型;华为、百度干脆不单独喊出世界模型四个字。

命名的混乱背后,大家其实在做同一件事:

让机器在真正行动之前,先在内部建立一个可推演、可复盘的动态环境,降低对真实数据的无限依赖,把真实世界压缩成能够无限生成、无限犯错、无限重来的数据引擎。

IT桔子最近盘点发布了国内 33 家做“世界模型”的创业公司的报告,引发业内关注。今天我们再盘一下大公司们在这个方向的布局——

当创业公司们还在为数据采集权和算力预算焦头烂额时,阿里巴巴、腾讯、华为、蔚来、小鹏、理想已经悄悄把世界模型铺成了一条新赛道。

世界模型是一种野心:让AI 超越识别世界,在脑子里先过一遍世界。

自动驾驶的厂商想用它生成雨天、雪天、异型障碍物的“考卷”;具身智能团队想用它让机器人在仿真里摔够十万次再出门;游戏和社交公司则想用它造出一个人类可以沉浸进去的平行宇宙。

大厂入局的方式各有侧重,但核心目标一致:把真实世界压缩成可以无限推演、无限复盘的数据引擎。

一、互联网巨头:从数字世界到物理世界

阿里的世界模型布局最像是“把货架上的东西一件件摆出来”。

2026年 6 月,它在十几天内接连抛出三张牌:

6 月 16 日的 Qwen-Robot 系列、6 月 17 日的 HappyOyster 1.0、6 月 24 日的 Qwen-AgentWorld。

Qwen-AgentWorld 是一款原生语言世界模型,它不生成图片,而是生成环境——MCP 工具、搜索、终端、代码工程、Web、操作系统、Android 七个环境里,模型能模拟真实交互、自主学习、用强化学习打磨自己。它提供两种规模:总参数 35B 和 397B 的 MoE 架构,激活参数分别为 3B 和 17B;训练数据来自超过 1000 万条真实环境交互轨迹;模型和评测基准 AgentWorldBench 均已开源。这等于把世界模型当成智能体的“训练场”而不是“装饰品”。

HappyOyster 1.0 则换了一副面孔,它更像是一个“可玩的电影片场”:用户给一句话或一张图,它生成一个开放式世界,并在“世界探索”和“实时导演”两种模式里让用户任意介入。探索模式支持长达 1 分钟的连续实时位移与镜头控制,导演模式可生成 3 分钟以上的 480p/720p 实时画面。阿里把它定位为交互式游戏、虚拟陪伴、互动短剧、文旅体验等行业入口。

Qwen-RobotWorld 又走向另一个方向,它是阿里具身智能三件套里的“思考大脑”,与 VLA 操作模型 Qwen-RobotManip、VLN 移动模型 Qwen-RobotNav 协同,目标是让机器人拥有一个可以预演的内心世界。

三件事情合在一起,阿里正在同时争夺语言世界、虚拟世界和物理世界的定义权。

腾讯混元走的是另一条路,它的HY-World 系列更像是在搭建“3D 游戏的自动工厂”。

2025年 7 月,腾讯在 WAIC 上开源发布混元 3D 世界模型 1.0;12 月升级到 1.5;2026 年 4 月发布并开源 HY-World 2.0。输入可以是文本、单图、多图、视频甚至白模,输出可以是 3DGS、Mesh、点云。

2.0 版本引入了 HY-Pano 2.0、WorldNav、WorldStereo 2.0、WorldMirror 2.0 等模块,把世界生成、世界重建、全景图、实时世界生成串成一个闭环。

腾讯的优势在于游戏和社交场景,HY-World 真正的用户不是训练自动驾驶,而是做游戏关卡、做虚拟拍摄、做数字孪生。

字节跳动的世界模型项目则像是一次带着短视频数据基因的“秘密行军”。 

2025年 8 月,The Information 披露字节 Seed 团队正在研发世界模型,带队的是周畅,前通义千问核心成员。这个项目最大的底牌是抖音和 TikTok 每天超过 10 亿次的视频流,以及 EX-4D 框架——能把单目视频转成 4D 多视角场景。它对标的是谷歌 Genie 3 和 Meta V-JEPA 2,目标不是做一个漂亮的视频生成器,而是构建一个能模拟物理规律的“数字孪生”。

2026 年 6 月 23 日的火山引擎 FORCE 原动力大会上,字节没有直接发布这个世界模型,但亮出了豆包 Seed 2.1 系列、Seedance 2.5 视频生成模型、Seedream 5.0 Pro 生图模型和新的音频生成模型。

而 36 氪的独家报道则把字节 2026 年的 AI 战略概括为四个命题:世界模型年底要达到全球 SOTA、Seedance 探索动态生成、Coding 巩固基础、豆包加速商业化。

这意味着,世界模型在字节内部是第一条命题,只是它选择先让 Seedance 和 Doubao 站在前台,自己继续憋大招。

华为盘古世界模型的气质则是“低调但致命”。

在2025 年 6 月的开发者大会上,华为发布了盘古大模型,基于盘古多模态大模型,核心能力是从单张图片生成高精度的数字物理空间。它能预测碰撞、训练机械臂抓取,还能生成驾驶视频和激光雷达点云,帮助华为 ADS 端到端模型实现“两天一个版本”。

华为没有喊出“世界模型”的口号,而是把它当成智能汽车和具身智能的“训练底座”。与广汽的合作是典型案例:2D 视频和 3D 点云像素级对应,数分钟复原复杂 Corner Case。

2026 年 6 月的 HDC 2026 上,华为把盘古大模型推到 7.0,并发布昇腾 910C,余承东重新挂帅盘古,但世界模型本身没有单独的新版本消息。

这种“世界模型不单独存在,而是服务于产业闭环”的思路,是华为一贯的风格。

百度在自动驾驶领域入局更早,2024年 5 月发布的 Apollo ADFM 被定位为“全球首个支持 L4 级无人驾驶的自动驾驶大模型”。

虽然百度没有把它命名为世界模型,但它本质上具备了世界模型的功能:通过端到端神经网络理解物理世界、预测交通参与者的行为。2025年 11 月,文心大模型 5.0 以原生全模态形态亮相,参数规模达到 2.4 万亿;2026 年 1 月上线正式版。

百度的世界模型能力已经藏进更大的一盘棋里。百度的策略是:不单独谈世界模型,而是让 Apollo 和文心互为表里。

小米和商汤则代表了两种“技术流”。

小米2026 年 5 月 13 日开源的 Xiaomi OneVL,把 VLA、世界模型和潜空间推理统一到一个框架里,强调视觉推理过程的可解释性,做的是自动驾驶和具身智能都能用的基础件。

商汤绝影的“开悟”更像是一个已经上岗的“老司机”,2025 年 9 月弗若斯特沙利文的报告里,它被定义为行业首个已量产、可交互的世界模型,能生成 150 秒、1080P、11 视角的驾驶视频,并沉淀下业内最大规模的生成式驾驶数据集 WorldSim-Drive 和千万级生成场景库。

2026年 6 月,由商汤联合创始人王晓刚创立的大晓机器人又宣布完成数亿美元融资,其开悟 Kairos 世界模型 3.0 在具身视频生成、任务指令追随等维度位居生成预测四大榜单榜首。

商汤系的世界模型,正在从智能汽车向机器人进一步蔓延。

二、车企:把世界模型当成驾校和考场

如果说互联网大厂的世界模型是在“造世界”,那车企的世界模型就是在“用世界”。

蔚来是中国车企里最先把世界模型当成旗帜来挥舞的。

2024年 7 月的 NIO IN 上,任少卿发布 NWM(NIO World Model),定位是中国首个智能驾驶世界模型。

它采用多元自回归生成架构,做两件事:空间上的“想象重建”和时间上的“想象推演”。

给一个真实场景,它能还原出 3D 世界;给一个三秒提示,它能生成两分钟以上的未来视频。每 0.1 秒,它推演 216 条轨迹,选出最优解。

蔚来的逻辑很清晰:端到端模型不够,真正聪明的智驾系统需要像人一样“闭眼也能想象路况”。2026 年 6 月 18 日,蔚来正式推送全新版本 NWM 2.0,覆盖超过 70 万全系用户,即便是四年前购车的老车主也能免费升级,Banyan、Cedar、Coconut+ 四大整车系统同步发版。新版在国内首次实现智驾模型直接输出方向盘、加减速踏板原始操作信号,并把训练体系从“世界模型 + 闭环强化学习”升级为“世界模型 + 监督微调 + 闭环强化学习”三层。AEB 覆盖场景是标准 AEB 的 6.7 倍,误制动概率降到十万公里一次。

神玑 NX9031 芯片甚至被描述为“天生为世界模型设计”。

理想汽车在2024 年下半年提出了“重建 + 生成”的世界模型思路,并在 CVPR 2025 发表了 DrivingSphere。

它由OccDreamer 扩散模型和 VideoDreamer ST-DiT 组成,构建了一个高保真 4D 闭环仿真环境。

传统开环仿真只能评价模型“看见了什么”,而闭环仿真能评价模型“做了什么”。理想的世界模型就像是一个可以无限生成错题的考场,让智驾系统在芯片里先把刁钻场景跑熟。

到了 2026 年 6 月的 Livis Day,理想把这套能力进一步升级为“马赫 VLA”,原生多模态 MoE 架构,感知、预测、规划统一,车端双 M100 芯片算力 2560TOPS,反应时间 0.28 秒。

按照理想公布的路线图,第三季度会向 AD Max 用户推送全新马赫 VLA,第四季度目标对齐特斯拉 FSD V14。理想不再只是一家汽车公司,它正在把自己塑造成一个具身智能系统 Livis 的提供商。

小鹏汽车的路径则呈现出“先做大,再做精”的层次感。

2025年 4 月,小鹏在香港的 AI 技术分享会上首次披露正在研发 720 亿参数的超大规模自动驾驶“世界基座模型”。

一年后,2026 年 4 月 1 日,小鹏正式发布 X-World 世界模型技术报告。

它基于视频扩散生成技术,在 WAN 2.2 的潜空间视频生成范式上改造,采用 3D 因果 VAE 和视角-时间自注意力 DiT,支持 7 路环视摄像头跨视角一致生成。

X-World 不是视频生成工具,而是小鹏第二代 VLA 的“现实世界模拟器”:仿真场景从一年前的 3 万个增加到 50 多万个,每日仿真测试里程等效 3000 万公里实车测试,并支持在线强化学习和海外数据生成。

2026 年 6 月的 CVPR 上,小鹏又首次展示了完整的世界模型技术图谱。小鹏的野心写在它的应用范围里:AI 汽车、AI 机器人、飞行汽车。它的训练数据规模目标是 2 亿段 clips,万卡集群提供 10 EFLOPS 算力,每 5 天迭代一次。

吉利汽车在2026 年 CES 上亮出了 WAM(World Action Model),并把它塞进全域 AI 2.0 体系。

WAM的分层架构很有意思:上层是多模态大模型 MLLM 负责理解,下层是 Action Expert 负责动作,中间是世界模型负责推演。

吉利的目标不是让智驾模型更好,而是让整车变成“一个大脑”——智驾、座舱、底盘、动力统一调度。2026 年 4 月,极氪 8X 上市即交付,成为国内首款量产上车的舱驾融合超级智能体,其 G-ASD 4.0 就基于 WAM。2026 年目标高速 L3 和低速 L4。

比亚迪的世界模型还在早期预研,2025年 1 月披露的信息显示,它内部参考了特斯拉路径,组建小团队快速试错,重点解决端到端智驾的 Corner Case 数据生成。

长城也提出了VLA + 世界模型的下一代智驾方向,并且从“战略”走向了“量产”:2026 年 6 月,长城在智能驾驶与出海大会上分享了 VLA 实践,保定的九州超算中心算力达到 5 EFLOPS,GPU 超过一万张,坦克 700 将成为首款搭载 Coffee Pilot 4.0 VLA 系统的车型,2026 年内量产上车。超过 200 万辆的存量车队每天产生海量数据,这是长城相对于造车新势力最厚实的家底。

三、智驾供应商:藏在车底的世界引擎

在车厂之外,还有一批供应商把世界模型做成了“隐形引擎”。

Momenta在 2026 年 4 月的北京车展上正式发布 R7 强化学习世界模型,并实现量产首发。

它是一个三层架构:世界模型预训练、世界模型仿真、强化学习。R7基于 Momenta 量产业务带来的超过 120 亿公里实车里程,从中提炼出超过 1 亿段“黄金数据”用于预训练,再让模型在仿真中经历海量长尾场景,最后用强化学习打磨。

Momenta 直接把它嵌入端到端基座模型,目标是实现 L4 级标准。商业数据也在快速膨胀:搭载 Momenta 系统的量产车辆已突破 90 万台,成功交付超过 100 款量产车型,累计定点超过 210 款,方案落地英国、挪威、新加坡、澳新等超过 10 个国家和地区。

2026 年 6 月,Momenta 通过港交所聆讯,以“物理 AI 第一股”和 65% 的第三方城市 NOA 市占率冲刺 IPO。足见其对世界模型的押注。

地平线在2026 年 5 月发布了 HorizonDrive,一个自回归世界模型,核心能力是分钟级的长时序驾驶视频生成。

它用video-VAE 在潜在空间工作,输入高清地图、3D 边界框和自车动作,再输出连续未来场景。

HorizonDrive 的亮点是“自纠错”训练:通过 SRR 和 TRD 技术,让模型在生成错误时自己修正。在 nuScenes 上,它的 FID 降低 52%、FVD 降低 37%、轨迹精度提升 21%;单张 RTX 5090 能生成 256×512 的视频,速度 5.6 FPS,或 384×768 视频 1.7 FPS。它的定位是闭环自动驾驶仿真,帮助车企在不上路的情况下验证 L3+ 系统。

毫末智行的DriveGPT 是国内最早喊出“世界模型”口号的项目之一。

2023年 4 月发布的“雪湖·海若”是一个生成式自动驾驶大模型,用下一帧预测的方式构建 4D 表征空间。它背后是 100 亿帧互联网图片、480 万段 4D Clips 和 8700 万公里辅助驾驶里程。

毫末走的路和特斯拉 World Model、Wayve GAIA-1 类似:让自动驾驶大模型从“看图片”进化到“看视频”,再进化到“预测视频”。它为长城魏牌、小魔驼无人车等场景提供能力。

元戎启行在2025 年 8 月 26 日发布 DeepRoute IO 2.0 平台,搭载自研 VLA 模型。

2026年 4 月的北京车展上,元戎又进一步发布基座模型技术与物理 AI 战略,并亮出商业化数据:搭载其城市 NOA 方案的量产车辆突破 30 万辆,过去一年搭载元戎主动安全系统的车辆累计真实道路运行里程超过 13 亿公里,累计陪伴用户驾驶时长达 4480 万小时。

元戎没有单独命名一个世界模型,但 DeepRoute IO 2.0 的仿真和训练体系里,世界模型是隐含的核心。

四、创业公司和大厂:两张地图,同一座城

在 IT 桔子发布研究的第一批中国世界模型创业公司的报告里,那是一张由技术路线和融资故事构成的地图。

而这张大厂布局表,是另一张地图。

两张地图指向同一座城:谁能让AI 真正理解物理世界,谁就拥有下一个时代的入口。

创业公司的优势是专注和速度。

它们可以押注一条激进的路线,比如原生世界模型、3D空间生成、VLA 物理引擎,不被现有业务牵绊。但它们缺数据、缺算力、缺量产渠道,更缺一个能把世界模型持续喂大的真实场景闭环。

大厂的劣势是组织惯性和多部门并行导致的命名混乱——阿里的三个世界模型项目甚至让外人分不清它们是不是同一件事。但大厂手里有数据、有算力、有用户、有车辆,还有把模型跑起来的工程体系。创业公司造的是“模型”,大厂造的是“系统”。

最危险的时刻,是当大厂把世界模型从“研究项目”变成“业务底座”的时候。华为盘古大模型服务于ADS 和机器人,腾讯 HY-World 服务于游戏和工业,理想 DrivingSphere 服务于智驾迭代,商汤开悟已经量产上车,Momenta R7 已跑在超过 90 万台车上——

这些不是发布会上的 PPT,而是正在进入产品流水线的“能力”。对于创业公司来说,世界模型的窗口期正在收窄,未来的竞争会迅速从“谁能做出世界模型”变成“谁的世界模型能被大厂用得起、用得好”。

五、世界模型不是风口,是旧战争的升级

世界模型不是一个新故事。

它是语言大模型、视频生成模型、自动驾驶端到端模型、机器人VLA 模型在物理世界交汇后的自然产物。

大厂们纷纷入场,说明这件事已经从“技术极客玩具”变成了“产业基础设施”。

阿里、腾讯、字节、华为、百度、小米、商汤在数字世界和物理世界之间搭起桥;蔚来、理想、小鹏、吉利、比亚迪、长城把“桥”修到了汽车上;Momenta、地平线、毫末、元戎则在桥底下铺铁轨。

创业公司站在桥的尽头,手里握着更精巧的图纸,却不得不面对大厂正在调动工程队的事实。

接下来的一年,世界模型赛道的核心问题不会是“谁做了”,而是“谁的世界模型真的在替人理解世界”。

本文来自微信公众号 “IT桔子”(ID:itjuzi521),作者:Judy,36氪经授权发布。