刚刚,黄仁勋宣布 Rubin 全面投产,4万名工程师参与构建,史上最强CPU同步亮相
刚刚,在中国台北英伟达 GTC 大会上,英伟达 CEO 黄仁勋再次将话题聚焦于 AI 产业的发展方向。
与两年前重点讨论生成式 AI 浪潮不同,这一次黄仁勋给出了一个新的判断:
“生成式 AI 已经到来,实用 AI 已经到来。”
实用 AI 时代已经到来
在他看来,过去几年 AI 行业最大的变化,不是模型参数规模继续增长,而是 AI 已经开始成为真正的生产工具,并直接影响经济活动。
为了说明这一变化,黄仁勋首先展示了一组来自代码托管平台 GitHub 的数据。他指出,软件开发是生成式 AI 最早落地的领域之一,也是全球最庞大的知识工作者群体之一。目前全球约有 3000 万至 400 万名专业软件工程师依靠编程工作,此外还有数亿学生和业余开发者参与其中。
在他的演讲中,GitHub 代码提交量被作为衡量 AI 生产力变化的重要指标:
- 2023 年,代码提交量约为 3 亿次;
- 2024 年增长至 4 亿次;
- 2025 年达到 5 亿次;
- 而 2026 年前几个月的数据已经接近此前水平的数倍增长。
黄仁勋认为,这些数字反映出 AI 辅助编程工具正在显著提升软件开发效率。
“全世界的软件工程师创造着大约 3 万亿美元的薪酬价值。”他说,“而这些软件又进一步支撑着全球接近 100 万亿美元规模的经济活动。”
按照他的推算,如果 AI 能够将软件开发者的生产效率提升数倍,那么由此释放出的经济价值也将远远超出软件行业本身。
近年来,随着代码生成工具快速发展,“程序员是否会被 AI 取代”一直是行业争论的焦点。对此,黄仁勋在演讲中给出了明确回应。
他认为,AI 的发展并不会减少软件工程师数量,反而会刺激企业招聘更多开发者。逻辑很简单:如果一名工程师在 AI 辅助下能够创造更高的产出,那么企业更倾向于扩大研发投入,而不是削减研发团队规模。
“有人说 AI 会减少就业,那完全是胡说八道。”黄仁勋表示。
在他看来,真正决定就业规模的不是单位劳动力成本,而是单位劳动力创造价值的能力。当软件工程师能够借助 AI 完成更多工作时,市场对软件和数字化能力的需求也会进一步扩大。
黄仁勋随后把话题转向 AI 基础设施。他指出,随着 AI 从实验室走向实际生产环境,行业关注点已经从模型能力转向 Token 产出能力。
过去,Token 只是模型运行过程中的技术指标;而现在,Token 已经成为能够直接创造收入的单位。换句话说:AI 公司生产的不是传统意义上的软件产品,而是持续生成的 Token。
谁能够以更低成本、更高效率生成更多 Token,谁就拥有更强的商业竞争力。
“因为 Token 现在已成为盈利单位——Token 现在是能够带来收入的盈利单位。正因为现在可以盈利,AI 公司想要建造更多的 Token,生成更多的 Token,建设更多的 AI 工厂,这就是为什么中国台湾的算力需求猛增的原因。也正因如此,你们所有人都如此忙碌,你们的业务都做得这么好。事实上,看看你们的一些股价就知道了。”黄仁勋说。
这也是为什么全球范围内的数据中心建设持续升温,以及中国台湾地区 AI 算力需求快速增长的重要原因。
在他的描述中,AI 工厂(AI Factory)正逐渐取代传统数据中心,成为新一轮计算基础设施建设的核心。
从应用程序时代进入智能体时代
不过,在黄仁勋看来,更大的变化并不只是模型性能提升,而是计算范式本身正在发生改变。
过去几十年里,计算机遵循的是:应用程序 → 代码 → 操作系统,用户通过点击界面、输入命令完成任务。
而在 AI 时代,新的架构正在形成:智能体(Agent) → 大语言模型 → 工具系统。
黄仁勋展示了一张典型 Agent 系统架构图。
在这一架构中,大语言模型负责理解问题、推理和规划;外围框架则负责管理上下文、调用工具、协调任务执行,并管理长期和短期记忆。为了完成任务,智能体可以调用:浏览器、数据库、表格工具、数据分析引擎、CAD 设计软件以及各类企业系统。
整个过程更像是一个数字员工,而非传统软件。“过去我们启动应用程序、点击按钮、输入内容。”黄仁勋说,“未来我们只需要向 AI 解释自己的意图。”然后由 AI 自动编写代码、调用工具并完成任务。
智能体的兴起也引发了另一个争议:如果 AI 能够完成工作,软件公司是否会被淘汰?
黄仁勋的答案恰恰相反。
他认为,Agent 时代将催生数量远超今天的软件系统。原因在于,数字智能体的数量不再受人口规模限制。未来每一个企业流程、每一个业务环节、甚至每一个个人任务,都可能拥有专属智能体。而这些智能体需要大量调用外部工具和服务才能完成工作。
因此,软件不会消失,而是需要以“AI 可调用”的形式重新存在。
“这是软件行业最好的时代之一。”黄仁勋表示。
在这一背景下,NVIDIA 长期积累的 CUDA 生态也将迎来新的机会。
过去,CUDA 库主要面向开发者;如今这些能力可以直接被智能体调用,成为 Agent 执行任务时的工具集。从某种意义上说,黄仁勋试图传递的信息十分明确:生成式 AI 时代讨论的是模型会什么,而实用 AI 时代讨论的是模型能完成什么工作。
当 AI 开始创造收入、推动 GDP 增长,并能够通过智能体调用工具执行复杂任务时,它就不再只是一个聊天机器人,而正在成为新的计算平台。
“NVIDIA 首先是一家软件公司”
在谈完 Agent 带来的计算范式变革后,黄仁勋再次强调了一个他近年来反复提及的观点:
NVIDIA 本质上是一家软件公司。
随后,黄仁勋阐释了 AI 智能体的核心架构与运行逻辑。
他表示,智能体是终极的解耦与分布式计算模型,需要调动海量不同算力单元协同运行。完整的 AI 智能体由模型、框架、工具、技能及运行时五大核心部分构成,各组件分散运行在数据中心不同节点。他将其形象类比为工作个体:模型是智能体的“大脑”,负责思考决策;框架是“身体”,承载整体运行;运行时则如同专属工作室,支撑各类工具落地运作,整套体系以超大规模模式完成算力调度与任务执行。
据其介绍,智能体的每一项工作流程,均拆分至计算机不同模块分步完成。其中,大型语言模型承担思考、上下文处理、环境感知、逻辑推理、方案规划与行动执行等核心智能任务,该过程会批量激活 Grace Blackwell NVLink 72 算力集群。而在智能体调用工具的环节,则由 CPU 承接运算工作,可适配 C 编译器、Python、JavaScript 及各类加速计算工具。
黄仁勋认为,当前 AI 智能体的工具应用能力仍处于初级阶段,未来将实现专业化、熟练化升级。为此,英伟达 CUDA X 库迎来重要升级,全系库产品将配套专属 AI 技能手册,可供 AI 智能体自主学习、掌握工具使用方法,大幅提升智能体解决各类核心行业难题的能力,未来智能体调用 CUDA X 工具的算力价值与应用潜力将得到极大释放。
在整套智能体算力体系中,各类硬件与功能模块分工明确。工具运算任务依托 CPU、GPU、大模型协同完成;安全防护框架部署在 CPU 与英伟达 BlueField DPU 安全处理器之上,全方位保障运行安全;整体任务的调度编排工作则统一由 CPU 主导落地,形成层级清晰、分工明确的异构计算体系。
演讲中,黄仁勋重点提及 AI 计算的核心痛点——内存系统。他表示,智能体的工作记忆依托 KV 缓存实现,涵盖记忆留存、数据压缩、信息检索、结构化与非结构化数据匹配,以及各类数据的逻辑关系梳理、本体关联分析等复杂操作,整体处理流程难度极高、复杂度空前。他预判,AI 专属内存系统的迭代升级,将推动全球存储体系迎来颠覆性革命。
对比传统软件运行模式,黄仁勋强调,AI 智能体代表的全新计算范式具备本质差异。过往软件多为单一二进制文件适配单一操作系统的集中式运行模式,而智能体采用解耦、分布式、异构的全新计算逻辑,这也是英伟达倾力研发下一代 Vera Rubin 平台的核心动因。
针对全新的 Vera Rubin 平台,黄仁勋着重澄清,其绝非单一芯片或普通 GPU 产品,而是一套端到端的完整革命性系统。该平台以 GPU 为核心起点,整合 GPU、Vera、NVLink 72 核心硬件,依托多颗 CPU 完成全局任务编排,搭配迭代升级的革命性存储系统,构建全链路算力底座。同时,平台集成 CX-9 硬件、DOCA 软件栈及内置安全处理器,可实现数据静态、传输、使用全流程加密,依托机密计算架构全方位保护高价值 AI 模型数据安全。
黄仁勋直言,Vera Rubin 是英伟达发展史上野心最大的研发项目,公司全体四万名工程师全员参与项目攻坚,同时汇聚行业合作伙伴力量共同落地,是一套经过全方位打磨、从零重构的极致复杂系统。他坦言,英伟达早已完成从单一 GPU 厂商向全栈系统厂商的战略转型,当前推出的 Vera Rubin 系统,是行业迄今为止设计最复杂、体系最完整的 AI 算力系统。
谈及产业终极需求与企业转型方向,黄仁勋表示,客户与合作伙伴的核心诉求并非单纯获取计算机硬件,而是搭建成熟高效的 AI 工厂。基于这一行业趋势,英伟达正在开启新一轮战略转型。目前英伟达核心技术已全面落地基础设施级应用场景,同时联动发电厂、冷却系统、电网供应商等各类工业生态伙伴,构建完整 AI 产业生态。
未来英伟达将持续打造全栈式算力系统,为全球客户搭建规模化、高性能的 AI 基础设施提供核心支撑。
值得注意的是,在此次演讲中,黄仁勋详细地阐释了英伟达全新的产业定位,正式提出“AI 工厂生态新范式”,明确英伟达的发展重心已从传统计算生态,全面升级为服务千亿级 AI 基建的工厂化生态体系。
黄仁勋区分了英伟达新旧两大生态形态。过往英伟达以计算生态为核心,将自身计算层、软件及计算栈深度集成至各类企业平台与第三方库中,广泛赋能各行各业的数字化算力需求。
而当下全新打造的 AI 工厂生态,形成了清晰的上下游产业闭环:行业合作伙伴是英伟达的上游基础支撑,英伟达则依托自身全栈技术能力,向下游输出完整 AI 工厂生态体系,核心目标不再是单纯输出 GPU 芯片或算力系统,而是助力客户搭建超复杂、超大规模的 AI 工厂基础设施。
他直言,AI 工厂已进入超高投入、超高门槛的规模化落地阶段。当前单座 1 吉瓦(GW)级别的 AI 工厂,建设成本持续攀升,从最初的 200 亿至 400 亿美元,现已上涨至 500 亿至 600 亿美元,未来很快将突破 800 亿甚至 1000 亿美元。千亿级别的单项目投入,意味着 AI 工厂对落地稳定性、运行可靠性有着极致要求,必须实现一次建成、即刻正常投产,其资本投入成本与系统构建复杂度均达到行业前所未有的水平。
针对超高复杂度的 AI 工厂建设难题,英伟达依托 Omniverse 数字仿真能力实现全流程革新。不同于传统计算机研发模式——先设计芯片、再在设备内模拟系统运行,如今英伟达所有 AI 工厂基础设施,均可在 Omniverse 数字平台中提前完成搭建、仿真、测试与优化。通过数字模拟器与数字架构赋能,行业可在破土动工、投入巨额资金前,完成超大规模 AI 系统的全流程推演,彻底规避落地风险,实现行业多年以来的技术落地愿景。
黄仁勋重点介绍了支撑 AI 工厂生态落地的核心体系 DSX,形成与英伟达现有产品矩阵对应的完整基础设施布局。其中,RTX 系列对应 GPU 硬件、DGX 对应一体化算力系统,而全新的 DSX 平台则精准对标 AI 基础设施全场景。依托覆盖系统、软件、全技术栈的核心能力,英伟达能够赋能中小型企业快速搭建世界级 AI 云服务能力。
他以行业案例佐证 DSX 生态的赋能价值,不少曾经的中小型科技企业,在接入英伟达 AI 工厂生态、依托 DSX 体系升级后,实现跨越式增长,典型代表 CoreWeave 估值已攀升至 500 亿至 700 亿美元区间,且依旧保持高速增长态势,充分印证英伟达 AI 工厂新范式的产业赋能潜力。
最近英伟达与 Nebius 合作,它们的增长也同样惊人。这些云中的每一家都拥有令人难以置信的客户:Cursor(软件编码公司)、Black Mountain Labs(图像生成)、World Labs(世界基础模型)、Revolut(领先的金融服务 AI 公司)以及 Shopify。
这里还有另一个例子:Nscale,他们的客户是英国电信(British Telecom)和谷歌(Google)。谷歌正在使用其中一个人工智能云——Thinking Machines,这是一家前沿实验室公司。
这里是韩国的 Naver Cloud,客户包括韩国银行(Bank of Korea)、Hyundai 等众多优秀公司。
在中国台湾,还有 GMI。
然而,以上所有的公司,它们都需要计算栈。黄仁勋表示,下面的这整个技术栈,正是让 NVIDIA 闻名的原因。
他介绍道:“所有的硬件、软件和库,以及我们连接全球第三方开发者生态系统的能力,使得任何人都能建立起一个 AI 云。然而,现在的 AI 云极其复杂。这个是软件版本,这个是计算机科学版本。而资金版本、资产版本就是我之前展示的——它是一个巨大的工厂。仅拥有这种能力是不够的,这正是 NVIDIA 成为一家 AI 基础设施公司的原因。”
Vera Rubin 架构全面投产
在谈及下一代 AI 基础设施建设时,英伟达 CEO 黄仁勋宣布,基于新一代 GPU 平台的 Vera Rubin 架构已经进入全面量产阶段。
黄仁勋表示,当前全球对 AI 算力的需求正以前所未有的速度增长。从数据中心运营商到云服务提供商,再到各类企业客户,整个产业链都在全力提升产能,以满足市场需求。
“实用 AI 已经到来,可盈利的 AI 已经到来。”黄仁勋说。他认为,越来越多企业已经认识到,人工智能不再只是技术展示,而是能够创造实际商业价值的生产工具。在这一背景下,算力正成为限制 AI 发展的关键瓶颈。
为了满足全球激增的需求,英伟达正在推动新一代 AI 基础设施的大规模部署,并协同合作伙伴在世界各地建设 AI 工厂。黄仁勋表示,这也是当前整个产业生态最重要的任务之一。
在供应链建设方面,黄仁勋透露,Vera Rubin 平台所对应的供应链规模已经达到上一代 Grace Blackwell 平台的两倍。与此同时,生产效率也获得显著提升。过去组装一套 Grace Blackwell 机架需要约两个小时,而如今这一过程已经缩短至五分钟。
“这不仅意味着更高的产能,也意味着更快的交付速度。”黄仁勋表示,面对持续增长的市场需求,供应链各环节都在不断扩大生产规模、提高制造效率。
他介绍,为支持 Grace Blackwell 平台量产,产业链此前已经投入数百万平方英尺的生产设施。而目前,这些合作伙伴正在进一步扩充产能,为 Vera Rubin 的大规模部署做好准备。
演讲最后,黄仁勋特别向供应链合作伙伴表达感谢。他表示,Vera Rubin 能够顺利进入全面量产阶段,离不开整个产业生态系统的共同努力。
“我要感谢你们所有人。”黄仁勋说,“Vera Rubin 现已全面投产。”
在介绍 Vera Rubin 架构时,黄仁勋将其定义为一套面向智能体(Agent)时代打造的计算系统,而不仅仅是一台运行 AI 模型的超级计算机。
他表示,随着 AI 从模型训练、推理逐步迈向智能体阶段,计算需求正在发生根本变化。智能体需要频繁调用工具、访问数据库、与外部系统实时交互,因此对延迟、带宽和系统协同能力提出了更高要求。为此,Vera Rubin 采用了全新的系统设计,将 CPU、GPU、网络、存储和安全模块深度整合,形成面向智能体工作负载的完整基础设施平台。
黄仁勋特别展示了 Vera Rubin NVLink 72 系统。他介绍,相比上一代产品主要面向预训练和推理场景,Vera Rubin 进一步针对智能体推理进行了优化。通过 NVLink 72 互连架构以及全新的系统设计,设备内部不再需要大量线缆和复杂连接结构,不仅提升了可靠性,也显著降低了部署和维护成本。
Vera CPU 重磅登场
除了 GPU 系统外,英伟达还同步推出了专为 AI 时代设计的 Vera CPU。黄仁勋认为,传统 CPU 主要服务于人类用户,而未来将出现数十亿个智能体,它们对响应速度几乎没有容忍空间。因此,新的 CPU 架构必须在单线程性能、带宽、数据传输效率以及能效方面进行全面优化。
按照英伟达的规划,Vera CPU 将承担智能体编排、模型调度、工具调用、数据库访问以及存储管理等任务,与 GPU 共同构成未来 AI 工厂的核心基础设施。黄仁勋表示,随着智能体成为下一阶段 AI 发展的重要方向,计算系统也正在从“为模型设计”转向“为智能体设计”。
在谈到新一代 Vera CPU 时,黄仁勋表示,英伟达已经顺利完成了从传统 x86 CPU 架构向 Grace 架构的过渡,这为 Vera 的推广奠定了基础。
他指出,目前全球主要数据中心、云服务商以及与英伟达合作的 AI 企业,都已经完成了对 Grace 平台的认证,相关软件栈、安全体系和开发环境也已完成适配。在此基础上,Vera 的部署门槛将大幅降低。
黄仁勋认为,Vera 有望成为针对智能体(Agent)工作负载优化程度最高的 CPU 之一。原因在于,它从设计之初便与 Vera Rubin 系统协同开发,面向智能体推理、工具调用、数据库访问和实时交互等新型 AI 任务进行了针对性优化。
为了展示性能提升,黄仁勋公布了多个实际工作负载测试结果。其中,在企业广泛使用的 SQL 数据库处理场景中,Vera CPU 的性能达到现有平台的约 3 倍。
在实时流处理场景下,例如金融交易系统、工业遥测监控等需要持续处理海量数据流的应用中,性能提升最高可达 6 倍。
黄仁勋表示,CPU 领域通常以个位数百分比的性能提升作为重要突破,而在真实业务负载中实现数倍级增长并不常见。这些提升主要来自更高的单线程性能、更大的内存和 I/O 带宽,以及更快的核心间数据传输能力。
在他看来,智能体正在成为继云计算、移动互联网之后的新一代计算负载,而现有 CPU 大多是围绕人类用户设计的。未来,随着智能体数量持续增长,对低延迟和高响应速度的需求也将进一步提升。
“过去我们为人类构建 CPU,现在我们开始为智能体构建 CPU。”黄仁勋表示。围绕 Vera 展开的新生态正在形成,包括 ODM 厂商、服务器制造商和企业客户在内的产业链伙伴已经开始布局这一市场。英伟达希望借此推动一个全新的计算平台时代——面向智能体的 CPU 市场。
开源 Nemotron 3 Ultra,全球首个 SSM 与 MoE 相结合的混合架构
在介绍企业级智能体生态时,黄仁勋宣布,英伟达正式推出新一代开源大模型 Nemotron 3 Ultra,并将其定位为企业构建专属智能体的重要基础模型。
黄仁勋表示,未来企业将雇用大量智能体协助完成研发、验证、仿真和运营等工作。以 EDA 软件厂商 Cadence Design Systems 为例,其正在利用英伟达技术打造面向芯片设计流程的专属超级智能体,通过调用仿真器、验证器和形式验证工具,加速芯片开发周期。
作为这一生态的底座,Nemotron 3 Ultra 采用了全球首个 SSM(状态空间模型)与 MoE(混合专家)相结合的混合架构。黄仁勋透露,相比现有主流开源模型,Nemotron 3 Ultra 推理速度提升 5 倍,同时总体运行成本降低 30%。
除了模型本身,英伟达还同步开放训练数据、训练脚本以及相关工具链。黄仁勋表示,Nemotron 系列基于大规模长程推理、复杂任务求解和工具调用数据集训练而成,开发者不仅可以使用模型,还能够在此基础上继续训练、微调并构建专属智能体系统。
目前,英伟达已经与 CrowdStrike、Salesforce、Palantir Technologies、SAP、ServiceNow 等企业展开合作,推动智能体在企业软件、网络安全、数据分析和业务流程管理等场景中的落地应用。
黄仁勋同时透露,Nemotron 3 Ultra 已经发布,而下一代 Nemotron 4 模型也正在研发之中。
与微软联手重新定义 PC
在演讲的后半程,黄仁勋宣布,英伟达正与 Microsoft 联手重新定义个人电脑(PC)。
黄仁勋回顾了过去 40 年的 PC 发展历程。他表示,从 Windows 3.1 到 Windows 95,微软建立起了现代 PC 产业的基础架构,通过开放硬件生态、驱动程序体系以及统一的软件接口,让 PC 从企业设备走向大众消费市场,并成为全球最普及的计算平台之一。
如今,随着 AI 时代到来,英伟达和微软希望推动新一轮 PC 架构变革。黄仁勋透露,双方已经为此合作了三年,对 PC 的底层工作方式进行了重新设计,以适应智能体(Agent)时代的计算需求。
按照他的设想,未来的 PC 不再只是运行应用程序的终端设备,而将内置能够理解用户、与用户对话并自主完成任务的 AI 智能体。例如,智能体可以帮助用户整理文件、检索资料、完成研究工作,甚至根据用户需求主动执行复杂任务。
黄仁勋认为,这种变化将带来 PC 软件架构的重构。过去由应用程序承担的大量功能,未来将逐步由智能体完成。与此同时,大语言模型将成为新一代 PC 的重要基础组件,承担语言理解、视觉识别、音视频生成以及任务执行等能力,成为连接用户与计算资源的核心入口。
他透露,自己将与 Satya Nadella 共同介绍双方过去三年的合作成果,并进一步展示面向智能体时代的新一代 PC 平台。
本文来自微信公众号“AI前线”(ID:ai-front),作者:冬梅,36氪经授权发布。