黄仁勋GTC 2026万字演讲:AI工厂时代,80%的应用将消失,OpenClaw为何是下一个Linux?
“欢迎来到GTC!”
当黄仁勋身着标志性皮衣登上舞台,全场沸腾。但这次,他没有仅仅发布一款新芯片,而是描绘了一个全新的世界——一个由AI工厂、代币经济和智能代理构成的未来。在这个未来里,传统的应用将大量消失,数据中心变成代币生产工厂,而开源项目OpenClaw正在成为这个新世界的操作系统。
让我们一同回顾这场长达近三小时的演讲,拆解黄仁勋为2026年及以后画下的技术蓝图。
一、CUDA二十年:飞轮效应加速
演讲伊始,黄仁勋回顾了NVIDIA的根基——CUDA。今年是CUDA问世20周年,这个最初不被看好的架构,如今已拥有数亿级别的安装基数。从可编程着色器到RTX,再到AI大爆炸,CUDA的飞轮效应持续加速:庞大的用户群体吸引开发者,开发者创造突破性算法,算法催生新市场,新市场又扩大用户群。
“NVIDIA的库下载量正以惊人速度增长,规模比以往任何时候都大。”黄仁勋强调,正是这种飞轮效应,让NVIDIA的GPU拥有超长寿命和广泛适用性,从数据处理到科学计算,从训练到推理,覆盖AI全生命周期。
二、推理转折点:AI开始思考
“过去两年,计算需求增加了100万倍。”黄仁勋抛出一个震撼数字。原因在于AI能力的跃迁:从ChatGPT开启生成式AI,到O1模型具备推理能力,再到Claude Code成为首个能自主工作的代理模型。每一次进步,都意味着推理阶段的计算量呈指数级增长。
“AI现在需要思考了。”黄仁勋指出,思考需要推理,推理需要生成大量token。与训练相比,推理的计算需求提升了约10万倍。这正是推理转折点——AI从“感知”走向“生成”,从“推理”走向“行动”。
这一转折带来了惊人的市场需求:2026年,NVIDIA的Blackwell和Rubin系列产品已获得5000亿美元订单,而到2027年,这个数字将至少达到1万亿美元。
三、新硬件发布:Vera Rubin与Groq整合
在硬件层面,黄仁勋发布了新一代AI超级计算平台Vera Rubin。该平台包含Vera CPU、Rubin GPU、NVLink-72互联,以及全新的存储和网络系统。与Hopper相比,Vera Rubin在同等功耗下,token吞吐量提升了35倍。
更引人注目的是,NVIDIA宣布与Groq团队深度合作,将Groq的LPU(语言处理单元)集成到Vera Rubin系统中。Groq芯片采用确定性数据流架构,海量SRAM设计,专为超低延迟推理优化。两者结合,使得在最高价值层级的推理性能再提升35倍。
“我们正在构建一台覆盖144个GPU的Kyber机架,采用铜缆连接,实现前所未有的扩展密度。”黄仁勋现场展示了Rubin Ultra计算节点,其规模之大,甚至需要舞台机械辅助升降。
四、AI工厂:从数据中心到代币工厂
黄仁勋提出一个核心概念:未来的数据中心不再是存储和处理数据的场所,而是“AI工厂”,其产品就是token。每一座AI工厂都受限于电力——1吉瓦的工厂永远无法变成2吉瓦,因此每瓦特产出的token数成为关键指标。
“这就是你们未来的收入曲线。”他展示了一张二维图表,纵轴是token吞吐量,横轴是推理速度(交互性)。不同层级的服务对应不同的定价:免费套餐、中级服务、高级研究服务。通过优化硬件和软件协同设计,NVIDIA能将整个曲线向上推移,让客户在相同电力下获得5倍以上的收入。
为此,NVIDIA发布了Dynamo——专为AI工厂设计的操作系统,以及DSX平台——一个用于设计和运营AI工厂的数字孪生蓝图,整合了从机械仿真到电网优化的全链条工具。
五、OpenClaw:代理系统的开源操作系统
演讲中,黄仁勋用大量篇幅谈及一个开源项目——OpenClaw。这个由Peter Steinberger开发的个人AI代理,在短短几周内成为人类历史上最受欢迎的开源项目,超越Linux三十年的积累。
“OpenClaw是什么?它是一个代理系统,能调用大模型、访问工具和文件系统、分解任务、衍生子代理,并通过各种方式与你交互。”黄仁勋认为,OpenClaw实质上是一个“智能计算机的操作系统”,就像Windows开启了PC时代,OpenClaw将开启个人代理时代。
每一家公司现在都需要制定“OpenClaw战略”。为此,NVIDIA推出NemoClaw参考设计,集成了企业级安全、隐私保护和策略引擎,让企业能够安全地部署代理系统。同时,NVIDIA发布了多个开放前沿模型,包括Nemotron、Kosmos、ALPAMIO、GROOT等,覆盖语言、视觉、物理AI、自动驾驶等领域。
“每一家SaaS公司都将变成一家代理即服务公司。”黄仁勋预测,未来每位工程师都将拥有年度token预算,用AI放大自己的能力。
六、物理AI:机器人与自动驾驶
演讲最后部分聚焦于物理AI——机器人。黄仁勋宣布NVIDIA自动驾驶出租车平台新增四家合作伙伴:比亚迪、现代、日产、吉利,加上此前的奔驰、丰田、通用,总计覆盖每年1800万辆汽车。
在机器人领域,NVIDIA与迪士尼、DeepMind合作,基于Newton求解器和Kosmos世界模型,训练出能行走、互动的角色机器人。现场,一个奥拉夫雪人机器人走上舞台,与黄仁勋互动,展示了物理AI的最新进展。
“全球首次大规模物理AI部署已经到来。”黄仁勋总结,从自动驾驶到工业机器人,从手术室辅助到娱乐角色,物理AI正在从模拟走向现实。
三个小时的演讲,信息密度极高。黄仁勋传递的核心信息清晰明确:我们正处于计算范式的根本性转折点——从检索式计算走向生成式计算,从数据存储走向token生产,从应用软件走向智能代理。
在这个新世界里,硬件是AI工厂的底座,软件是代理系统的灵魂,而开源生态(如OpenClaw)则是连接一切的粘合剂。正如黄仁勋所言:“未来已来,你何不亲自来看看?”
对于开发者、企业家和每一位关注技术变革的人,GTC 2026传递的信号再清楚不过:AI工厂时代已至,token将成为新的货币,而你的“OpenClaw战略”,将决定你在下一个十年的位置。
黄仁勋 NVIDIA GTC 2026 主题演讲实录全文:
欢迎来到 GTC!这是一场技术会议,我们要聊聊技术,聊聊平台。
NVIDIA 拥有三个平台。你们认为我们主要谈论的是其中一个,它与 CUDA X 有关。我们的系统是另一个平台,现在我们有了一个名为 AI 工厂的新平台。我们将讨论所有这些问题。最重要的是,我们要讨论生态系统。
感谢赛前节目的主持人们,他们做得很好。Sarah Guo、Alfred Lin、Gavin Baker,这三个人对科技非常了解,对正在发生的事情也了如指掌。当然,他们的技术生态系统覆盖面也非常广。还有我今天亲自挑选的所有贵宾——全明星队,我要为此感谢大家。
感谢所有到场的公司。如你所知,NVIDIA 是一家平台公司。我们拥有技术,我们拥有平台,我们拥有丰富的生态系统。如今,这 100 万亿美元的产业可能就全部都在这里了。本次活动共有 450 家公司赞助,一千场技术研讨会,两千名演讲者。本次会议将涵盖人工智能五层结构中的每一层。从土地、电力和外壳这些基础设施,从芯片到平台,再到模型,当然,最终让这个行业腾飞的关键在于所有应用。一切的开端,就在这里。
今年是 CUDA 成立 20 周年。我们从事 CUDA 开发工作已经 20 年了。这项革命性的发明——单指令多线程,即写入标量代码,可以衍生出许多多线程应用程序,比 SIMD 更容易编程。我们最近添加了 Tiles,以便帮助人们编写张量核心和数学结构程序,这些对于当今人工智能来说至关重要。
数以千计的工具、编译器、框架、库和开源软件,有几十万个公共项目。CUDA 实际上已经融入到每一个生态系统中。
这张图表基本上描述了 NVIDIA 的所有策略。你们从一开始就一直在听我讲解这张幻灯片。归根结底,最难实现的就是最底层的那件事——已安装用户群。我们用了 20 年的时间,才在全球范围内建立了数亿个运行 CUDA 的 GPU 和计算系统。我们遍布所有云平台,遍布所有计算机公司,服务于几乎所有行业。
CUDA 的安装基数是推动其飞轮效应加速发展的原因。庞大的用户群体吸引着开发者,开发者们进而创造出能够取得突破性进展的新算法,例如深度学习,还有很多其他的例子。这些突破催生了全新的市场,并围绕这些市场构建了新的生态系统,其他公司也纷纷加入其中,这样就能扩大用户群体。这个飞轮现在正在加速。
NVIDIA 库的下载量正在以惊人的速度增长。它的规模非常庞大,而且增长速度比以往任何时候都快。正是这种飞轮效应使得该计算平台能够支持如此多的应用程序运行,取得了许多新的突破,但最重要的是,这也使得这些基础设施拥有超长的使用寿命。
NVIDIA CUDA 可以运行的应用程序非常多。我们支持人工智能生命周期的每一个阶段。我们针对所有数据处理平台进行了优化。我们为各种类型的、秉持科学原则的解决问题者提供加速发展的机会。因此,一旦安装了 NVIDIA GPU,其应用范围就非常广泛,有用例的发生率非常高。这也是 Ampere 的原因之一。我们大约六年前发货的 Ampere 在云端的定价仍在上涨。这一切之所以成为可能,根本原因在于其庞大的用户基数,飞轮效应显著,开发者覆盖面广。
当所有这些情况发生,并且我们不断更新软件时,计算成本下降。加速计算技术的结合,极大地提升了应用程序的运行速度。与此同时,我们将继续维护和更新软件,贯穿其整个生命周期。你不仅能获得首次爆裂体验,随着时间的推移,加速计算带来的成本持续降低。
我们愿意培育、支持世界上的每一款 GPU,因为它们在架构上都是兼容的。我们愿意这样做,因为如果我们发布新的优化方案,其安装用户群非常庞大,它惠及数百万人,适用于全世界的每一个人。正是这种动态组合使得 NVIDIA 架构不断扩大其应用范围,加速增长的同时,降低计算成本,最终促进新的增长。
所以,CUDA 是这一切的核心。但我们的这段旅程,其实早在 25 年前就已经开始了。
我知道你们当中有多少人是看着 GeForce 游戏长大的。GeForce 是 NVIDIA 最成功的营销活动。我们早在你有能力自行支付之前就开始吸引潜在客户——你父母付的钱。你的父母出钱让你成为 NVIDIA 的客户,他们每年都按时缴款,年复一年,直到有一天你成为了一名出色的计算机科学家,也成为了一名合格的客户,一名合格的开发人员。
这就是 GeForce 打造的基础。25 年前,我们开始了这段旅程,由此诞生了 CUDA。25 年前,我们发明了可编程着色器,一项完全出乎意料的发明,使加速器可编程,成为世界上第一个可编程加速器——像素着色器。25 年前,这促使我们不断深入探索。20 年后,5 年后,CUDA 被发明出来。这是我们最大的投资之一,当时我们几乎承担不起。它消耗了我们公司绝大部分的利润,目的是将 CUDA 技术借助 GeForce 显卡推广到每一台电脑上。我们倾注心血创建了这个平台,因为我们非常看好它的潜力。但归根结底,是公司对它的投入,尽管一开始很艰难,但每一天都充满信念。
三十年来,十三代产品,现在我们已经将 CUDA 安装到了所有地方。当然,像素着色器导致了 GeForce 的革命,十年前的事,大约十年前我们介绍了它是什么。八年前,我们推出了 RTX,这是我们为现代计算机图形时代而对架构进行的一次彻底重新设计。
GeForce 将 CUDA 带给了全世界。因此,GeForce 为 Alex Krizhevsky、Ilya Sutskever、Geoff Hinton、Andrew Ng 和其他许多人提供了支持,他们发现 GPU 可以成为加速深度学习的好帮手。它开启了人工智能的大爆炸。
十年前,我们决定将可编程着色技术与两项新理念融合起来:光线追踪硬件,这非常难实现;以及人工智能将彻底改变计算机图形学的想法。正如 GeForce 将人工智能带入世界一样,人工智能现在将彻底改变计算机图形学的制作方式。
今天,我要向你们展示一些未来的东西。这是我们的下一代图形技术,我们称之为神经渲染——3D 图形与人工智能的融合。这是 DLSS 5.0。
(视频演示)
计算机图形栩栩如生。那么,我们做了什么?我们将可控的 3D 图形与虚拟世界的真实面貌融合在一起。虚拟世界是结构化数据——记住这个词。我们将 3D 图形、结构化数据与生成式人工智能相结合。其中一种是完全预测性的,另一种是概率性的,但又非常写实。我们将这两个想法结合起来,通过结构化数据进行控制,实现完美控制,同时还能生成数据。因此,内容既令人惊叹,又易于控制。
这种将结构化信息与生成式人工智能融合的概念将在各个行业中不断重复出现。结构化数据是可信赖人工智能的基础。
嗯,这可能会让你有点害怕。我要把幻灯片翻转过来,别惊呼。接下来的时间我们将一起研究这个原理图,这是我最好的一张幻灯片。每次我问我的团队"我最好的幻灯片是哪一张?"他们总是说:"别这么做,詹森。"我说:"不,这些座位是免费的,对你们中的一些人来说,这就是你们的入场费。"
所以,这就是结构化数据。你肯定听说过:SQL、Spark、Pandas、Velox。其中一些平台真的非常重要,规模也非常大。Snowflake、Databricks、EMR、亚马逊 EMR、Azure Fabric、谷歌云 BigQuery。所有这些平台都在处理数据框。这些数据框就像巨大的电子表格,包含了生活中所有的信息。这是结构化数据,是商业的真实写照,是企业计算的真相。
现在我们要让人工智能使用结构化数据了。我们最好加快速度,全力以赴。以前还好,我们会加速结构化数据,这样我们就能做更多的事情。我们可以降低成本,可以每天更频繁地进行操作,并使公司以更加同步的方式运转。然而,未来人工智能将会使用这些数据结构,人工智能的速度将会比我们快得多。未来的智能体也会使用结构化数据库。
当然还有非结构化数据,即生成式数据库。该数据库代表了世界上绝大多数地区,约占每年产生信息的 90%。矢量数据库、非结构化数据、PDF、视频、演讲——全世界所有的信息。此前,这些数据对世界来说完全毫无用处。我们读完后,把它放进我们的文件系统中,就这样。我们无法查询,找不到它,这很难做到。原因在于,非结构化数据难以建立索引,你必须理解它的含义和目的。
所以现在,我们用人工智能来做这件事了。正如人工智能能够解决多模态感知问题一样,现在你可以使用同样的技术——多模态感知与理解,阅读 PDF 文件,理解其含义。并从这个含义出发,将其嵌入到一个更大的结构中,以便我们进行深入研究,我们可以查询。
NVIDIA 创建了两个基础库。就像我们为 3D 图形开发 RTX 一样,我们创建了 cuDF,用于数据框和结构化数据。我们为向量存储和语义数据、非结构化数据、人工智能数据创建了 cuVS。这两个平台将会是未来最重要的两个平台。非常高兴看到它在全球数据处理系统构成的复杂网络中得到应用。原因在于数据处理技术已经存在很长时间了,因此才有了这么多不同的公司、平台和服务。我们花了很长时间才深度融入这个生态系统。我为我们在这里所做的工作感到无比自豪。
今天,我们将宣布其中几项合作。
IBM 是 SQL 的发明者,SQL 是有史以来最重要的领域特定语言之一。他们正在使用 cuDF 加速 Watsonx 的数据处理。60 年前,IBM 推出了 System/360 系统,第一个现代通用计算平台,开启了计算机时代。然后是 SQL,一种声明式语言,用于查询数据,而无需逐步向计算机发出指令。以及数据仓库,它们都是现代企业计算的基础。如今,IBM 和 NVIDIA 通过加速 IBM Watson X,正在为人工智能时代重新定义数据处理,采用 NVIDIA GPU 计算库的数据 SQL 引擎。
数据是赋予人工智能背景和意义的真实依据。人工智能需要快速获取海量数据集。当今的 CPU 数据处理系统已经无法满足需求。
雀巢每天要做出数千个供应链决策。他们的订单到收款数据仓库汇总了所有供应和订单信息,并在全球 185 个国家/地区的运营中举办交付活动。在 CPU 上,雀巢每天会刷新几次数据集市。使用加速的 Watsonx,使用 NVIDIA GPU 运行数据,雀巢可以以五倍的速度运行相同的工作负载,同时降低 83% 的成本。
新一代计算平台已经到来,它是面向人工智能时代的加速计算平台。
NVIDIA 加速云端数据处理,我们还加速了本地数据处理。如您所知,戴尔是世界领先的计算机系统制造商,也是世界领先的存储服务提供商之一。他们与我们合作创建了戴尔人工智能数据平台,该平台集成了 cuDF 和 cuVS,从而打造了一个面向人工智能时代的加速数据平台。这是他们对 NTT DATA 所做的一个例子,速度大幅提升。
我们与谷歌云的合作已经持续了很长时间。我们加速谷歌的 Vertex AI 项目,我们现在加速 BigQuery,这非常重要。这是与 Snapchat 合作的一个例子,我们帮助他们降低了近 80% 的计算成本。
当你加速数据处理时,当你加速计算时,你既能享受速度带来的好处,又能享受规模带来的好处。但最重要的是,你还能享受到成本上的好处。因此,所有这些因素共同构成了一体。它最初被称为摩尔定律。摩尔定律指的是每隔几年性能就会翻一番,大多数电脑的性能基本保持不变,但你每年都能获得两倍的性能提升,或者说每年都在降低计算成本。摩尔定律已经失效了。我们需要一种新的方法。
加速计算使我们能够取得这些巨大的飞跃,因为我们会不断优化算法。NVIDIA 是一家算法公司,我们会不断优化算法。而且因为我们的影响范围非常广,用户基数非常庞大,因此我们可以降低计算成本,不断扩大规模,不断加快速度,惠及所有人。
NVIDIA 构建了加速计算平台,并在其上开发了一系列库。我举了三个例子:RTX、cuDF、cuVS,我们还会向您展示更多。这些库位于我们平台之上,但最终,我们将融入全球云服务,进入全球 OEM 行列,并与其他平台合作。携手并进,我们就能触及世界。
这种模式——NVIDIA、Google Cloud、Snapchat——它会一遍又一遍地重复。举个例子,NVIDIA 与 Google Cloud 的合作:我们加速 Vertex AI,加速 BigQuery。我为我们与 JAX 和 XLA 共同完成的工作感到无比自豪。我们在 PyTorch 方面非常出色。我们是世界上唯一一款在 PyTorch、JAX 和 XLA 上都表现出色的加速器。我们支持的客户,BaseTens、CrowdStrikes、Puma、Salesforce,他们不是我们的客户,但他们是我们的客户,也是我们的开发者,我们已经将 NVIDIA 技术集成到他们的产品中,这样我们就可以降落在云端了。
我们与云服务提供商的关系本质上是我们为他们带来客户。我们整合库,加速工作负载,让这些客户体验云端生活。所以,正如你所看到的,我们的大多数云服务提供商都乐于与我们合作。而且,他们总是要求我们帮他们把下一个客户拉到云平台上。顾客很多,我们会让所有人加速前进。因此,会有很多客户希望人们使用你们的云服务,请你耐心等待。
这是 AWS。我们与 AWS 合作已久。今年我最兴奋的事情之一就是我们将把 OpenAI 带到 AWS 上。因此,这将极大地推动 AWS 云计算的使用量,扩大区域范围,扩大 OpenAI 的计算能力。正如你所知,它们完全受限于计算能力。AWS 加速了 EMR,加速了 SageMaker,我们加速了 Bedrock 的运行。NVIDIA 与 AWS 的集成非常深入,他们是我们的第一个云合作伙伴。
微软 Azure。NVIDIA 的 A100 超级计算机是我们建造的第一台,为 NVIDIA 建造的第一台,我们安装的第一台是在 Azure 上。这就导致了与 OpenAI 非常成功的合作伙伴关系。我们使用 Azure 已经很长时间了。我们加速 Azure 云平台的发展,现在是他们的 AI Foundry,我们和他们建立了深度合作关系。我们加速了必应搜索。我们与他们就 Azure 区域开展合作。随着人工智能在全球范围内的不断扩展,这无疑是极其重要的领域之一。
我们提供的功能之一是机密计算。在机密计算中,你需要确保即使是操作员也看不到你的数据,无法触摸或看到您的模型。在机密计算领域,NVIDIA 的 GPU 是世界上首款实现这一功能的 GPU。现在它能够支持这些非常有价值的 OpenAI 模型的机密计算和受保护部署,以及贯穿云层和不同区域的人类模型,这一切都归功于我们的机密计算。机密计算至关重要。
Synopsis 是我们的重要合作伙伴,我们正在加速他们所有的 EDA 和 CAU 工作流程,然后我们选择了微软 Azure。
我们是 Oracle 的首批人工智能客户。大多数人都会认为我们是他们的第一供应商,但我们是他们的第一个人工智能客户。我很自豪,因为我第一次向 Oracle 解释了 AI 云的概念。我们是他们的第一位客户,从那以后,他们发展迅猛。我们已经把一大批合作伙伴都安排到了那里:Quark、Cohere 和 Fireworks,当然还有非常著名的 OpenAI。
与 Quark 的出色合作,他们是全球首个人工智能原生云平台,一家从创立之初就只有一个目标的公司——随着加速计算时代的到来,配置和托管 GPU 的需求也随之而来,并托管于人工智能云平台。他们拥有一些非常棒的客户,而且发展势头迅猛。
我非常期待的平台之一是 Palantir 和戴尔。我们三家公司共同努力,成功搭建了一种全新的人工智能平台——Palantir 本体平台。我们可以在任何国家搭建这些平台,在任何物理隔离区域,完全本地部署,完全现场部署。人工智能几乎可以部署在任何地方。如果没有我们的保密计算能力,如果没有我们构建端到端系统的能力,同时提供完整的加速计算和人工智能堆栈,从数据处理的角度来看,一路发展到人工智能时代,这是不可能的。
这是我们与全球云服务提供商之间特殊的合作关系。而且,他们全都在这里。我还能在巡演期间见到他们,真是太令人兴奋了。我只想感谢大家的辛勤付出。
NVIDIA 所做的就是这个。你会一遍又一遍地看到这个主题:NVIDIA 是全球首家垂直整合型企业,但却是一家横向开放的公司。而这样做的原因很简单。加速计算并非芯片问题,也非系统问题。加速计算缺少一个词——应用加速。如果我能让电脑运行所有程序都更快,那叫做 CPU,但它已经没电了。这是我们未来加速应用程序开发并持续大幅提升速度的唯一途径,大幅降低成本,是通过应用或领域特定的加速实现的。因此,它就变成了应用加速计算。这就是为什么 NVIDIA 需要编写一个又一个库的原因,领域与领域,垂直与垂直。
我们是一家垂直整合的计算机公司,别无他法。我们必须了解应用,我们必须了解领域,我们必须从根本上理解算法,并且必须弄清楚如何在任何需要部署的场景中部署该算法,无论是数据中心、云还是本地部署,在边缘,或在机器人系统中。这些计算系统各不相同,最后是系统和芯片。
我们是一家垂直整合型企业。它为何如此强大?以及你为何会看到所有幻灯片?这是因为 NVIDIA 采用了水平开放架构。我们将把 NVIDIA 的技术集成到您希望我们集成的任何平台中。我们提供软件,我们提供库,我们与您的技术进行整合,以便我们可以将加速计算带给世界上的每个人。这次 GTC 大会就很好地证明了这一点。
大多数时候,你会看到我谈论这些垂直领域。我会举一些例子,但每一种情况都是如此。无论是汽车行业,还是其他行业——金融服务行业是本次 GTC 大会上出席者中占比最大的行业。我希望是开发者,而不是交易员。
观众席代表了 NVIDIA 供应链上游和下游的生态系统。我们努力工作,会考虑供应链的上游和下游。最令人兴奋的是,我们整个上游供应链在过去一年里都取得了如此成就。无论贵公司成立 50 年还是 70 年,我们有一家拥有 150 年历史的公司,现在是 NVIDIA 供应链的一部分,并与我们开展上游或下游合作。去年,你们取得了创纪录的成绩,不是吗?恭喜。我们好像发现了什么,这将是一件非常非常大的事情的开始。
因此,如果你研究加速计算的话。我们现在已经搭建好了计算平台,但是为了激活这些计算平台,我们需要针对特定领域开发库,以解决我们所关注的每个垂直领域中非常重要的问题。你可以看到我们正在逐一解决这些问题。自动驾驶汽车,我们的覆盖范围、广度、影响力都非常好。我刚才提到的金融服务,算法交易正从传统的机器学习和量化交易的人工特征工程相结合的方式,转变为如今超级计算机正在研究海量数据,它能够自行发现洞察力和发现模式。因此,它正在经历深度学习和转型时刻。
医疗保健行业正在经历他们的 ChatGPT 时刻。那里有一些非常精彩的作品。我们这里有一场精彩的主题演讲,金伯利·鲍威尔的主题演讲非常精彩,用于医疗保健。我们讨论的是用于药物发现的人工智能物理学或人工智能生物学,用于客户服务和诊断支持的人工智能代理。当然,还有实体人工智能机器人系统。所有这些不同的 AI 应用领域都有 NVIDIA 提供的不同平台。
我们正在彻底重置,并开启人类历史上规模最大的建设。世界上大多数行业都在建设人工智能工厂,今天这里展示了芯片工厂建设和计算机工厂建设的案例。媒体与娱乐,当然,游戏方面也需要实时人工智能平台,以便我们能够提供翻译和广播支持以及直播服务。现场游戏和现场视频,其中很大一部分将借助人工智能技术进行增强。我们有一个名为 Holoscan 的平台。
量子领域,有 35 家不同的公司与我们一起构建下一代量子 GPU 混合系统。零售和消费品行业,使用 NVIDIA 进行供应链管理,使用和创建智能购物系统、用于客户支持的人工智能代理。这里正在进行大量工作,这是一个价值 35 万亿美元的产业。
机器人技术,制造业中一个价值 50 万亿美元的产业。NVIDIA 在这个领域已经耕耘了十年之久。我们建造了三台计算机,这是重建机器人系统所必需的基础计算机。我们与我们所知的每一家机器人制造公司都有合作关系。我们在展会上展出了 110 台机器人。
然后是电信业,与世界 IT 产业规模大致相当,我们看到大约是 2 万亿美元。基站遍布各地,它是世界基础设施之一。这是上一代计算机的基础设施,那套基础设施将会被彻底改造,原因很简单。那个基站只做一件事,那就是基站。未来,它将成为人工智能基础设施平台。人工智能将在边缘运行。所以有很多很棒的讨论,我们的平台叫做 Aerial 或 AI RAN。与诺基亚建立了大型合作伙伴关系,与 T-Mobile 等多家公司建立了大型合作伙伴关系。
我们业务的核心,就是我刚才提到的所有这一切:计算平台,但更重要的是我们的 CUDA X 库。我们的 CUDA X 库就是 NVIDIA 发明的算法。我们是一家算法公司,这就是我们的独特之处。正是这一点,让我能够进入所有这些行业。
想象一下未来,让世界上最优秀的计算机科学家来描述和解决问题,重构它,重新表达它,并将其变成一个库。我们有很多。在本次展会上,我们将宣布 100 个新库。70 个库,可能 40 个模型,而这仅仅是展会上的情况。我们一直在更新这些信息。图书馆是我们公司的瑰宝,正是这一点使得该平台成为可能,计算平台将被激活以服务于解决问题并产生影响。
这是我们创建过的规模最大、最重要的库之一,cuDNN,CUDA 深度神经网络。它彻底革新了人工智能,引发了现代人工智能的大爆炸。
(播放 CUDA-X 视频)
20 年前,我们构建了 CUDA,一种用于加速计算的单一架构。今天,我们重新定义了计算机。1000 个 CUDA-X 库帮助开发人员在科学和工程的各个领域取得突破。cuOPT 用于决策优化,cuLitho 用于计算光刻技术,cuDSS 用于直接稀疏求解器,cuEquivariance 用于几何感知神经网络,Aerial 用于人工智能无线接入网,Warp 用于可微分物理学,Parabricks 用于基因组学。它们的基础是算法,而算法本身就很美妙。
你所看到的一切都是模拟的。其中一些是遵循原则的解题者,是基础物理解题者。其中一些是人工智能代理,人工智能物理模型。其中一部分是物理人工智能机器人模型。一切都是模拟的。没有动画,没有动作,一切都是完全模拟的。这就是 NVIDIA 的根本业务。正是通过将对算法的理解与我们的计算平台联系起来,我们才能打开局面,抓住这些机遇。
NVIDIA 是一家垂直整合的计算公司,同时与世界各地保持开放的横向整合。这就是 CUDA-X。
刚才你们看到了一大堆公司。你看到了沃尔玛,欧莱雅,摩根大通,罗氏,丰田,等等。这些公司致力于为当今社会进行设计。嗯,这些都是世界上最大的公司。确实还有很多你从未听说过的公司,这些公司,我们称它们为人工智能原生企业。一大堆小公司,清单很长。这只是其中的一小部分而已。
过去两年,特别是去年,发生了一些事情。我们与人工智能原住民合作已久,而去年,这个数字更是飙升。我会向你解释原因。这个行业发展迅猛。1500 亿美元的风险投资涌入创业领域,这是人类历史上规模最大的创业浪潮。这也是投资规模首次从数百万美元跃升至数千万美元,从数千万美元到数亿美元,再到数十亿美元。原因在于,这是历史上第一次所有这些公司都需要计算能力,而且数量非常多。他们需要代币,大量的代币。他们要么会创建和构建代币并生成代币,或者他们会整合现有代币,为其增值,由 Anthropic、OpenAI 等公司开发。因此,这个行业在很多方面都与众不同。但有一点非常明确:他们所产生的影响,他们已经创造的巨大价值,是显而易见的。
人工智能原住民,这一切都源于我们对计算的重新发明。就像个人电脑革命时期一样,涌现出了许多新公司。在互联网革命期间,一大批公司应运而生。移动云诞生时,一大批公司也应运而生。他们每个人都有自己的一套标准。刚才发生的事情,极其重要。而我们这一代人,也有数量庞大的非常特别的公司。我们重新定义了计算机,理所当然地,将会涌现出一大批真正重要的公司,对世界未来具有重大影响的公司。
谷歌、亚马逊、Meta,这些举足轻重的公司都是最近一次计算平台变革的产物。我们现在正处于新平台转型的开端。
但最近两年发生了什么?我们一直在研究深度学习和人工智能,现代人工智能的大爆炸。我们当时就在那里,而且我们已经在这个领域耕耘了相当长一段时间。但为什么是最近两年?过去两年发生了什么?
有三件事。
第一,ChatGPT 开启了生成式人工智能时代。它不仅能够理解、感知和领悟,它还能够翻译和生成独特的内容。我向你们展示了生成式人工智能与计算机图形学的融合,它让计算机图形技术焕发生机。你们所有人,甚至全世界的人都应该使用 ChatGPT。我知道我每天早上都会用到它。今天早上用了很多次。因此,ChatGPT 就是生成式人工智能的时代。
第二,生成式计算与我们过去进行计算的方式之间的区别。生成式人工智能是一种软件功能,但它深刻地改变了计算的方式。过去的计算是基于检索的,现在是生成式的。请记住这一点,你会明白为什么我们所做的一切都会改变计算机的架构方式,如何提供计算机,如何构建计算机,以及计算机的本质究竟是什么。
生成式人工智能,2023 年。下一代推理人工智能是 O1,然后 O3 取得了巨大成功。推理能力使它能够反思,使它能够独立思考,能够计划、分解问题,并将无法理解的问题分解成可以理解的步骤或部分。它可以以研究为基础。O1 使生成式人工智能变得值得信赖,并以事实为基础。这使得 ChatGPT 迅速走红,这是一个非常重要的时刻。
为了产生结果,所需的输入令牌数量和它为了推理而生成的输出令牌数量,这个型号稍微大一些。O1 型号的尺寸稍大一些。虽然体积没有大多少,但它用于上下文的输入标记和用于思考的输出标记极大地增加了计算量。
第三,出现了 Claude Code,第一个智能体模型。它能够读取文件和代码,编译它,测试它,评估它,然后返回并迭代改进。正如大家所知,Claude Code 彻底改变了软件工程。NVIDIA 100% 的产品都使用了 Claude Code 或 Cursor,或者经常同时使用这三种技术。Claude Code、Cursor,遍布 NVIDIA。如今,几乎所有软件工程师都会借助一个或多个人工智能代理来编写代码。
Claude Code 带来了新的转折。这是第一次,你不用问人工智能什么时间、什么地点、什么方式,你提出问题,创造,行动,建设。你要求它使用工具,考虑你的语境,读取文件。它能够主动地分解问题,仔细思考,反复琢磨。它能够解决问题并实际执行任务。
能够感知的 AI 变成了能够生成的 AI。能够生成信息的人工智能变成了能够推理的人工智能。能够推理的人工智能现在已经变成了能够实际工作、且非常高效工作的人工智能。
过去两年的计算量,在座的各位都知道,对 NVIDIA GPU 的计算需求已经爆表。现货价格飞涨,就算你努力寻找,也找不到。然而,与此同时,我们仍在向市场发货 GPU,数量惊人,而且需求还在持续增长。这其中是有原因的,这是一个根本性的转折点。最后,人工智能能够从事生产性工作了。因此,推理的转折点已经到来。
人工智能现在也需要思考了。思考需要推理。现在只能靠人工智能了。为了做到这一点,它必须进行推理。人工智能需要阅读,为了做到这一点,它必须进行推理,必须合乎逻辑。这需要推理。人工智能的每个部分,每次它需要思考的时候,它必须合乎逻辑,必须生成令牌,必须进行推理。现在这已经远远超出了训练的范畴,它已经进入了推理领域的前沿阶段。因此,推理转折点出现在词元数量达到一定程度之时。所需的计算量大约增加了 1 万倍。
现在,当我把这两件事结合起来时,事实是,自过去两年以来,这项工作的计算需求增加了 100 倍,而实际使用量已经增加了 10 万倍。我相信在过去的两年里,计算需求增加了 100 万倍。这是我们所有人都有的感受。这是每个创业公司都会有的感觉,也是 OpenAI 有的感觉,是 Anthropic 所秉持的理念。如果他们能获得更多产能,就能制造更多代币。他们的收入会增加,更多的人可以使用它。越先进,人工智能就越智能。我们现在正处于正向飞轮系统阶段。我们已经到达了那个时刻,推理转折点已经到来。
去年这个时候,我说过我们看到了大约 5000 亿美元的需求。到 2026 年,我们看到 Blackwell 和 Rubin 的需求和采购订单额将达到 5000 亿美元,而且信心十足。我去年就说过这话。现在,我不知道你们是否也有同感,但 5000 亿美元的收入是一笔巨款。没人觉得惊艳。我知道你为什么不为之动容,因为你们都取得了创纪录的成绩。
我现在要告诉你们我的立场。距离上次 GTC 过去了一年,就在我站的地方,我看到到 2027 年,至少 1 万亿美元。这说得通吗?接下来的时间,我都要谈谈这个话题。事实上,我们会缺货。我确信计算需求会远高于此。这其中是有原因的。
去年我们做了很多工作。当然,正如你所知,2025 年是 NVIDIA 的推理之年。我们想确保我们不仅擅长培训,而且擅长培训后的工作。我们在人工智能的各个阶段都非常出色,因此所做的投资都是值得的。对我们基础设施的投资,可以根据他们的使用意愿进行扩展。NVIDIA 基础设施的使用寿命将会很长,因此成本会非常低。使用时间越长,成本越低。毫无疑问,NVIDIA 系统是目前世界上成本最低的 AI 基础设施。
因此,第一部分是去年所有的一切都围绕着人工智能推理展开。正是它促成了这一转折点。与此同时,我们去年非常高兴地看到 Anthropic 加入了 NVIDIA,MSL,也就是 Meta SL,选择了 NVIDIA。作为一个整体,这代表了全球人工智能计算开源模型的三分之一。开源模式已接近前沿领域,它无处不在,还有 NVIDIA。目前我们是全球唯一一个能够以任何语言运行所有人工智能模型,涵盖所有人工智能领域的平台。在生物学、计算机图形学、计算机视觉、语音、蛋白质和化学物质、机器人等领域,无论是在云边缘还是任何语言,NVIDIA 的架构都具有很强的通用性,我们在这方面表现出色。这使我们能够做到成本最低,成为最高置信度的平台。
因为在构建这些系统时,正如我之前提到的,一万亿美元是一笔巨大的基础设施建设资金。你必须完全确信你投入的万亿美元将会被充分利用,性能优异,性价比极高,并且使用寿命极长。你可以把这笔基础设施投资投入到 NVIDIA 平台,充满信心地去做。我们现在已经证明了这一点。它是世界上唯一一种你可以完全放心地在世界任何地方进行建设的基础设施。你想把它放在任何一朵云里,我们对此感到非常高兴。你想把它部署到本地,我们非常乐意。你想把它放在任何国家,任何地方,我们很乐意为您提供支持。
我们现在是一个运行所有人工智能的计算平台。现在,我们的业务已经开始显现出这种迹象。我们 60% 的业务来自超大规模数据中心,排名前五的超大规模数据中心运营商。然而,即使在排名前五的超大规模数据中心中,一部分是内部人工智能消费。内部人工智能消费是一项非常重要的工作,例如,推荐系统正在从基于表格、协同过滤和内容过滤的推荐系统转型,它正朝着深度学习和大型语言模型的方向发展。搜索也转向深度学习、大型语言模型。几乎所有这些不同的超大规模工作负载现在都在迁移到 NVIDIA GPU 非常擅长的工作负载。
但除此之外,因为我们与所有人工智能实验室都有合作,因为我们与所有人工智能都有合作,我们加速人工智能的发展,包括所有人工智能模型,因为我们拥有一个庞大的人工智能原生开发者生态系统,我们可以与他们合作。我们可以把这项投资带到云端。无论多大,无论多快,该计算资源将被消耗。这占我们业务的 60%。剩下的 40% 则分散在各处:区域云、主权云、企业云、工业云、机器人技术、边缘计算、大型系统、超级计算系统、小型服务器、企业级服务器。系统数量之多,令人难以置信。
人工智能的多样性也是其韧性所在。人工智能的影响范围就是它的韧性。毫无疑问,这不是一项单一应用程序就能实现的技术。这现在至关重要。这绝对是一次全新的计算平台变革。我们的工作就是继续推进这项技术的发展。
而我去年提到的最重要的事情之一,去年是我们的推理之年。我们倾注了一切。我们冒了很大的风险,在 Hopper 处于巅峰时期、一切进展顺利的时候对其进行了彻底的革新。我们决定采用 Hopper 架构,即 NVLINKx-8,必须提升到下一个层次。我们对系统进行了彻底的重新架构,将计算系统完全解耦,并创建了 NVLINK-72。它的结构方式,它的制造方式,它的程序编写方式完全改变了。
Grace Blackwell NVLINK-72 是一场豪赌。这对任何人来说都不容易,包括我在座的许多伙伴。我要感谢大家付出的辛勤努力。谢谢。
NVLINK-72、NVFP4,不仅仅是 FP4 分辨率精度,FP4 是一种完全不同的张量核心和计算单元。我们现在已经证明,我们可以在不损失精度的情况下使用 NVFP4 进行推理,但性能和能源效率却大幅提升。我们还能够使用 NVFP4 进行培训。所以,NVLINK-72、NVFP4,以及 Dynamo 的发明、TensorRT-LLM,包含一大批新算法。我们甚至还构建了一台超级计算机来帮助我们优化内核和整个技术栈,我们称之为 DGX 云。我们投入了数十亿美元用于超级计算能力,以帮助我们创建内核,使推理成为可能的软件。
最终,所有结果都汇总起来了。人们过去常对我说:"但是詹森,推理如此简单。"推理是最难的。推理极其困难。它也至关重要,因为它直接影响你的收入。
这是半分析的结果,这是迄今为止最全面的人工智能推理调查。每瓦特代币数。每瓦代币数量很重要,因为每个数据中心从定义上讲都受到电力限制。一座 1 吉瓦的工厂永远不会变成 2 吉瓦,它受到物理限制,原子定律,物理定律。所以,那 1 吉瓦的数据中心,你想获得最大数量的代币,这就是该工厂的生产成果,也就是产品。所以你想站在那条曲线的顶端。
x 轴代表交互性,即推理速度。每次推理的速度。推理速度越快,你就能越快回复。但非常重要的一点是,你的推理速度越快,模型越大,可以处理的上下文就越多,能想到的代币就越多越好。这个维度与人工智能的智能程度相同。这就是人工智能的吞吐量,这就是人工智能的智能之处。人工智能越智能,吞吐量就越低。有道理:你思考的时间更长。
这个轴代表速度,我稍后会再谈到这一点。这很重要。全世界的每一位 CEO 从现在开始都会按照我接下来要描述的方式来研究他们的业务,因为这就是你们的代币工厂,这是你的人工智能工厂,这是你的收入,这一点毋庸置疑。这就是吞吐量,这就是情报。
在数据中心给定功率下,每瓦性能更高,吞吐量越高,就能产生越多的代币。这边是成本问题。
请注意,NVIDIA 显卡是全球性能最高的,这一点不足为奇。他们会惊讶地发现,仅仅一代人的时间,而摩尔定律本可以通过晶体管给我们带来 50% 的提升。摩尔定律或许能使我们的性能提升 1.5 倍。Hopper 到 H200 的性能原本应该高出 1.5 倍。谁也没想到会高出 35 倍。
我去年这个时候说过,NVIDIA 的 Grace Blackwell NVLink 72 的每瓦性能是原来的 35 倍。没人相信我。然后半分析报告出来了,Dylan Patel 说我故意放水,实际上是 50 倍。他说的没错。这就是我们每个代币的成本。我们的代币成本是全球最低的,无可匹敌。
我之前说过,如果架构设计错误,即使是免费的,也不够便宜。原因在于,无论发生什么,你仍然需要建造一个千兆瓦级的数据中心。建造一座千兆瓦级工厂,15 年摊销期,造价约 400 亿美元。即使什么都不做,也已经积累了 400 亿美元。你最好确保在那玩意儿上装上最好的电脑系统,这样你才能获得最低的代币成本。NVIDIA 的代币成本是世界一流的,目前基本上是不可触碰的。而造成这种情况的原因在于极致的协同设计。所以我很高兴他给我们取了这个名字——代币之王。
我们把我们所有的软件都带走。正如我之前所说,我们实行垂直整合,但我们是水平打开的。我们将所有软件和技术以各种方式整合起来,并将其打包集成到全球推理服务提供商中。这些公司发展速度非常快。Fireworks、Lepton 等等,它们在一起,成长得真快。去年有 100 倍。它们是代币工厂。对他们来说,工厂的效率、性能和最低生产成本至关重要。事情就是这样发生的。
我们更新了他们的软件,系统还是原来的系统。而且请注意,它们的令牌速度非常快,令人难以置信。在 NVIDIA 更新了所有内容,包括我们的所有算法、软件以及我们运用的所有技术之前,平均每秒约 700 个代币。现在接近 5000,高出七倍。这就是极致协同设计的强大力量。
我之前提到过工厂的重要性。这就是工厂的重要性。你的数据中心,它以前是一个文件数据中心,现在这里是一个代币生产工厂。无论如何,你的工厂都是有限的。每个人都在寻找土地、电力和外壳。一旦建成,你的权力就会受到限制。在这种电力资源有限的基础设施下,你最好确保你的推理万无一失,因为推理是你的工作量,而令牌是你的新商品。计算就是你的收入,所以你要确保架构尽可能地优化。
未来,每一家 CSP,每一家计算机公司,每一家云公司,每一个人工智能公司,无一例外,都会考虑其代币工厂的效率。这就是你未来的工厂。我知道这一点的原因是,在座的各位都拥有智慧。未来,这种智能将通过代币得到增强。
那么,让我来告诉你我们是如何走到这一步的。2016 年 4 月 6 日,十年前,我们推出了 DGX-1,这是世界上第一台专为深度学习而设计的计算机。八个 Pascal GPU 通过第一代 NVLink 连接,一台计算机即可实现 170 万亿次浮点运算,世界上第一台专为人工智能研究人员设计的计算机。我们通过 Volta 引入了 NVLink 交换机,16 个 GPU 以全带宽连接,作为一个巨型 GPU 运行。这是向前迈出的一大步,但模型尺寸却继续增大。数据中心需要成为一个单一的计算单元。所以 Mellanox 加入了 NVIDIA。
2020 年,DGX A100 SuperPOD 成为首台结合了纵向扩展和横向扩展架构的 GPU 超级计算机。NVLINK-3 用于向上扩展,ConnectX-6 和 Quantum InfiniBand 用于向外扩展。然后是 Hopper,它是第一款搭载 FP8 Transformer 引擎的 GPU,开启了生成式 AI 时代。NVLINK-4、ConnectX-7、BlueField-3 DPU、第二代 Quantum InfiniBand。它彻底改变了计算机技术。
Blackwell 利用 NVLINK-72 重新定义了 AI 超级计算系统架构。72 个 GPU 通过 NVLINK SPINE 连接,每秒 130 太字节的全网带宽。计算跟踪集成了 Blackwell GPU 和 Grace CPU,ConnectX-8 和 BlueField-3。横向扩展运行在 Spectrum-4 以太网上,三种扩展规则全面生效,用于预训练、后训练和推理。如今,智能体系统的计算需求仍在呈指数级增长。
现在,Vera Rubin 为智能体人工智能的每个阶段都进行了架构设计。推动计算机技术的各个支柱发展,包括 CPU、存储、网络和安全。Vera Rubin NVLINK-72,3.6 exaflops 的计算能力,每秒 260 太字节的全连接 NVLINK 带宽。推动智能体人工智能时代的引擎。Vera CPU 机架,专为编排和代理工作流而设计。STX 机架,采用 BlueField-4 构建的 AI 原生存储。采用 Spectrum-X 共封装光学器件进行横向扩展,提高能源效率和弹性。
还有一款令人惊叹的新产品——Grock-3 LPX 机架。与 Vera Rubin 紧密相关的 Grock 的 LPU 具有巨大的片上 SRAM,为速度已经非常快的 Vera Rubin 提供代币加速器。总计每兆瓦的吞吐量提高了 35 倍。新的 Vera Rubin 平台,七块芯片,五台机架式计算机,一台用于智能体的革命性人工智能超级计算机。
短短十年内,计算能力提升了四千万倍。
在美好的旧时光里,当我说"Hopper"的时候,我会举起一块薯片。真是太可爱了。这是 Vera Rubin。当我们想到 Vera Rubin 时,我们认为整个系统与软件完全垂直整合。从头到尾扩展,优化为一个庞大的系统。它之所以被设计用于智能体系统,原因非常明确。
对于智能体而言,最重要的工作就是思考。大型语言模型变得越来越大。它会更快地产生越来越多的代币,这样它就能更快地思考,但它也必须访问内存,这会非常占用内存。KV 缓存、结构化数据 cuDF、非结构化数据 cuVS。它真的会对存储系统造成很大的压力,确实很难,这也是我们重新发明存储系统的原因。
它还会使用一些工具。与人类不同,人类对运行速度较慢的计算机的容忍度更高。人工智能希望工具的速度越快越好。这些工具,未来的网络浏览器,它们也可以是云端的虚拟电脑。这些电脑的运行速度必须尽可能快。我们打造了一款全新的 CPU,一款专为极高的单线程性能而设计的全新 CPU,数据输出量极高,数据处理能力极强,以及极高的能源效率。它是全球唯一一款采用 LPDDR5 内存的数据中心 CPU,具有令人难以置信的单线程性能和无与伦比的每瓦性能。我们建造它是为了让它能够与这些用于代理处理的其他机架一起使用。
这是 Grace Blackwell?不,是 Vera Rubin。这就是 Vera Rubin 系统。自上次以来,已实现 100% 液冷。所有的电缆都没了。以前需要两天才能安装的东西,现在只需要两个小时就能安装好。因此,生产周期将会大幅缩短。这也是一台由 45 度的热水冷却的超级计算机,可以减轻数据中心的压力。它节省了所有用于冷却数据中心的成本和能源,并将其提供给系统使用。这就是秘诀所在。
我们是目前世界上唯一一家建造了第六代放大交换系统的公司。这不是以太网,这不是 InfiniBand,这是 NVLINK。这是第六代 NVLINK。这真的很难做好。我为我的团队感到无比自豪。NVLINK,完全锂冷却。
这是全新的 Grok 系统,八个 Grok 芯片,这就是 LP30。世人从未见过。这是第三代产品,现在已经量产了。全球首款 CPO Spectrum-X 交换机。这也是目前全面投产的共封装光学器件。光学元件直接集成到该芯片上,并直接与硅片连接。电子被转化为光子,并直接与该芯片连接。我们与台积电共同研发了这项工艺技术,目前只有我们一家公司将其投入生产。它叫做 CPO,它完全是革命性的。NVIDIA 的 Spectrum-X 已全面投入量产。
这是 Vera 系统。每瓦性能是目前世界上任何 CPU 的两倍。该产品也正在生产中。我们还以为会单独销售 CPU 呢,但我们卖出了很多独立式 CPU。可以肯定的是,这将会是我们一项价值数十亿美元的生意。所以,我对我们的 CPU 架构师非常非常满意。我们设计了一款革命性的 CPU。
这是搭载 Vera CPU 的 CX9,BlueField-4 STX,我们的新型存储平台。这四个机架彼此相连。这是 NVLINK 机架,超级重,而且似乎每年都在变重,因为我觉得每年里面的电缆都会增加。我们采用这项技术的另一个原因是,利用这些布线系统构建数据中心非常高效。所以我们决定对以太网也这样做。这是在一个机架中集成了 256 个液冷以太网节点,并且还通过这些不可思议的连接器连接起来。
你们想看看 Rubin Ultra 吗?哇。这就是 Rubin Ultra 计算节点。与水平滑入式的 Rubin 不同,Rubin Ultra 需要安装到一个全新的机架中。它被称为 Kyber,它使我们能够在一个 NVLINK 域中连接 144 个 GPU。Kyber 机架,我肯定能举起它,但我不会。它很重。这是一个计算节点,它可以垂直滑入 Kyber 机架中。这是中平面。顶部的四个 NVLINK 连接器滑入并连接到此处,这就成为其中一个节点。每个机架都是一个不同的计算节点。而这才是最神奇的地方。这是中平面,以及中平面的背面。电缆系统存在局限性,例如电缆铺设距离有限。我们现在使用铜缆将 144 个 GPU 连接到这个系统中。这是新型的 NVLINK。它也是垂直放置的,并且与背面的中平面相连。前面是计算单元,后面是 NVLINK 交换机。一台巨型计算机。这就是 Rubin Ultra。
正如我之前提到的,不如我们把它撤下来吧。我需要剩下的幻灯片。它正在倒塌?哦,它要倒了?好的。谢谢你,Jenny。这就是你不练习的后果。
你看到了这张幻灯片。只有在 NVIDIA 的主题演讲中,你才会再次看到去年的幻灯片。原因在于,我只是想让你知道,去年我跟你说过一件非常重要的事。这件事非常重要,值得再跟你说一遍。这可能是对人工智能工厂的未来而言最重要的图表。全世界的每一位 CEO 都会关注它。我会深入研究它。事情远比这复杂得多,但您将研究 AI 工厂的吞吐量和令牌速度。ISO 功率下的吞吐量和令牌速度,因为这就是你拥有的全部能力:工厂的吞吐量和令牌速度,而且这种状态将永远持续下去。而这项分析将直接影响你的收入。你今年所做的一切,明年都会以收入的形式体现出来。而这张图表正是关键所在。
纵轴表示吞吐量,横轴表示令牌速度。今天,我要给你们展示这个。因为我们有能力提高令牌处理速度,而且模型尺寸也在不断增大。因为上下文长度取决于不同的等级,不同的应用场景可能已经从 10 万增长到数百万个。输入令牌长度在增长,输出令牌长度也在增长。因此,所有这些因素最终都会影响未来代币的营销和定价。
代币是新型商品,而且像所有商品一样,一旦达到转折点,一旦成熟或走向成熟,它将分成不同的部分。高吞吐量、低速度的方案可以用于免费套餐。下一层级可能是中等层级,更大型号,速度更快。输入上下文长度更长。这意味着价格会有所不同。从各种不同的服务中可以看出这一点。这个是免费的,这是免费版本。第一层级可能是每百万个代币 3 美元。下一档的价格可能是每百万个代币 6 美元。你希望能够不断突破这个界限,因为模型越大,就越有可能突破这个界限,更智能。输入词元上下文长度越长,相关性越高。速度越快,思考和迭代的时间就越长,产生更智能的人工智能模型。
所以,这关乎更智能的人工智能模型,以及当你拥有更智能的人工智能模型时,每点击一次,价格都会上涨。所以这款售价 45 美元,也许有一天会推出高级版,让你以极快的速度生成代币,因为你可能正处于关键路径上,或者正在进行非常漫长的研究。每百万个代币 150 美元的价格根本不可能。那么,我们来翻译一下。假设你作为一名研究人员,每天要使用 5000 万个代币,每个代币的价格为 150 美元。作为一个研究团队,那根本不是事。所以我们相信这就是未来,这就是人工智能的发展方向,这就是它现在的样子。必须从这里开始,才能确立其价值和用途,并变得越来越好。
未来,你会发现大多数服务都会包含它,包含所有这些内容。这是 Hopper。Hopper 启动了,我移动了图表。这是 50,这是 100。Hopper 长这样,你肯定会想到 Hopper。下一代会更高,但谁也没想到会高出这么多。这是 Grace Blackwell。Grace Blackwell 的做法是,即使使用免费套餐,也能大幅提升吞吐量。然而,你主要通过服务盈利的地方,它使你的吞吐量提高了 35 倍。这和其他公司生产的任何产品并无不同。等级越高,质量越好。性能越高,产量越低。它与其他任何企业并无不同。因此,现在我们可以将这一层级提高 35 倍。我们推出了一个全新的层级。这就是 Grace Blackwell 带来的好处,远远地超越了 Hopper。这就是我们正在做的事情。
好的,这位是 Grace Blackwell,让我重新设置一下,这里是 Vera Rubin。哇!现在,好好想想刚才发生了什么。在每一个层级,我们都提高了吞吐量。并且在这个层级,你拥有最高的平均售价和最有价值的客户群,我们将其提高了 10 倍。那才是真正的难点。在这里做这件事极其困难。这就是 NVLink-72 的优势所在,这就是极低延迟带来的好处,这就是极致协同设计的优势所在,我们可以将整个区域向上移动。
那么,从客户的角度来看,这最终意味着什么呢?假设我把所有这些都拿走,然后我拿出 25% 的电力用于免费层级,25% 的力量处于中等水平,25% 的力量处于高阶状态,以及我在高级会员等级中 25% 的力量。我的数据中心只有 1 千兆瓦的电力,所以我可以决定如何分配电力。免费版让我可以吸引更多客户,这使我能够更好地服务于我最重要的客户。所有这些因素的结合,最终决定了你的收入。
假设以这个简单的例子为例,你获得的收入可以使 Blackwell 的收入增加五倍。Vera Rubin 也能增加五倍。所以,你应该尽快使用 Vera Rubin。原因在于,你的代币成本下降了,吞吐量上升了。但我们想要更多。那么,让我来给你演示一下。
这种吞吐量需要大量的浮点运算能力。这种延迟和交互性需要大量的带宽。计算机不喜欢过高的浮点运算次数和过高的带宽。因为任何系统可用于安装芯片的表面积都是有限的。因此,优化高吞吐量和优化低延迟是彼此的敌人。所以,这就是我们与 Groq 合并后发生的事情。我们收购了开发 Groq 芯片的团队,并获得了该技术的授权。我们一直在共同努力整合该系统。
所以,在最有价值的层级,我们将把性能提高 35 倍。这张非常简单的图表向您揭示了 NVIDIA 迄今为止在绝大多数工作负载中表现如此强大的原因。原因在于,在这个区域,吞吐量至关重要。NVLink 72 具有颠覆性意义,它正是我们需要的架构。即使加上 Groq,也很难超越它。但是,如果你把这张图表延伸得非常远,并且你说你想要的服务每秒交付的代币数量不是 400 个,而是 1000 个,NVLink 72 动力不足,根本无法连接。我们带宽不足。所以,这就是 Groq 的用武之地。这就是我们把它推出去之后会发生的情况。所以,它延伸到了更远的地方,甚至超越了 NVLink 72 的功能极限。
如果你能做到这一点,并将其转化为收入,与 Blackwell 相比,Vera Rubin 是 5 倍。如果你的大部分工作负载都是高吞吐量的,我只会选择 100% 纯 Vera Rubin。如果你的大部分工作时间都花在编码和高价值工程上,我会加入 Groq。我可能会将 Groq 部署到我整个数据中心的 25% 左右,其余部分全部是 Vera Rubin 的产品。因此,这可以让你了解如何将 Groq 添加到 Vera Rubin 中,从而进一步提升其性能和价值。事情就是这样发生的。
Groq 之所以如此吸引我,是因为他们的计算机系统。这是一个确定性数据流处理器,它是静态编译的。编译器调度任务,也就是说,编译器会确定何时执行计算,计算和数据同时到达。所有这些都是预先静态完成的,并且完全由软件安排,没有动态调度。该架构采用大量 SRAM 设计。它专为推理而设计,仅用于这一种工作负载。现在,事实证明,这项工作量就是人工智能工厂的工作量。随着世界不断增加对高速代币的需求,以及对超级智能代币的需求,它也希望生成更多高速代币。这种整合的价值将会更高。
所以,这就是你所能看到的两款顶级处理器。Groq 芯片,500 兆字节片上 SRAM。一枚 Vera Rubin 芯片,288 GB 内存。要容纳 Rubin 的参数规模,需要大量的 Groq 芯片,以及所有必须删除的上下文和 KV 缓存。因此,这限制了 Groq 真正打入主流市场的能力,直到我们有了一个绝妙的想法,一切才真正开始腾飞。
如果我们使用一款名为 Dynamo 的软件将推理过程完全分解开来会怎样?如果我们重新设计流水线中推理的实现方式会怎样?这样我们就可以把最适合 Vera Rubin 的部分放在那里,然后卸载解码生成,实现低延迟,这是 Groq 工作负载中带宽受限的部分。于是,我们合并了两个截然不同的处理器:一款用于高吞吐量,一款用于低延迟。但这仍然改变不了我们需要大量内存的事实。所以,我们给 Groq 添加一大堆 Groq 芯片,这会扩大它的内存容量。
所以,如果你能想象一下,在一个包含万亿个参数的模型中,我们必须将所有参数存储在 Groq 芯片中。然而,它就位于 NVIDIA Vera Rubin 旁边。我们可以在这里存储处理所有这些智能 AI 系统所必需的大量 KV 缓存。它是基于这种分解推理的思想。我们负责预填充,那是最简单的部分。但我们也紧密地集成了解码功能。因此,解码过程中的注意力控制部分是由 NVIDIA 的 Vera Rubin 完成的,这需要大量的数学运算,以及前馈网络部分。解码部分已经完成,令牌生成部分是在 Groq 芯片上完成的。他们两人紧密合作,如今,以太网有一种特殊模式,可以将延迟降低大约一半。因此,这种能力使我们能够整合这两个系统。我们在其上运行 Dynamo,这是一个用于人工智能工厂的强大操作系统。这样你就能获得 35 倍的增长。更不用说还有前所未有的全新级别的令牌生成推理性能了。这就是 Vera Rubin 系统,包括 Groq。
哦,我还要感谢三星为我们生产了 Groq LP30 芯片。他们正拼尽全力地工作。我真的很感激你们。我们正在进行 Groq 芯片的生产,会在下半年发货,大概在第三季度左右。Groq LPX,Vera Rubin。
这有点难,很难想象会有更多顾客。真正棒的是,Grace Blackwell 早期采样非常复杂,因为 NVLink 72 的出现带来了诸多问题。但 Vera Rubin 的样品采集工作进展得非常顺利。事实上,Satya 已经发短信说,第一个 Vera Rubin 机架已经在 Microsoft Azure 上启动并运行了。所以我真的为他们感到无比兴奋。我们会继续大量生产这些东西。
我们现在已经建立了一条供应链,每周可以生产数千套这样的系统。实际上,我们供应链中每月将有数吉瓦的人工智能工厂投入使用。所以我们要大量生产这些,我们正在加紧生产 GB300 机架,同时还在生产 Vera Rubin 机架。我们正在全力生产。
Vera CPU 非常成功。原因在于人工智能需要中央处理器来运行工具。Vera 的 CPU 正好完美契合了这一需求。这对下一代数据处理来说简直太棒了。Vera CPU 加上 CX9 连接到 BlueField-4 堆栈。全球 100% 的仓储企业都加入了我们的这个系统,原因在于他们看到的是完全相同的东西。存储系统将会遭受重创,它肯定会遭受重创,因为以前都是人类使用这些存储系统。过去我们用的是人来操作 SQL,现在我们将用人工智能来操作这些存储系统。它将存储 cuDF 加速存储和 cuVS 加速存储,以及非常重要的 KV 缓存。这就是 Vera Rubin 系统。
真正令人惊讶的是这一点。短短两年内,在一个 1 吉瓦的工厂里,运用我之前向你展示的数学方法。而摩尔定律本可以给我们提供几个步骤,我们会对晶体管的数量进行 X 因子分析,对失败次数进行 X 因子分析,对带宽的数量进行 X 因子分析。但有了这种架构,我们将提高代币生成速度。代币生成速率从两百万到七亿,增长了 350 倍。这就是极致协同设计的力量。这就是我所说的垂直整合和优化。但随后我们将其水平打开,供大家享用。
这是我们的路线图,简述如下。Blackwell 就在这里,Oberon 系统。Rubin,我们有 Oberon 系统。我们始终保持向后兼容,因此如果您不想做任何更改,只想继续使用新架构,也完全没问题,你可以这样做。Oberon 机架系统,目前仍有售。Oberon 是铜矿规模化生产,我们也可以使用光学横向扩展。光学规模扩大到 NVLink 576。
现在有很多关于 NVIDIA 会采用铜缆扩展还是光缆扩展的讨论?我们打算两者都做。所以我们将使用带有 Kyber 的 NVLink 144。然后是 Oberon,我们将使用 NVLink 72 光纤升级到 NVLink 576。新一代 Rubin,即 Rubin Ultra,我们有 Rubin Ultra 芯片,它即将问世。重要的是,我们完成测试,有了一个全新的芯片 LP35。LP35 将首次采用 NVIDIA 的 NVFP4 计算结构,再给你一些倍数提升。
这就是 Oberon,NVLink 72 光学放大,它使用 Spectrum 6,世界上第一个共封装光学器件,所有这些都在制作中。下一代将从这里诞生,是 Feynman。Feynman 当然有新的 GPU,它还配备了一个新的 LPU,LP40。一大步,不可思议的新技术。现在,NVIDIA 和 Grok 团队的规模优势正在融合,共同建造 LP40,将会非常精彩。一款名为 Rosa 的全新 CPU,Rosa 是 Rosalind 的缩写。BlueField-5 将下一个 CPU 与下一个 SuperNIC CX10 连接起来。我们将推出 Kyber,它是铜基放大技术。我们还将扩大 Kyber CPO 的规模。因此,我们将首次采用铜和共封装光学器件进行规模化生产。
所以很多人都在问:"詹森,铜还会重要吗?"答案是肯定的。"Jensen,你打算扩大光学规模吗?"是的。"你们打算扩展光学业务吗?"是的。因此,对于我们生态系统中的所有人来说,我们需要更大的产能,这才是关键所在。我们需要更多的铜产能,我们需要更多的光学设备产能,我们需要更多的 CPO 产能。正因如此,我们才一直与大家携手合作,为实现这一增长水平奠定基础。
所以 Feynman 将拥有这一切。
每年都有全新的架构,很快。NVIDIA 很快就从一家芯片公司转型为一家 AI 工厂公司,或 AI 基础设施公司,AI 计算公司。现在我们正在建造整个人工智能工厂。这些人工智能工厂浪费了太多的能源。我们希望确保这些人工智能工厂能够以最佳方式协同运作。这些部件大多互不接触。我们大多数技术供应商现在都彼此认识。但过去,我们直到数据中心才相遇。那不可能发生。我们正在构建极其复杂的系统。所以,我们只能在别的地方通过网络见面了。
于是我们创造了 Omniverse 和 Omniverse DSX 世界。一个让我们所有人都能相聚并共同设计这些超级工厂的平台,这些吉瓦级的人工智能工厂实际上已经存在于系统中。我们有用于机架的机械仿真系统,热能、电气、网络。这些仿真系统已集成到我们所有生态系统合作伙伴中。我们也通过并网运行,以便彼此之间能够互动,双方互相发送信息,以便我们能够相应地调整电网功率和数据中心功率,节约能源。
然后在数据中心内部,我们使用 Max-Q 技术,以便能够动态调整系统的功率、冷却以及我们共同研发的所有不同技术,从而避免浪费任何电力。这样我们就能以最佳速率运行,从而提供巨大的代币吞吐量。我毫不怀疑这里面肯定有 2 倍的系数。在我们讨论的这个规模下,2 倍的差距是巨大的。
我们称之为 NVIDIA DSX 平台。就像我们所有的平台一样,它存在硬件层,有库层,也有生态系统层。完全一样。我来给你展示一下。
历史上规模最大的基础设施建设正在进行中。世界各国都在竞相研发芯片和系统,以及人工智能工厂。每延误一个月,就会造成数十亿美元的收入损失。AI 工厂的收入等于每瓦特的代币数。因此,在电力供应有限的情况下,每一瓦未使用的电力都意味着收入损失。
NVIDIA DSX 是一个全方位数字孪生蓝图,用于设计和运营 AI 工厂,以实现最大的代币吞吐量、韧性和能源效率。开发者通过多个 API 进行连接。DSXsim 用于物理、电气、热学和网络仿真,DSXExchange 用于 AI 工厂运营数据,DSXFlex 用于安全,在电网和 DSX Max-Q 之间进行动态功率管理,以动态最大化令牌吞吐量。
它从 NVIDIA 和设备制造商提供的可用于模拟的资产开始,这些资产由 PTC Windchill PLM 管理。然后,在达索系统公司的 3DExperience 中完成基于模型的系统工程。Jacobs 将数据导入其定制的 Omniverse 应用程序以完成设计。它使用领先的仿真工具进行了测试,采用西门子的 Star-CCM+ 进行外部热分析,Cadence Reality 用于内部测试,ETAP 用于电气测试,以及 NVIDIA 的网络模拟器 DSX Air,并通过 Procore 进行虚拟调试,以确保加快施工速度。
网站上线后,数字孪生体就成为运营者。AI 代理与 DSX Max-Q 协同工作,动态协调基础设施。Phaedrus Agent 负责监管冷却和电气系统,向 Max-Q 发送信号,Max-Q 会不断优化计算吞吐量和能源效率。Emerald AI 智能体能够解读实时电网需求和压力信号,并动态调整功率。借助 DSX,NVIDIA 及其合作伙伴生态系统正在竞相在全球范围内构建人工智能基础设施,确保极高的弹性、效率和吞吐量。
真是不可思议,对吧?Omniverse 的设计初衷是承载世界的数字孪生体,从地球开始。它将容纳各种规模的数字孪生体。因此,我们拥有如此优秀的合作伙伴生态系统。我要感谢大家。这些公司对我们来说都是全新的。几年前,我们还不认识你们中的很多人。现在我们正紧密合作,共同研发和建造世界上有史以来最大的计算机,而且要在行星级尺度上实现。所以 NVIDIA DSX 就是我们全新的 AI 工厂平台。
我不会在这上面花太多时间,这次。但是,我们要去太空。我们已经去过太空了。Thor 是经过辐射认证的,我们在卫星上。你通过卫星进行成像。未来,我们还将在太空建设数据中心。显然这样做非常复杂。我们正与合作伙伴共同研发一款名为"Vera Rubin Space One"的新型计算机,它将前往太空,并在太空建立数据中心。在太空中,没有传导,没有对流,只有辐射。所以我们必须想办法给这些系统降温,虽然是在太空,但我们有很多优秀的工程师在研究它。
让我跟你聊点新鲜的。哇哦。Peter Steinberg 在这里,他编写了一款软件,它叫 OpenClaw。我不知道他是否意识到了它会有多成功,但这意义重大。OpenClaw 排名第一,它是人类历史上最受欢迎的开源项目,而且只用了几周时间就做到了。哇哦。它超越了 Linux 在 30 年里取得的成就。这件事就是这么重要。
我们在此宣布支持它。让我快速浏览一下,给你看几样东西。你只需输入这些内容到控制台中,然后它出去,找到了 OpenClaw,它会下载它,然后为你构建一个人工智能代理。然后你就可以告诉它你需要做的其他任何事情了。
一个开源项目刚刚发布。Andrej Karpathy 刚刚推出了一项研究意义重大的项目。你给人工智能代理布置任务,然后就可以睡觉了。它一夜之间运行一百次实验,保留有效的实验结果,剔除无效的实验结果。我非常喜欢我的作品能给别人带来的效果。他身边有个家伙告诉我,比如,他以一位 60 岁老爸的身份安装了它。他们甚至还酿造啤酒,通过蓝牙将机器连接到 OpenClaw,然后实现了所有功能的自动化,包括供人们订购的整个网站。
深圳数百人排队购买 OpenClaw。我们想用 OpenClaw 构建 OpenClaw。大家都在谈论 OpenClaw,但 OpenClaw 到底是什么?信不信由你,已经有 Claw Con 了!
现在,我已经用这种方式有效地说明了 OpenClaw 是什么,以便大家都能理解。但是,我们不妨想想发生了什么事。OpenClaw 是什么?这是一个代理系统。它调用并连接到大型语言模型。所以它首先拥有的是它所管理的资源,它可以访问工具,它可以访问文件系统,它可以访问大型语言模型。它能够进行日程安排,它可以执行定时任务,它能够分解一个问题。你在分步指南中给出的提示,它可以衍生并调用其他子代理。它有输入/输出接口,你可以用任何你喜欢的方式和它对话。你朝它挥挥手,它就能听懂你的话。你可以选择任何你想要的方式进行交流。它会给你发消息,它会给你发短信,会给你发送电子邮件。所以它有 I/O 功能。
基于此,你可以说,实际上,它是一个操作系统。我刚才用的语法和描述操作系统时的语法一样。OpenClaw 实际上已经将智能计算机的操作系统开源了。这与 Windows 系统使我们能够创建个人电脑的方式并无二致。现在,OpenClaw 使我们能够创建个人代理。这其中蕴含的意义令人难以置信。
首先,采用这件事本身就说明了一些问题。然而,最重要的是这一点。现在每一家公司都意识到,每一家软件公司,每一家科技公司,对于首席执行官们来说,问题是:"你们的 OpenClaw 战略是什么?"正因为我们需要这一切。有了 Linux 策略,我们都需要制定 HTTP HTML 策略。互联网诞生之初,我们都需要制定 Kubernetes 策略,这使得移动云成为可能。当今世界的每一家公司都需要制定 OpenClaw 战略和代理系统战略。这是新电脑。
现在,精彩的部分来了。这是 OpenClaw 出现之前的企业 IT。企业 IT 的运作方式以及之所以称之为数据中心的真正原因,是因为这些大型机房。这些大型建筑存储着数据,存储着人们的档案,企业结构化数据。它会通过带有工具,记录系统和所有编纂成册的工作流程。而这些工具最终会变成人类可以使用的工具。数字工作者会使用。那是老旧的 IT 行业。软件公司创建工具、保存文件,全球系统集成商是帮助公司了解如何使用这些工具以及集成这些工具的顾问。这些工具对于治理、安全、隐私和合规性都极其宝贵。所有这些仍然成立。
只是在 OpenClaw 和 agentic 出现之后,事情就会变成这样了。这是最精彩的部分。每一家 IT 公司,每一家 SaaS 公司,都会变成一家 agent 公司。毫无疑问。每一家 SaaS 公司都将变成一家 agent 公司,一家代理即服务公司。
而最神奇的是,OpenClaw 为我们,也为整个行业,提供了它所需要的,就像 Linux 恰好为行业提供了它所需要的一样,Kubernetes 的出现恰逢其时,HTML 代码出现时也是如此。它使得整个行业能够利用这个开源技术栈并加以利用。
但有一个条件。企业网络中的代理系统可以访问敏感信息,它可以执行代码,也可以与外部通信。获取敏感信息、执行代码、对外通信。它可以获取员工信息、供应信息、融资信息等敏感信息,并将其发送出去,对外沟通。显然,这绝对不能被允许。
所以我们就和 Peter 合作。我们汇集了世界上一些最优秀的安全和计算机专家,与 Pieter 合作开发了 OpenClaw。OpenClaw 具备企业级安全性和企业级隐私性。我们称之为 NemoClaw,这是我们为 Open 提供的 NVIDIA OpenClaw 参考文档。NemoClaw 是 OpenClaw 的参考资料,它拥有所有这些智能体人工智能工具包。
其中第一部分是我们称之为 OpenShell 的技术,现在已集成到 OpenClaw 中。现在,它已具备企业级应用条件。这个带有我们称之为 NemoClaw 参考设计的堆栈,您可以使用它进行下载。只要稍加研究,你就能将它与世界上所有 SaaS 公司的策略引擎连接起来。你们的政策引擎非常重要,非常有价值。这样一来,政策引擎就可以连接起来了。NemoClaw 或 OpenClaw 配合 OpenShell 可以执行该策略引擎。它有一个网络护盾,它有一个隐私路由器。因此,我们可以保护并阻止条款在我们公司内部执行,并且安全地做到这一点。
我们还向代理系统添加了一些功能。而你想用自己的 Claw 做的最重要的事情之一就是定制 Claw,这样你就可以拥有自己的定制模型了。这就是 NVIDIA 的开放模型计划。
我们现在正处于人工智能模型各个领域的最前沿。无论是 Nemotron 还是 Kosmos 世界基金会模型,GROOT 通用人形机器人模型,ALPA MIO 用于自动驾驶汽车,VaioNemo 用于数字生物学,在人工智能物理学领域,我们处于 Earth-2 的每一个前沿。世界是多元化的。没有一种模式能够适用于所有行业。开放模型是全球规模最大、最多样化的人工智能生态系统之一。近三百万个跨语言、视觉、生物学、物理学和自主系统的开放模型,为特定领域的人工智能构建提供了可能。
NVIDIA 是开源人工智能领域最大的贡献者之一。我们构建并发布了六个系列的开放式前沿模型,此外还提供培训数据、配方和框架,以帮助开发人员进行定制和采用。全新顶级车型即将上市,满足每个家庭的需求。Nemotron 的核心是语言推理模型,视觉理解、RAG、安全、言语。Kosmos,用于物理人工智能世界生成和理解的前沿模型。ALPA MIO,全球首款具备思考和推理能力的自动驾驶汽车 AI。GROOT,通用机器人的基础模型。VaioNemo,生物学、化学和分子设计的开放模型。Earth-2,源于人工智能物理学的天气和气候预测模型。
NVIDIA 开放模型为研究人员和开发人员提供了构建和部署适用于其各自专业领域的 AI 的基础。我们的模型对你们所有人来说都很有价值,因为首先,它位居排行榜榜首,是世界一流的。但最重要的是,我们不会放弃这项工作。我们会每天坚持不懈地努力。Nemotron Three 之后将会是 Nemotron Four。Kosmos One 之后是 Kosmos Two。GROOT 也会有第二代。我们将继续推进这些模型的每一个发展。
垂直整合,水平开放,以便让每个人都能参与到人工智能革命中来。我们在研究、语音、世界模型、AI 通用机器人、自动驾驶汽车和推理等领域均位列排行榜第一。当然,其中最重要的一个是 OpenClaw 中的 Nemotron Three。在 OpenClaw 中,看看前三名,它们是世界上最好的三个模型。所以,我们正处于前沿阵地。
我们也想创建一个基础模型,以便大家可以对其进行微调和后训练,使其达到你们所需的智能水平。这是 Nemotron Three Ultra。它将成为世界上有史以来最好的基础模型。这使我们能够帮助每个国家构建其自主人工智能。我们正在与很多不同的公司合作。
今天我们正在做的最令人兴奋的事情之一就是,我今天宣布的是,Nemotron 联盟成立了。我们对此非常投入。我们已投入数十亿美元用于人工智能基础设施建设,以便开发人工智能的核心引擎,这些是推理库等所必需的,但也要创建人工智能模型,以激活世界上的每一个行业。
大型语言模型非常重要。人类的智慧怎么可能不是如此呢?然而,在世界各地不同的行业中,在世界各地不同的国家,你需要能够自定义自己的模型和领域。从生物学到物理学,从自动驾驶汽车到通用机器人技术,当然,还有人类语言。我们有能力与每个地区合作,创建其专属领域,他们自己的自主人工智能。
今天,我们宣布成立一个联盟,与我们合作,共同打造更加精彩绝伦的 Nemotron 4。该联盟中拥有一些非常优秀的公司:Blackforest Labs、Cursor、LangChain、Mistral、Perplexity、Reflection、来自印度的 Sarvam、Thinking Machine、Mira Murati 的实验室。加入我们的都是非常优秀的公司。
我说过,世界上每一家软件公司都需要一个代理系统,需要制定代理策略,需要制定一个 OpenClaw 策略,这一点他们都同意。他们都在与我们合作,共同整合 Nemo。Nemo Claw 参考设计,NVIDIA Agentic AI 工具包,当然,还有我们所有的开放模型。一家接一家,太多了。我们正在与你们所有人合作,我对此非常感激。
这是我们的时刻。这是一次彻底的革新,是一场复兴,企业 IT 的复兴。一个价值 2 万亿美元的行业,这将会发展成为一个价值数万亿美元的产业。不仅提供供人们使用的工具,还有专门从事你擅长特定领域的代理人可以租用。
我完全可以想象,未来我们公司的每一位工程师都需要年度代币预算。他们一年能赚几十万美元的基本工资,我大概还会额外给他们一半作为代币。这样他们就可以被放大 10 倍。当然,我们会这样做。它现在是硅谷的招聘工具之一。我的工作能获得多少代币?原因非常明确,因为每个能够使用令牌的工程师都会提高工作效率。
正如你们所知,这些代币将由人工智能工厂生产,而我们所有人都在参与其中,携手共建。因此,如今每一家企业都依赖于文件系统和数据中心。未来每一家软件公司都将是智能体,他们将成为代币制造商。他们会为自己的工程师使用代币,也会为所有客户制造代币。
OpenClaw 的重要性不容低估。这和 HTML 一样重要,这和 Linux 一样意义重大。我们现在拥有一个世界级的开放代理框架,我们所有人都可以用它来构建我们的 OpenClaw 战略。我们创建了一个名为 NemoClaw 的参考设计。NemoClaw,你们所有人都可以使用,而且它性能优异,安全可靠。
说到智能体,感知、推理和行动。我今天谈到的绝大多数智能体都是数字智能体,他们活跃在数字世界。他们进行推理,他们编写软件。一切都是数字化的。但我们长期以来也一直在研究具有物理实体的智能体,我们称它们为机器人。他们需要的 AI 是物理 AI。
我们这里有一些重大消息要宣布。我打算简单走一遍。这里有 110 台机器人。世界上几乎所有制造机器人的公司都在与 NVIDIA 合作。我们有三台计算机:一台是训练计算机,合成数据生成和模拟计算机,当然还有位于机器人内部的机器人计算机。我们拥有实现这一目标所需的所有软件栈,AI 模型可以为您提供帮助。而所有这些都融入了世界各地的生态系统中,以及我们所有的合作伙伴,从西门子到 Cadence,遍布各地的优秀合作伙伴。
今天,我们将宣布一系列全新内容,新合作伙伴。如您所知,我们一直在研究自动驾驶汽车。ChatGPT 所预言的自动驾驶汽车时代已经到来。我们现在知道,我们可以成功实现自动驾驶汽车的行驶。今天,我们宣布 NVIDIA 自动驾驶出租车平台新增四家合作伙伴:比亚迪、现代、日产、吉利,全部在一起,每年生产 1800 万辆汽车,与我们之前的合作伙伴梅赛德斯、丰田、通用汽车携手共进。未来具备自动驾驶出租车功能的汽车数量将会非常惊人。
同时,我们还要宣布与 Uber 建立重要的合作伙伴关系。我们将在多个城市部署这些可作为无人驾驶出租车使用的车辆,并将其接入网络。所以就有了一大批新车。
我们有 ABB、优傲机器人公司、库卡,这里有很多机器人公司。我们正在与他们合作,将我们的物理人工智能模型集成到仿真系统中,以便我们可以将这些机器人部署到各地的生产线上。我们这里有 Caterpillar。这里甚至还有 T-Mobile 的信号,原因在于,未来那座无线电塔,曾经是一座无线电塔,将会是 NVIDIA Aerial AI RAN。所以这将是一座机器人无线电塔。这意味着它可以对交通状况进行推理,找出如何调整其波束成形,以便尽可能节省能源并尽可能提高保真度。
这里有很多人形机器人,但我最喜欢的一个是迪士尼机器人。这样吧,我给你看几个视频。
(机器人视频演示)
全球首次大规模物理人工智能部署已经到来:自动驾驶汽车。借助 NVIDIA ALPA MIO,车辆现在具备了推理能力,帮助他们在各种情况下安全、智能地操作。我们让汽车描述它的行为:"我正在向右变道,继续我的路线。"解释它在做决定时的思考过程。"我的车道上有一辆违章双排停放的车辆,我绕道而行,请按照指示操作。""嘿,梅赛德斯,你能加速吗?""好的,我会加快速度。"
这是物理人工智能和机器人的时代。世界各地的开发者正在制造各种各样的机器人。但现实世界极其多样化,难以预测,充满了各种极端情况。现实世界的数据永远不足以训练出应对所有场景的能力。我们需要由人工智能和模拟生成的数据。对于机器人来说,计算就是数据。
开发人员利用互联网规模的视频和人类演示对世界基础模型进行预训练,并评估模型的性能,为训练后阶段做好准备。他们利用经典模拟和神经模拟,生成海量的合成数据,并大规模地训练策略。为了加速开发者进程,NVIDIA 构建了开源的 ISAAC Lab,用于机器人训练、评估和仿真。用于可扩展和 GPU 加速的可微物理模拟的牛顿算法,Kosmos World 模型用于神经模拟,GROOT Open Robotics Foundation 模型用于机器人推理和动作生成。
凭借足够的计算能力,世界各地的开发者正在缩小物理人工智能数据差距。Peritas AI 在 NVIDIA ISAAC 实验室训练其手术室辅助机器人,他们将数据与 NVIDIA Kosmos 世界模型进行乘法运算。Skilled AI 使用 ISAAC Lab 和 Kosmos 为其 Skilled AI 大脑生成训练后数据,他们利用强化学习来增强模型在数千种变体中的稳定性。Humanoid 使用 ISAAC Lab 来训练全身控制和操作策略。Hexagon Robotics 使用 ISAAC Lab 进行训练和数据生成。富士康和 Noble Machines 都在 ISAAC 实验室中对群模型进行微调。迪士尼研究院利用其在牛顿和 ISAAC 实验室的 Kamino 物理模拟器,在 Kosmos 中训练其角色机器人的策略。
女士们先生们,Olaf!(机器人 Olaf 出场互动)这就是你。
(Olaf 与黄仁勋互动)
通常情况下,我会以讲话结束主题演讲。我们讨论了推理转折点,我们讨论了人工智能工厂,我们讨论了正在发生的 OpenClaw 代理革命,当然,我们也谈到了物理人工智能和机器人技术。不过这样吧,我们为什么不找些朋友来帮我们完成这项工作呢?
(机器人乐队演奏)
欢迎大家来到 GTC!祝你 GTC 玩得开心。谢谢大家!再见,我刚认识的新朋友们。再见!
本文来自微信公众号“后浪进化星球”,作者:Mark,36氪经授权发布。