黄仁勋送马斯克的3万块个人超算,要借Mac Studio才能流畅运行?首批真实体验来了
2000 亿参数、3 万块人民币、128GB 内存,这台被称作「全球最小超算」的机器,真的能让我们在桌面上跑起大模型吗?
前段时间,黄仁勋正式把这台超算送到马斯克手上,而后也亲自去到 OpenAI 总部,送给奥特曼。从 CES 登场到如今落地,这台个人超算终于要来到我们手上。
官网发售情况,售价 3999 美元,也提供了华硕、联想、戴尔等七个电脑品牌的发售版本;链接:https://marketplace.nvidia.com/en-us/developer/dgx-spark/
NVIDIA DGX Spark,一台个人 AI 超级计算机,目标用户是科研人员、数据科学家和学生等,为他们提供高性能桌面级 AI 计算能力,帮助他们完成 AI 模型的开发和创新。
听着很强大,但普通人能想到的玩法,无非还是:
- 本地跑大模型:跟它聊天的内容只留在自己电脑里,绝对安全。
- 本地搞创作:不受限制地生成图片和视频,告别会员和积分。
- 打造私人助理:把自己的资料都喂给它,训练一个只懂你的「贾维斯」。
部分显卡租赁平台显示的 A100 售价为 7元/时
实际上,DXG Spark GB10 Grace Blackwell 超级芯片的能力,或许可以拓展它的应用场景,但是具体能做些什么?又做得怎么样?3 万块的售价,能租 4000 小时的 A100,你真会把它放在桌上跑跑大模型吗?
我们收集了目前网络上关于 DGX Spark 多个详细评测,试图在我们的实际体验之前,带大家看看这台设备,到底值不值 3 万块。
太长不看版:
1. 性能定位:轻量模型表现出色,1200 亿参数的大模型也能稳稳跑起来。总体水平介于 RTX 5070 和 RTX 5070 Ti 之间。
2. 最大短板: 273 GB/s 内存带宽是限制。算力足够,但数据传输慢。体验就像一个脑子转得飞快但说话结巴的人。
3. 邪修玩法:用一台 Mac Studio M3 Ultra 来「辅佐」它。DGX Spark 负责快速思考,Mac Studio 负责流畅表达,强行解决「结巴」问题。
4. 生态丰富:官方提供了超过 20 种开箱即用的玩法,从生成视频到搭建多智能体助手,AI全家桶都给你配齐了。
只比 Mac Mini 强一点点?
话不多说,先看数据。
每秒处理填充和解码的平均 token 数量,DGX Spark 排在 RTX 5080 后,图片由 ChatGPT 制作
DGX Spark 对比 Mac Mini M4 Pro 还是要强上不少,尤其是在 Prefill 阶段。但是在 Decode 阶段,优势就没有这么明显了。Mac Mini M4 Pro 在 DeepSeek R1 开源模型上的 平均TPS 能做到 17.8,而 DGX Spark 也才 33.1。
快速做个名词解释,来看看 AI 推理的两个阶段到底是什么
简单来说,当我们在 AI 聊天框里输入问题,模型生成答案的过程可以分为两个关键步骤:
1. Prefill(预填充/阅读理解阶段)
AI 拿到我们的问题后,快速阅读和理解你输入的每一个字(即提示词)。
这个阶段处理得越快,我们等待 AI 吐出第一个字的时间就越短,也就是常用来宣传 AI 能力的指标,首字响应时间,TTFT(Time To First Token, TTFT) 越短。
Apple 宣传 M5 芯片能力使用首词元相应速度
2. Decode(解码/生成答案阶段)
就像 AI 已经想好了答案,开始逐字逐句地打字输出给我们。
决定 AI 打字的速度,也就是我们常说的 TPS(每秒生成词元数)。这个数值越高,我们看到答案完整显示的速度就越快。
💡 Tips:什么是 TPS?
TPS 是 Token Per Second(每秒处理词元数)的简称,可以理解为 AI 的工作效率或打字速度。
Prefill 阶段的 TPS: 代表 AI 读懂问题的速度。
Decode 阶段的 TPS: 代表 AI 给我们生成答案的速度。
所以 DGX Spark 在给我们回答时,第一个字很快能出来,但是后续它的打字速度,很慢。要知道,Mac Mini M4 Pro 的价格才 10999 元,24GB 统一内存的版本。
为什么会这样?这项测试是由大模型竞技场的团队 LMSYS,在他们的 SGLang 项目和 Ollama 上,选择上图中六个不同的设备,运行多个开源大语言模型完成的。
SGLang 是由 LMSYS 团队开发的高性能推理框架,FP8、MXFP4、q4_K_M、q8_0 是指大语言模型的量化格式,即对大模型进行压缩,用不同的二进制存储方式
测试的项目包括了 1200 亿参数的本地大模型,也有 80 亿的较小模型,此外 Batch Size 批次大小和 SGLang 与 Ollama 两种框架的差别,都会对 DGX Spark 的表现,产生不同的影响。
例如,评测团队提到,DGX Spark 在批次大小为 1 时,每秒解码的次元数只有 20 个,但是当批次大小设置为 32,每秒解码词元上升到 370。
一般来说,批次大小设置越大,每次要处理的内容越多,对 GPU 的性能要求越高。
而 DGX Spark 的 AI 能力,根据其所采用的 GB10 Grace Blackwell 芯片架构,以及 1 PFLOP 的稀疏 FP4 张量的性能,定位是在 RTX 5070 和 RTX 5070 Ti 之间。
所以开头那张显示结果的图,其实并不能全面的展示 DGX Spark 的能力,因为它平均了所有模型测试的结果。但不同批次大小的模型推理、以及不同参数的模型,它最终展示出的性能,都会有所不同。
综合来看,DGX Spark 的优点是:
- 算力强:能处理大批量任务,AI 核心能力在 RTX 5070 级别。
- 内存大:128GB 的海量内存,让它能轻松运行千亿级别的大模型。
但它的短板,致命且清晰——带宽。
Prefill 阶段拼的是算力(脑子快不快),Decode 阶段拼的则是带宽(嘴巴快不快)。
DGX Spark 的问题就是:脑子(算力)很快,但嘴巴(带宽)跟不上。
打个比方,它的数据通道就像一根细水管:
- DGX Spark 用的内存是 LPDDR5X(手机和笔记本电脑常用),带宽只有 273 GB/s。
- 作为对比,高端游戏显卡 RTX 5090 用的 GDDR7 内存,带宽高达 1800 GB/s,那是一根消防水管。
这就是为什么 DGX Spark 在打字阶段(Decode)表现平平的根本原因。
LMSYS 将评测的详细结果放在了 Google 文档中,我们把数据交给 Kimi 智能体,得到了一份详细的可视化报告,原始数据的预览,也可以点击 Kimi 预览报告下载选项获取。
https://www.kimi.com/chat/199e183a-7402-8641-8000-0909324fe3fb
带宽限制?连接一台 Mac Studio 破解
带宽是短板,但已经有更极客的团队,找到了榨干 DGX Spark 全部算力的方法。
那就是找一个带宽更快的桌面设备,Mac Studio M3 Ultra,利用其 819 GB/s 的速度,把大模型的推理速度愣是整体提升了 2.8 倍。
拿到两台 DGX Spark 早期访问权限的 EXO Lab,就直接把大模型推理的 Prefill 和 Decode 两个阶段,分别给了 DGX Spark 和 Mac Studio 来承担,这又叫做 PD 分离。
和我们之前介绍的预填充、解码两个阶段一样,一个依赖算力,一个依赖带宽。如上图所示,黄色代表预填充阶段,它决定着 TTFT,首个次元生成时间;而蓝色代表解码阶段,它决定了 TPS,每秒生成的词元数。
EXO Lab 的做法就是将 Decode 交给 Mac Studio。
但 PD 分离的实现也不并不简单,EXO 团队要解决的还有一个问题,如何将 DGX Spark 设备上,预填充阶段生成的内容(KV 缓存),传输到处理解码的设备上。
这部分数据量很大,如果两台设备之间,传输时间太长,甚至可能会抵消性能提升的效果。
EXO 的答案是:流水线式分层计算与传输。DGX Spark 在处理第一层预填充时,计算出的 KV 缓存会立即开始传输给 Mac Studio,而 DGX Spark 则继续进行第二层的预填充工作。
这种分层流水线的方式,能让计算和数据传输的时间完全重叠。最终,当所有层的预填充完成,Mac Studio 已经拿到完整的 KV 缓存,可以立即开始解码。
虽然这套方案,在某种程度上解决了 DGX Spark 带宽限制的问题,提升了 3 倍的速度,但是费用也涨了 3 倍。两台 DGX Spark 和一台 Mac Studio M3 Ultra 的费用,快接近 10 万元人民币。
如果还是用来跑一个本地大模型,未免太过于杀鸡用牛刀。
性能评测之外,还能做些什么
273 GB/s 的带宽,也并不是 DGX Spark 的全部,128GB 的统一内存,用在数据中心级别的 GB10 架构显卡,支持每秒一千万亿次计算(1 Petaflop),以及桌面级设计,都有机会拓展它的应用场景。
我们在 YouTube 上找了一些博主的开箱和上手体验视频,一起看看这台优点和短板都很明显的设备,可以做点什么。
本地 AI 视频生成
生文模型现在基本上都免费使用,但是生视频的模型,大多数都需要充值会员,或者积分制。
博主 BijianBowen 利用 ComfyUI 框架,以及阿里的 Wan 2.2 14B 文本到视频模型,直接根据 DXG Spark 官方的 Playbooks(操作指南),配置了一个视频生成项目。
NVIDIA DGX Spark – 非赞助的评测(与 Strix Halo 对比、优缺点)视频来源:https://youtu.be/Pww8rIzr1pg
在视频生成过程中,他提到即使命令后显示 GPU 的温度已经达到了 60-70 摄氏度,但是听不到一点噪音,风扇转动的声音也没有。
大部分博主有提到,DGX Spark 确实比较「安静」,设备拆解相当工整,来自 storagereview.com
除了用在视频生成和图像生成的 ComfyUI 提供了在 DGX Spark 上操作的指南,还有在本地运行大模型的桌面工具 LM Studio,也发布了博客提到支持 DGX Spark。
工具调用,搭建多智能体聊天机器人
Level1Techs 分享了自己用 DGX Spark 并行运行,多个 LLMs 和 VLMs,来实现智能体之间的交互。
深入探讨英伟达的 DGX Spark,视频来源:https://youtu.be/Lqd2EuJwOuw
得益于 128GB 的大内存,他可以选择 1200 亿参数的 GPT-OSS、67 亿的 DeepSeek-Coder、以及 Qwen3-Embedding-4B 和 Qwen2.5-VL:7B-Instruct 四个模型,来处理不同的任务。
这个项目也是 Nvidia 官方提供的指南,在他们官网,提供了超过 20 种玩法,并且每一种用法,都给出了预计需要的时间,以及详细的步骤。
https://build.nvidia.com/spark
像是搭建一个文本到知识图谱的系统,把非结构化文本文档,转换为结构化知识结点。
视频搜索和摘要总结。
我们在 Reddit 上也发现一些拿到了 DGX Spark 的用户,开启了 AMA(Ask Me Anything) 活动。博主分享了自己的测试结果,同样提到 AI 能力对标 RTX 5070。
还有有人问,是否可以运行一波 Karpathy 新推出的 nanochat 项目。
https://www.reddit.com/r/LocalLLaMA/comments/1o7gpr8/got_the_dgx_spark_ask_me_anything/
后续应该还会有更多 DGX Spark 的基准测试结果,和更全面的使用指南更新,APPSO 的 DGX Spark 正快马加鞭赶来。
DGX Spark 的存在,看起来更像是 AI 狂飙时代下的一个实验,一台数据中心级算力的桌面机器,试探着我们对本地 AI 的幻想边界。
真正的问题除了 DGX Spark 能不能跑,还有当我们每个人都能拥有一台超算时,我们可以拿它做什么。
本文来自微信公众号“APPSO”,作者:发现明日产品的,36氪经授权发布。