单卡训练1亿高斯点重建25平方公里城市：CPU「外挂」打破3DGS内存墙

RTX4090+128GB内存=重建25平方公里城市

想用3D高斯泼溅（3DGS）重建一座城市？

过去，这往往意味着一套昂贵的GPU集群。如今，研究人员给出了另一种答案：一张RTX 4090，加上足够大的CPU内存，也可以完成城市级3D重建。

来自纽约大学的研究团队在ASPLOS 2026上提出了名为 CLM（CPU-offloaded Large-scale 3DGS training）的系统。该工作通过将3D高斯泼溅训练中占用显存最多的参数转移到CPU内存中，使单张消费级显卡也能训练上亿规模的高斯点模型，为大场景神经渲染显著降低了硬件门槛。

3DGS的规模应用瓶颈

3D高斯泼溅（3DGS）因其高质量渲染效果和极高的渲染速度，已成为神经渲染领域的重要技术路线。然而，当研究人员尝试将其用于城市街区、大型室内空间等复杂场景时，问题很快显现出来——GPU显存成为最直接、也最难解决的瓶颈。

一个高精度的3DGS模型通常包含数千万乃至上亿个高斯点。每个高斯点包含位置、形状、颜色和不透明度等数十个可学习参数，训练过程中还需同时保存梯度和优化器状态。研究人员指出，即便是RTX 4090这样的24GB显存显卡，也只能容纳约一两千万个高斯点的完整训练状态，远不足以覆盖城市级场景。

在此之前，扩展规模的办法并不理想：要么使用多张GPU并行训练，成本高昂；要么通过压缩、裁剪或分区训练等方式减少高斯数量，但往往以牺牲重建质量为代价。

显存中绝大多数高斯闲置

CLM的出发点来自一个对训练过程的系统级观察。

研究人员发现，在3DGS训练的每一次视角渲染中，真正参与计算的高斯点只占整个场景的极小一部分。在大规模场景下，单帧图像通常只会访问不到1%的高斯点，其余绝大多数参数在该步训练中并未被使用。

基于这一现象，他们提出了CLM的设计思路，即不再将所有高斯参数常驻显存，而是在需要时按视角动态加载。

以系统协同解决显存瓶颈

CLM并不是简单地把数据从GPU搬到CPU，而是一套围绕CPU–GPU协同设计的系统方案。研究人员将其总结为三项关键机制。

一、属性分割：只把“关键属性”留在GPU

在CLM中，每个高斯点的59个可学习参数被分为两类。

其中，用于视锥剔除和可见性判断的“关键属性”——包括位置、旋转和缩放（共10个浮点数）——被永久保存在GPU显存中。这部分数据仅占单个高斯内存占用的不到20%，足以判断该高斯是否会在当前视角中被使用。

其余约80%的“非关键属性”，如球谐系数、不透明度及其优化器状态，则被卸载到容量更大的CPU内存中，仅在需要时才被加载到GPU。

二、预渲染视锥剔除与选择性加载

与传统3DGS将视锥剔除逻辑融合进渲染内核不同，CLM在渲染前显式计算当前视角中可见的高斯点索引。

系统首先利用GPU中常驻的关键属性完成快速视锥裁剪，然后只从CPU内存中加载这些可见高斯点的完整参数，再交由GPU执行渲染与反向传播。这一做法显著减少了GPU对不可见高斯的无效计算和内存占用。

这一转变，将问题从“买更大的GPU显存”变成了“充分利用已有的CPU内存”。

值得注意的是，CLM实现中包含的“预渲染视锥剔除”技术本身也是一个独立的优化。传统3DGS将视锥剔除与渲染内核融合，导致GPU线程对大量不在视锥内的高斯点进行无效计算。CLM改为在渲染前显式计算出在视锥内的高斯点索引，仅将这些点输入渲染内核，从而减少了GPU计算量和内存占用。这一技术同样可以应用于无卸载的GPU-only训练，并带来性能提升。

三、如何让CPU帮忙又不拖后腿？

CPU参与训练最容易引发的问题，是频繁的数据传输拖慢整体速度。

CLM通过多层系统设计缓解这一风险：

1.微批次流水线：将一个训练批次拆分为多个微批次（通常每个微批次对应一张图像），通过双缓冲和异步执行，将微批次i+1的参数加载与微批次i的GPU反向传播重叠，将微批次i的梯度存储与微批次i+1的GPU前向传播重叠。这种设计使得激活内存占用与批次大小无关，并有效隐藏了通信延迟。

2. 缓存机制：利用连续视角之间的空间局部性，缓存重复使用的高斯点，避免反复从CPU加载相同数据。

3. 智能调度：研究团队甚至将渲染顺序建模为一个“旅行商问题”（TSP），通过算法寻找高斯点重用率最高的视角排列，从而最大化缓存命中、最小化数据搬运。

通过这一系列设计，使CPU不再只能作为辅助性的“慢速仓库”，而成为可以与GPU高效协同的计算资源。

实测结果：单卡RTX 4090，规模放大6.7倍，质量同步提升

效果如何？论文中的实验数据给出了有力证明：

规模突破：CLM技术在几乎任何场景中都能显著增大模型尺寸。

在“MatrixCity BigCity”这个面积达25.3平方公里的城市级航拍数据集上，传统GPU-only方法在RTX 4090上最多只能训练1530万个高斯点（否则显存溢出）。而CLM利用CPU内存，成功训练了1.022亿个高斯点，模型规模扩大了6.7倍，比RTX 4090显卡上仅使用卸载功能时大2.2倍。

质量提升：更多的参数带来了更精确的重建。1.022亿高斯点模型的渲染PSNR（峰值信噪比）达到25.15dB，显著优于1530万点模型的23.93dB。

速度可控：尽管有通信开销，但凭借精心设计的重叠计算，CLM在RTX 4090上的训练吞吐量仍能达到增强型基线吞吐量的55%至90%。在计算较慢的RTX 2080 Ti上，由于GPU计算时间更能掩盖通信延迟，吞吐量甚至能达到基线的86%至97%。

通用性强：该方案与具体后端渲染引擎（gsplat，inria-3dgs等）无关，并可扩展至其他splatting算法微调方式（2DGS、mesh-splatting）。

为3D大规模重建“降本增效”

从研究定位来看，CLM是一项直接面向真实部署瓶颈的系统工程研究，其核心贡献在于首次系统性地将CPU内存和计算资源，纳入了3DGS训练的资源分配体系中，在不依赖多GPU集群的条件下，为学术界和工业界进行超大规模场景重建提供了一种高性价比的可行路径。

从产业角度，随着数字孪生、大规模地图重建等应用需求不断增长，对高效、低成本3D重建工具有着迫切需要，能在现实硬件条件下稳定扩展规模对相关工作的开展非常有利。CLM通过软硬件协同的方式，对既有计算资源进行重新组织，展示了在不增加专用硬件投入的情况下推进3DGS实用化的可能方向。

目前，该项目的代码已在GitHub上开源，并提供了从快速上手到极端压力测试的完整教程。作者简介：赵和旭，纽约大学科朗研究所博士生，致力于机器学习系统研究，2023毕业于清华大学姚班；闵熙雯，纽约大学科朗研究所硕士生，2023年毕业于上海交通大学（其余作者信息详见论文）。

项目导师：李金阳教授和Aurojit Panda教授

论文链接：https://arxiv.org/abs/2511.04951

项目主页：https://tarzanzhao.github.io/CLM-GS

代码仓库：https://github.com/nyu-systems/CLM-GS

本文来自微信公众号“量子位”，作者：非羊，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

单卡训练1亿高斯点，重建25平方公里城市：3DGS内存墙被CPU「外挂」打破了