Hermes团队改写预训练：算力成本直降六成，继DeepSeek后开启提效新路径

论文阅读量破 41 万！不改模型架构，也能把成本打下来。

模型能力 还需往上走，但训练成本 却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。

从开发者到模型公司，大家关心的焦点已经 不只是“谁家的模型更强”，而是一个更务实的问题：“同样多的 GPU、同样的训练时间，能不能跑出更多有效实验，吃进更多有效数据，拿到更好的 loss 和下游指标？”

凭借 Hermes Agent （140K Star）火速出圈的 Nous Research 团队，刚刚提出了一种 Token 叠加训练方法：Token Superposition Training （TST），有望把大模型的预训练成本压低一个量级。

目前，该贴的浏览量已突破 41 万。Hugging Face: http://huggingface.co/papers/2605.06546

在论文《Efficient Pre-Training with Token Superposition》中，最值得关注的是一组百亿参数 MoE 实验（Qwen3-like 10B-A1B MoE），效果非常直观：

baseline 训练 1.05T tokens 消耗 12311 B200-hours；
而 TST 训练 2T tokens，仅消耗 4768 B200-hours，约为 baseline 的 38.7%；
与此同时，final loss 从 2.252 降至 2.236，HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 评测同步提升。

换言之，TST 只用了 约四成 GPU 时间，就跑出了更低的 loss 和更好的下游指标。 相当于在相同最终损失下将预训练时间压缩到原来的 40%，提速约 2.5 倍。

如果说，超越龙虾（OpenClaw）、登顶全球 OpenRouter 的 Hermes Agent，证明了 Nous Research 团队既会训模型，也能用 Agent 把能力调教到极致；那么最新提出的 TST，则是把视线从“模型怎么用”，进一步拉回了能力的源头，直击预训练本身。

之所以将 Nous Research 与 DeepSeek 对标，不只是因为这支美国团队同样 长期坚守开源阵营，更因二者的降本路线截然不同。

DS 代表的是系统级重构，无论是 MoE、MLA，还是稀疏化与并行优化，皆靠系统级工程压榨算力。效率提升从来不是免费的，工程总要在别处为复杂度买单。

而 NR 则是重写预训练早期的学习路径。它 不碰架构，从模型学习 token 的方式本身下手，切口更轻巧，更容易落地。

TST：让模型先“粗读”，再“精读”

要理解 TST，让我们先回到预训练最基础的动作：next-token prediction（下一个词元的预测）。

标准训练里，模型看到前面的 token，预测下一个 token。这个机制很简单，也很强。过去几年，几乎所有主流 LLM 都是在这个范式上堆出来的。

但 TST 提出了一个很朴素的问题：模型在预训练一开始，真的有必要逐 token 精读吗？

NR 的答案是：不一定。他们把预训练拆成两个阶段。

图注：TST 与标准 next-token prediction、MTP、SuperBPE 的对比。TST 在训练早期同时改变输入粒度和输出监督目标，但不改变最终模型架构

第一阶段叫 superposition phase（“词元叠加阶段”）。在训练前期，模型不再一个 token 一个 token 地读文本，而是把连续多个 token 打成一个 bag。比如 bag size 为 8，就把连续 8 个 token 看作一组。

输入侧，模型会把这一组 token 的 embedding （“向量表示”）求平均，变成一个压缩后的 superposed token（“叠加词元”）。输出侧，模型也不再预测下一个单独 token，而是预测下一组 token 里会出现哪些 token。

第二阶段叫 recovery phase（“恢复阶段”）。训练跑到一定比例后，TST 被移除，模型重新回到标准 next-token prediction。也就是说，后半程还是按照普通 LLM 的方式训练，把前期“粗粒度学习”得到的表示，拉回到可生成、可部署的自回归模型形态。

论文把 TST 称为一个 drop-in pretraining method（“即插即用式预训练方法”），重点就在这里：它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构，真正改变的是训练早期的输入粒度和监督目标。

这也是它和很多训练提效方案不一样的地方：TST 只改变训练过程，不改变推理模型。

目前很多方法一旦触及训练端优化，就会牵动推理。比如换 tokenizer，生态兼容要重来；改模型结构，部署链路要适配；改注意力或推理机制，线上服务也要跟着调整。

但 TST 是 把复杂度留在训练阶段，最终交付的仍然是一个普通 LLM。

当然，只用 TST 训练是不够的。论文也明确指出，如果模型全程只用 TST，它会输出多个未来 token 的混合概率，生成结果会变得混乱。因此，TST 必须在后期切回标准自回归训练。

这也解释了为什么 TST 更适合被理解为一种“阶段化训练策略”，而不是 next-token prediction 的替代品。

更直白地说，TST 做的事情有点像让模型在预训练早期先“粗读”：先学习局部语义、词汇共现和粗粒度分布；等基础表示建立起来之后，再回到逐 token 的标准自回归训练，把生成能力和 token 级精度补回来。

也就是，训练时压缩 token，推理时还是普通 LLM。

为什么能省 GPU？每一步都吃进更多文本

TST 的提速不是玄学。它的核心是一种资源取舍，用更粗的 token 表示，换更高的数据吞吐。

这里的数据吞吐，对应论文里的 data throughput per FLOPs，可以理解为“单位计算量能处理多少原始文本”。换句话说，不是 GPU 忽然变快了，而是同样算一次，模型能看见更多文本。

标准训练中，模型每个位置处理一个 token，序列长度为 L，Transformer 就要处理 L 个表示。

但在 TST 的 superposition phase，连续 s 个 token 被合成一个 superposed token。模型内部处理的序列长度变短了，但每个位置对应的原始文本却变多了。

因为模型是在更粗粒度的表示上计算，所以在相同 FLOPs（浮点计算量），它可以处理 s 倍的数据 token。

图注：在 3B 模型实验中，TST 在 equal-loss 设置下用更少训练步数达到 baseline loss，说明其主要收益来自训练早期更高的数据吞吐

传统预训练像逐字精读；而 TST 的早期训练则像是先快速扫一遍段落，抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后，再切回逐字精读。

这种“粗读”并非没有代价——它会丢失 bag 内的词序信息，所以不能全程使用。但在模型刚接触语言统计结构时，这种低分辨率输入反而够用且高效。

论文将此定义为一种 coarse-to-fine（由粗到细） 的策略：先让模型在简单、高吞吐的分布中学习粗粒度统计结构，再恢复全分辨率语言建模。

这与当前主流的效率路线截然不同：MoE 是让每个 token 少激活参数；稀疏注意力 是让每个 token 少看位置；MTP（Multi-Token Prediction，多 token 预测）是让每个位置多预测几个未来 token；而 TST，是让模型在训练早期换一种 token 粒度学习。

它不是让模型变小，也不是直接让推理变快，而是让预训练早期的每一步都更“值钱”。

这对开发者至关重要。预训练不是一锤子买卖，而是不断试错的过程。早期训练越快进入有效区间，数据配方、超参设置这些实验就能越早得到验证。

说白了，TST 省下的不只是一次训练的 GPU 小时，更是整个实验周期的试错成本。

最大收益来自百亿参数模型

论文没有只做小模型实验，而是在 270M、600M、3B 稠密模型，以及 10B-A1B MoE 上进行了验证。这里的 10B-A1B MoE，即总参数约 100 亿、每 token 激活约 10 亿参数的 MoE 模型。正如开篇提及的，这是收益最大的受试模型。

图注：TST 在不同规模模型上的核心实验结果

图注：在 10B-A1B MoE 实验中，TST 将 B200 GPU 训练时间消耗降到 baseline 的四成左右，并取得更低 loss 和更好的 0-shot 指标

也就是说，TST 消耗了更多数据 token，但用更少 GPU 时间达到了更好的结果。论文指出，在相同 loss 口径下，TST 对应约 2.5 倍提速。

这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练，而是成功之前的所有试错。一次实验少用一半以上 GPU 时间，意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。

论文还做了多组小规模超参数扫描实验，也就是 sweep，观察不同 bag size 和 superposition step ratio 的影响。最终作者认为，在合理范围内，TST 对超参选择相对稳健：bag size 在 4 到 8，superposition 训练步数比例在 0.2 到 0.4 时，通常表现较好。

图注：不同 bag size 和训练比例下，TST 在 loss 与下游评测上都呈现相对稳定收益

另外，TST 并非单一机制在起作用。

论文做了输入侧、输出侧和完整 TST 的消融实验：输入侧和输出侧单独使用时都能优于 baseline，但完整 TST 效果最佳。作者据此指出，TST 是两个机制的叠加：输入侧改变了输入粒度和单位信息的 FLOPs 成本；输出侧改变了预测目标与梯度信号。

这套机制的启发意义在于，输入侧作为在训练早期，给到模型一个低分辨率视野，让它以更低成本接触更多文本；输出侧则像是把监督信号从“下一个 token 是什么”改成“接下来这一小段大概会出现哪些 token”。前者提高吞吐，后者提高监督密度。

这也是为什么 TST 和 MTP 看起来有点像，但本质不完全一样。

MTP 更像是在同一个位置额外预测多个未来 token；TST 则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目，一个是改变学习分辨率。

训练降本开始转向学习路径优化

TST 最大的看头，不是它设计了多复杂的新架构，而是它点醒了一件事：训练降本，别总盯着模型结构开刀。

过去一提降本，大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活，家里没有余粮的团队根本接不住。但这次，TST 给了一个轻得多的切口：只调整预训练早期的学习路径。

这意味着什么？

同样多的 GPU 预算能多试几轮配方，1B 到 10B 级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说，这比硬刚前沿最新模型务实得多。

当然，TST 也不是免费午餐。

它本质上是“拿数据吞吐换 GPU 时间”，如果你是算力受限的团队，这招极香；但如果你连高质量数据都喂不饱，那 TST 不仅帮不上忙，甚至可能放大数据短板。

但这不影响它的方向价值。

TST 把一个被默认太久的问题重新拎了出来：模型学习语言的顺序，本身也可能是一种效率杠杆。

当模型越来越贵，真正有价值的创新不只是把模型做大，而是让模型更会学习。更准确地说，是让每一步训练都更值钱。

参考链接：

Paper: http://arxiv.org/abs/2605.06546

HF: http://huggingface.co/papers/2605.06546

Blog: http://nousresearch.com/token-superposition

本文来自微信公众号“AI前线”，作者：四月，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

Hermes团队改写预训练：算力成本降六成，DeepSeek之后提效新路径

TST：让模型先“粗读”，再“精读”

为什么能省 GPU？ 每一步都吃进更多文本

最大收益来自百亿参数模型

训练降本开始转向学习路径优化

为什么能省 GPU？每一步都吃进更多文本