Hermes团队改写预训练:算力成本降六成,DeepSeek之后提效新路径
模型能力 还需往上走,但训练成本 却不能再无止境堆砌了——这可能是当前 AI 行业最强烈的共识。
从开发者到模型公司,大家关心的焦点已经 不只是“谁家的模型更强”,而是一个更务实的问题:“同样多的 GPU、同样的训练时间,能不能跑出更多有效实验,吃进更多有效数据,拿到更好的 loss 和下游指标?”
凭借 Hermes Agent (140K Star)火速出圈的 Nous Research 团队,刚刚提出了一种 Token 叠加训练方法:Token Superposition Training (TST),有望把大模型的预训练成本压低一个量级。
目前,该贴的浏览量已突破 41 万。Hugging Face: http://huggingface.co/papers/2605.06546
在论文《Efficient Pre-Training with Token Superposition》中,最值得关注的是一组百亿参数 MoE 实验(Qwen3-like 10B-A1B MoE),效果非常直观:
- baseline 训练 1.05T tokens 消耗 12311 B200-hours;
- 而 TST 训练 2T tokens,仅消耗 4768 B200-hours,约为 baseline 的 38.7%;
- 与此同时,final loss 从 2.252 降至 2.236,HellaSwag、ARC-E、ARC-C、MMLU 等 0-shot 评测同步提升。
换言之,TST 只用了 约四成 GPU 时间,就跑出了更低的 loss 和更好的下游指标。 相当于在相同最终损失下将预训练时间压缩到原来的 40%,提速约 2.5 倍。
如果说,超越龙虾(OpenClaw)、登顶全球 OpenRouter 的 Hermes Agent,证明了 Nous Research 团队既会训模型,也能用 Agent 把能力调教到极致;那么最新提出的 TST,则是把视线从“模型怎么用”,进一步拉回了能力的源头,直击预训练本身。
之所以将 Nous Research 与 DeepSeek 对标,不只是因为这支美国团队同样 长期坚守开源阵营,更因二者的降本路线截然不同。
DS 代表的是系统级重构,无论是 MoE、MLA,还是稀疏化与并行优化,皆靠系统级工程压榨算力。效率提升从来不是免费的,工程总要在别处为复杂度买单。
而 NR 则是重写预训练早期的学习路径。它 不碰架构,从模型学习 token 的方式本身下手,切口更轻巧,更容易落地。
TST:让模型先“粗读”,再“精读”
要理解 TST,让我们先回到预训练最基础的动作:next-token prediction(下一个词元的预测)。
标准训练里,模型看到前面的 token,预测下一个 token。这个机制很简单,也很强。过去几年,几乎所有主流 LLM 都是在这个范式上堆出来的。
但 TST 提出了一个很朴素的问题:模型在预训练一开始,真的有必要逐 token 精读吗?
NR 的答案是:不一定。他们把预训练拆成两个阶段。
图注:TST 与标准 next-token prediction、MTP、SuperBPE 的对比。TST 在训练早期同时改变输入粒度和输出监督目标,但不改变最终模型架构
第一阶段叫 superposition phase(“词元叠加阶段”)。在训练前期,模型不再一个 token 一个 token 地读文本,而是把连续多个 token 打成一个 bag。比如 bag size 为 8,就把连续 8 个 token 看作一组。
输入侧,模型会把这一组 token 的 embedding (“向量表示”)求平均,变成一个压缩后的 superposed token(“叠加词元”)。输出侧,模型也不再预测下一个单独 token,而是预测下一组 token 里会出现哪些 token。
第二阶段叫 recovery phase(“恢复阶段”)。训练跑到一定比例后,TST 被移除,模型重新回到标准 next-token prediction。也就是说,后半程还是按照普通 LLM 的方式训练,把前期“粗粒度学习”得到的表示,拉回到可生成、可部署的自回归模型形态。
论文把 TST 称为一个 drop-in pretraining method(“即插即用式预训练方法”),重点就在这里:它不需要修改并行策略、优化器、tokenizer、训练数据或模型架构,真正改变的是训练早期的输入粒度和监督目标。
这也是它和很多训练提效方案不一样的地方:TST 只改变训练过程,不改变推理模型。
目前很多方法一旦触及训练端优化,就会牵动推理。比如换 tokenizer,生态兼容要重来;改模型结构,部署链路要适配;改注意力或推理机制,线上服务也要跟着调整。
但 TST 是 把复杂度留在训练阶段,最终交付的仍然是一个普通 LLM。
当然,只用 TST 训练是不够的。论文也明确指出,如果模型全程只用 TST,它会输出多个未来 token 的混合概率,生成结果会变得混乱。因此,TST 必须在后期切回标准自回归训练。
这也解释了为什么 TST 更适合被理解为一种“阶段化训练策略”,而不是 next-token prediction 的替代品。
更直白地说,TST 做的事情有点像让模型在预训练早期先“粗读”:先学习局部语义、词汇共现和粗粒度分布;等基础表示建立起来之后,再回到逐 token 的标准自回归训练,把生成能力和 token 级精度补回来。
也就是,训练时压缩 token,推理时还是普通 LLM。
为什么能省 GPU? 每一步都吃进更多文本
TST 的提速不是玄学。它的核心是一种资源取舍,用更粗的 token 表示,换更高的数据吞吐。
这里的数据吞吐,对应论文里的 data throughput per FLOPs,可以理解为“单位计算量能处理多少原始文本”。换句话说,不是 GPU 忽然变快了,而是同样算一次,模型能看见更多文本。
标准训练中,模型每个位置处理一个 token,序列长度为 L,Transformer 就要处理 L 个表示。
但在 TST 的 superposition phase,连续 s 个 token 被合成一个 superposed token。模型内部处理的序列长度变短了,但每个位置对应的原始文本却变多了。
因为模型是在更粗粒度的表示上计算,所以在相同 FLOPs(浮点计算量),它可以处理 s 倍的数据 token。
图注:在 3B 模型实验中,TST 在 equal-loss 设置下用更少训练步数达到 baseline loss,说明其主要收益来自训练早期更高的数据吞吐
传统预训练像逐字精读;而 TST 的早期训练则像是先快速扫一遍段落,抓住局部主题、词汇共现和语义分布。等模型建立起基础表示后,再切回逐字精读。
这种“粗读”并非没有代价——它会丢失 bag 内的词序信息,所以不能全程使用。但在模型刚接触语言统计结构时,这种低分辨率输入反而够用且高效。
论文将此定义为一种 coarse-to-fine(由粗到细) 的策略:先让模型在简单、高吞吐的分布中学习粗粒度统计结构,再恢复全分辨率语言建模。
这与当前主流的效率路线截然不同:MoE 是让每个 token 少激活参数;稀疏注意力 是让每个 token 少看位置;MTP(Multi-Token Prediction,多 token 预测)是让每个位置多预测几个未来 token;而 TST,是让模型在训练早期换一种 token 粒度学习。
它不是让模型变小,也不是直接让推理变快,而是让预训练早期的每一步都更“值钱”。
这对开发者至关重要。预训练不是一锤子买卖,而是不断试错的过程。早期训练越快进入有效区间,数据配方、超参设置这些实验就能越早得到验证。
说白了,TST 省下的不只是一次训练的 GPU 小时,更是整个实验周期的试错成本。
最大收益来自百亿参数模型
论文没有只做小模型实验,而是在 270M、600M、3B 稠密模型,以及 10B-A1B MoE 上进行了验证。这里的 10B-A1B MoE,即总参数约 100 亿、每 token 激活约 10 亿参数的 MoE 模型。正如开篇提及的,这是收益最大的受试模型。
图注:TST 在不同规模模型上的核心实验结果
图注:在 10B-A1B MoE 实验中,TST 将 B200 GPU 训练时间消耗降到 baseline 的四成左右,并取得更低 loss 和更好的 0-shot 指标
也就是说,TST 消耗了更多数据 token,但用更少 GPU 时间达到了更好的结果。论文指出,在相同 loss 口径下,TST 对应约 2.5 倍提速。
这已经足够打动开发者。因为模型训练里最贵的往往不是某一次成功训练,而是成功之前的所有试错。一次实验少用一半以上 GPU 时间,意味着同样预算下可以多跑几组数据配方、多试几组超参、多验证几个模型尺度。
论文还做了多组小规模超参数扫描实验,也就是 sweep,观察不同 bag size 和 superposition step ratio 的影响。最终作者认为,在合理范围内,TST 对超参选择相对稳健:bag size 在 4 到 8,superposition 训练步数比例在 0.2 到 0.4 时,通常表现较好。
图注:不同 bag size 和训练比例下,TST 在 loss 与下游评测上都呈现相对稳定收益
另外,TST 并非单一机制在起作用。
论文做了输入侧、输出侧和完整 TST 的消融实验:输入侧和输出侧单独使用时都能优于 baseline,但完整 TST 效果最佳。作者据此指出,TST 是两个机制的叠加:输入侧改变了输入粒度和单位信息的 FLOPs 成本;输出侧改变了预测目标与梯度信号。
这套机制的启发意义在于,输入侧作为在训练早期,给到模型一个低分辨率视野,让它以更低成本接触更多文本;输出侧则像是把监督信号从“下一个 token 是什么”改成“接下来这一小段大概会出现哪些 token”。前者提高吞吐,后者提高监督密度。
这也是为什么 TST 和 MTP 看起来有点像,但本质不完全一样。
MTP 更像是在同一个位置额外预测多个未来 token;TST 则是把输入和输出都改成更粗粒度的局部窗口。一个是增加监督题目,一个是改变学习分辨率。
训练降本开始转向学习路径优化
TST 最大的看头,不是它设计了多复杂的新架构,而是它点醒了一件事:训练降本,别总盯着模型结构开刀。
过去一提降本,大家本能就是加卡、改架构、卷并行、做蒸馏。这些都是系统级重体力活,家里没有余粮的团队根本接不住。但这次,TST 给了一个轻得多的切口:只调整预训练早期的学习路径。
这意味着什么?
同样多的 GPU 预算能多试几轮配方,1B 到 10B 级垂直模型的试错成本能明显下降。对那些只想训个够用行业模型的中小团队来说,这比硬刚前沿最新模型务实得多。
当然,TST 也不是免费午餐。
它本质上是“拿数据吞吐换 GPU 时间”,如果你是算力受限的团队,这招极香;但如果你连高质量数据都喂不饱,那 TST 不仅帮不上忙,甚至可能放大数据短板。
但这不影响它的方向价值。
TST 把一个被默认太久的问题重新拎了出来:模型学习语言的顺序,本身也可能是一种效率杠杆。
当模型越来越贵,真正有价值的创新不只是把模型做大,而是让模型更会学习。更准确地说,是让每一步训练都更值钱。
参考链接:
Paper: http://arxiv.org/abs/2605.06546
HF: http://huggingface.co/papers/2605.06546
Blog: http://nousresearch.com/token-superposition
本文来自微信公众号“AI前线”,作者:四月,36氪经授权发布。