给大模型「持续注入新知识」,北航CASE框架:编辑千次不失忆,额外参数不到1MB
“星巴克换了新CEO”、“最新科研成果发布”……
当大语言模型(LLM)需要持续吸收新知识,在多次更新后容易陷入两个困境:
要么因参数更新冲突遗忘先前的知识内容,要么为避免遗忘而大量附加参数导致占用大量计算资源。
北航团队最新提出的CASE框架,给出了一个解法:给每次编辑“算分”,冲突的知识分开存,不冲突的共享空间;同时只调对当前知识最敏感的“关键神经元”,避免无关参数被带偏。
这一方法有效破解了这一大语言模型“终身模型编辑”任务(Lifelong Model Editing)的核心痛点,研究发表了以《CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing》为题的论文,已入选国际顶会WWW 2026(The ACM Web Conference 2026)。
实验显示,在对LLM进行1000次连续知识编辑后,CASE比现有最优方法平均准确率提升近10%,还能保持参数高效性,额外参数仅不到1MB。
终身编辑的“两难困境”:现有方法在多次更新模型后为何遗忘频发?
大模型的“知识老化”和“事实幻觉”早已不是新鲜事,而“终身模型编辑”的目标更苛刻:让LLM像人一样持续学新东西或校正新知识,同时不丢之前编辑过的知识、不干扰无关能力。
现有主流方法始终没跳出两个难题:
“盲目加参数”:为充分保留预训练知识,现有大模型编辑方法通常采用附加参数的方式进行知识更新。而在多批次的终身编辑过程中,现有方法要么按固定的批次数量无限制新增参数子空间,导致额外占用大量计算资源;要么一股脑地将大量知识塞进同一空间,却不管这些是否会对模型产生冲突的更新,导致“灾难性遗忘”。
“无差别调参数”:在每个批次特定知识更新时,现有方法仅将知识相关的参数定位到了“layer wise”,从而对不同的知识无差别更新该层的全部神经元。这导致本该重点调整的“关键神经元”梯度被分散,反而让不同知识在局部无关神经元上的梯度冲突逐渐累积,造成编辑次数越多,遗忘越严重。CASE团队指出,上述问题的根源在于,现有方法忽略了对不同知识之间“编辑冲突”的量化——既没算清两次知识更新是否矛盾,也没找准该调哪些神经元。
核心突破:用“冲突量化”+“敏感调优”双模块破局
CASE框架的关键,是给终身编辑加上“冲突评估大脑”和“精准调优工具”,两个核心组件协同解决全局与局部冲突:
1. CAA模块:给编辑冲突“算分”,合理分配参数空间
Conflict-Assessed Editing Allocation(CAA)模块的核心是“量化冲突、按需分配”——对于每次要编辑的新知识,借鉴多任务学习的梯度理论,利用梯度方向表示知识对模型的更新趋势,先算清新知识与先前参数子空间是否矛盾,再决定是共享空间还是新建空间。
具体怎么做?团队设计了两个关键指标,分别用于衡量新知识(xt,yt)与先前参数子空间各自相对于原始模型的更新方向:
参数子空间的更新方向(E i t-1 ):衡量现有第i个子空间经过前t-1次编辑后偏离初始权重的程度,反映这个空间已“记住”的知识;通过计算子空间参数矩阵ΔW i t-1 与模型初始子空间ΔW 0 0 的差异得到:
编辑梯度(Gt):计算新知识(xt,yt)对模型初始子空间的损失梯度矩阵,代表新知识对模型的更新方向和幅度。
再通过余弦相似度
给“编辑冲突打分”,并按如下规则进行子空间分配:
若cti≥0:新知识与子空间现有知识兼容,直接共享该空间,避免子空间碎片化;
若cti<0:两者存在冲突,新建一个子空间隔离,防止“旧知识被冲掉”。
这一设计从根源上解决了“盲目分空间”问题——既不会让冲突知识挤在一起,也不会让子空间数量失控,推理时的路由难度自然大幅降低。
2. KNT策略:只调“关键神经元”,消除局部冲突
Knowledge-sensitive Neuron Tuning(KNT)策略则聚焦“精准调优”——不是全量更新子空间参数,而是只找对当前知识“最敏感”的神经元,将知识定位从“layer wise”进一步细化到“neuron wise”,避免无关参数更新导致的参数空间不稳定。
团队用Fisher信息矩阵(FIM)给神经元“测敏感度”:Fisher值越高,说明这个神经元的微小变化对模型预测影响越大,是当前知识的“关键节点”。为了兼顾效率,他们用对角线近似FIM(计算量大幅降低),再通过梯度分布的熵动态设定阈值,生成“敏感神经元掩码Mt”——只让高敏感神经元参与更新。
此外,KNT还加了知识激活正则化:把历史知识的激活值量化存储(float32转int8,存储量降75%),更新时用KL散度约束新激活值与历史激活值的差异,确保调优后“旧知识不跑偏”。
可以说,微调是给模型“重塑认知”,而KNT是给关键神经元‘精准调音’——既改对了问题,又不打乱整体节奏。
实验:1000次编辑后准确率领先10%,还能兼容多模型
为验证CASE的效果,团队在两个核心任务上做了对比实验,基准模型包括LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct,对比方法涵盖GRACE、WISE、MEMIT等主流终身编辑框架。
1. 问答任务(ZsRE数据集):1000次编辑不“掉线”
在需要连续更新实体关系的ZsRE终身知识编辑任务中:
100次编辑时,CASE在LLaMA2-7B上的编辑准确率比次优方法高5个百分点,局部性(无关知识保存率)达100%;
1000次编辑后,现有方法大多准确率大幅下滑(如WISE准确率从90%降到77%),而CASE仍保持95%的准确率,比次优方法高10%,且仅比100次编辑时下降3%——几乎做到“编辑千次不失忆”。
值得注意的是,GRACE虽能保持高准确率,但泛化性极差(仅26%),只能死记实体关系;而CASE的泛化性达82%,能处理未见过的相似问题。
2. 幻觉修正(SelfCheckGPT数据集):perplexity降60%
在修正模型“胡言乱语”的任务中,CASE表现更突出:
LLaMA2-7B上,1000次编辑后,CASE的perplexity (衡量文本factual一致性的指标,越低越好) 从3.12降至1.22,比次优方法低60%;
Qwen2.5-7B上,其他方法因冲突积累导致perplexity飙升,而CASE是唯一能稳定维持低perplexity的方法。
3. 效率优势:参数少、推理快
CASE的参数效率远超同类方法:额外参数不到1MB(WISE需86MB),推理时每迭代耗时仅10.72秒,与未编辑模型几乎无差异——这意味着它能轻松部署到实际场景中。
分析实验:CASE在不同设置下的稳定性
团队测试了CASE在不同参数设置下的稳定性。整体来看,CASE在不同超参数取值范围内均能保持稳定的编辑性能,无需复杂调参即可适配场景需求。
从下面部分实验样本可以看出,CASE仅在极少数特定情况存在失败案例。
随着大模型在金融、医疗、法律等领域落地,“知识持续更新”成为刚需:比如医疗指南更新、法律条文修订、企业信息变更,都需要模型及时跟进,且不能丢之前的专业知识。
此前,这类需求要么靠“全量微调”(成本高、周期长),要么靠“RAG+提示词”(效果不稳定)。而CASE通过突破终身模型编辑技术,提供了一个未来可能的更优解:
无需重训模型,通过“冲突量化分配+敏感神经元调优”实现轻量级更新; 支持千级别的连续编辑,适合长期服役的大模型;
兼容主流开源LLM(LLaMA、Qwen等),迁移成本低。
团队表示,未来将进一步探索CASE在多模态模型和非结构化数据编辑中的应用,让大模型的“终身学习”能力覆盖更多场景。
本文来自微信公众号“量子位”,作者:CASE团队 ,36氪经授权发布。