北航CASE框架：给大模型「持续注入新知识」，编辑千次不失忆且额外参数不到1MB

让千次编辑准确率95%的轻量「插件」

“星巴克换了新CEO”、“最新科研成果发布”……

当大语言模型（LLM）需要持续吸收新知识，在多次更新后容易陷入两个困境：

要么因参数更新冲突遗忘先前的知识内容，要么为避免遗忘而大量附加参数导致占用大量计算资源。

北航团队最新提出的CASE框架，给出了一个解法：给每次编辑“算分”，冲突的知识分开存，不冲突的共享空间；同时只调对当前知识最敏感的“关键神经元”，避免无关参数被带偏。

这一方法有效破解了这一大语言模型“终身模型编辑”任务（Lifelong Model Editing）的核心痛点，研究发表了以《CASE: Conflict-assessed Knowledge-sensitive Neuron Tuning for Lifelong Model Editing》为题的论文，已入选国际顶会WWW 2026（The ACM Web Conference 2026）。

实验显示，在对LLM进行1000次连续知识编辑后，CASE比现有最优方法平均准确率提升近10%，还能保持参数高效性，额外参数仅不到1MB。

终身编辑的“两难困境”：现有方法在多次更新模型后为何遗忘频发？

大模型的“知识老化”和“事实幻觉”早已不是新鲜事，而“终身模型编辑”的目标更苛刻：让LLM像人一样持续学新东西或校正新知识，同时不丢之前编辑过的知识、不干扰无关能力。

现有主流方法始终没跳出两个难题：

“盲目加参数”：为充分保留预训练知识，现有大模型编辑方法通常采用附加参数的方式进行知识更新。而在多批次的终身编辑过程中，现有方法要么按固定的批次数量无限制新增参数子空间，导致额外占用大量计算资源；要么一股脑地将大量知识塞进同一空间，却不管这些是否会对模型产生冲突的更新，导致“灾难性遗忘”。

“无差别调参数”：在每个批次特定知识更新时，现有方法仅将知识相关的参数定位到了“layer wise”,从而对不同的知识无差别更新该层的全部神经元。这导致本该重点调整的“关键神经元”梯度被分散，反而让不同知识在局部无关神经元上的梯度冲突逐渐累积，造成编辑次数越多，遗忘越严重。CASE团队指出，上述问题的根源在于，现有方法忽略了对不同知识之间“编辑冲突”的量化——既没算清两次知识更新是否矛盾，也没找准该调哪些神经元。

核心突破：用“冲突量化”+“敏感调优”双模块破局

CASE框架的关键，是给终身编辑加上“冲突评估大脑”和“精准调优工具”，两个核心组件协同解决全局与局部冲突：

1. CAA模块：给编辑冲突“算分”，合理分配参数空间

Conflict-Assessed Editing Allocation（CAA）模块的核心是“量化冲突、按需分配”——对于每次要编辑的新知识，借鉴多任务学习的梯度理论，利用梯度方向表示知识对模型的更新趋势，先算清新知识与先前参数子空间是否矛盾，再决定是共享空间还是新建空间。

具体怎么做？团队设计了两个关键指标，分别用于衡量新知识(xt,yt)与先前参数子空间各自相对于原始模型的更新方向：

参数子空间的更新方向（E i t-1 ）：衡量现有第i个子空间经过前t-1次编辑后偏离初始权重的程度，反映这个空间已“记住”的知识；通过计算子空间参数矩阵ΔW i t-1 与模型初始子空间ΔW 0 0 的差异得到：

编辑梯度（Gt）：计算新知识(xt,yt)对模型初始子空间的损失梯度矩阵，代表新知识对模型的更新方向和幅度。

再通过余弦相似度

给“编辑冲突打分”，并按如下规则进行子空间分配：

若cti≥0：新知识与子空间现有知识兼容，直接共享该空间，避免子空间碎片化；

若cti<0：两者存在冲突，新建一个子空间隔离，防止“旧知识被冲掉”。

这一设计从根源上解决了“盲目分空间”问题——既不会让冲突知识挤在一起，也不会让子空间数量失控，推理时的路由难度自然大幅降低。

2. KNT策略：只调“关键神经元”，消除局部冲突

Knowledge-sensitive Neuron Tuning（KNT）策略则聚焦“精准调优”——不是全量更新子空间参数，而是只找对当前知识“最敏感”的神经元，将知识定位从“layer wise”进一步细化到“neuron wise”,避免无关参数更新导致的参数空间不稳定。

团队用Fisher信息矩阵（FIM）给神经元“测敏感度”：Fisher值越高，说明这个神经元的微小变化对模型预测影响越大，是当前知识的“关键节点”。为了兼顾效率，他们用对角线近似FIM（计算量大幅降低），再通过梯度分布的熵动态设定阈值，生成“敏感神经元掩码Mt”——只让高敏感神经元参与更新。

此外，KNT还加了知识激活正则化：把历史知识的激活值量化存储（float32转int8，存储量降75%），更新时用KL散度约束新激活值与历史激活值的差异，确保调优后“旧知识不跑偏”。

可以说，微调是给模型“重塑认知”，而KNT是给关键神经元‘精准调音’——既改对了问题，又不打乱整体节奏。

实验：1000次编辑后准确率领先10%，还能兼容多模型

为验证CASE的效果，团队在两个核心任务上做了对比实验，基准模型包括LLaMA2-7B、Qwen2.5-7B、LLaMA3-8B-Instruct，对比方法涵盖GRACE、WISE、MEMIT等主流终身编辑框架。

1. 问答任务（ZsRE数据集）：1000次编辑不“掉线”

在需要连续更新实体关系的ZsRE终身知识编辑任务中：

100次编辑时，CASE在LLaMA2-7B上的编辑准确率比次优方法高5个百分点，局部性（无关知识保存率）达100%；

1000次编辑后，现有方法大多准确率大幅下滑（如WISE准确率从90%降到77%），而CASE仍保持95%的准确率，比次优方法高10%，且仅比100次编辑时下降3%——几乎做到“编辑千次不失忆”。

值得注意的是，GRACE虽能保持高准确率，但泛化性极差（仅26%），只能死记实体关系；而CASE的泛化性达82%，能处理未见过的相似问题。

2. 幻觉修正（SelfCheckGPT数据集）：perplexity降60%

在修正模型“胡言乱语”的任务中，CASE表现更突出：

LLaMA2-7B上，1000次编辑后，CASE的perplexity （衡量文本factual一致性的指标，越低越好）从3.12降至1.22，比次优方法低60%；

Qwen2.5-7B上，其他方法因冲突积累导致perplexity飙升，而CASE是唯一能稳定维持低perplexity的方法。

3. 效率优势：参数少、推理快

CASE的参数效率远超同类方法：额外参数不到1MB（WISE需86MB），推理时每迭代耗时仅10.72秒，与未编辑模型几乎无差异——这意味着它能轻松部署到实际场景中。

分析实验：CASE在不同设置下的稳定性

团队测试了CASE在不同参数设置下的稳定性。整体来看，CASE在不同超参数取值范围内均能保持稳定的编辑性能，无需复杂调参即可适配场景需求。

从下面部分实验样本可以看出，CASE仅在极少数特定情况存在失败案例。

随着大模型在金融、医疗、法律等领域落地，“知识持续更新”成为刚需：比如医疗指南更新、法律条文修订、企业信息变更，都需要模型及时跟进，且不能丢之前的专业知识。

此前，这类需求要么靠“全量微调”（成本高、周期长），要么靠“RAG+提示词”（效果不稳定）。而CASE通过突破终身模型编辑技术，提供了一个未来可能的更优解：

无需重训模型，通过“冲突量化分配+敏感神经元调优”实现轻量级更新；支持千级别的连续编辑，适合长期服役的大模型；

兼容主流开源LLM（LLaMA、Qwen等），迁移成本低。

团队表示，未来将进一步探索CASE在多模态模型和非结构化数据编辑中的应用，让大模型的“终身学习”能力覆盖更多场景。

本文来自微信公众号“量子位”，作者：CASE团队，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

给大模型「持续注入新知识」，北航CASE框架：编辑千次不失忆，额外参数不到1MB