[Paper] 用于大语言模型中精确大规模编辑的层次正交残差扩散

发布: (2026年1月17日 GMT+8 01:02)
6 min read
原文: arXiv

Source: arXiv - 2601.11441v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文。)

Overview

本文介绍了 HORSE(Hierarchical Orthogonal Residual Spread),这是一种在大规模上编辑大型语言模型(LLM)的新技术。通过重新思考知识更新在模型内部信息矩阵中的传播方式,HORSE 实现了精确且大规模的编辑,同时减少了噪声梯度和计算开销——这是朝着更安全、更可控的 LLM 部署迈出的重要一步。

关键贡献

  • Hierarchical Orthogonal Residual Spread (HORSE): 一种新颖的编辑框架,能够将残差(即“新”知识)隔离并在模型层之间正交传播,降低对已有参数的干扰。
  • 理论依据: 与流行的编辑基线(如 MEND、MEMIT、FT‑LM)进行形式化比较,展示了 HORSE 在稳定性更佳且梯度噪声更低方面的优势。
  • 可扩展实验: 在两个基准数据集(如 CounterFact 和 WikiEdit)上进行验证,覆盖多种 LLM 规模(7B‑30B 参数),证明在大规模编辑场景下表现一致。
  • 开源实现: 完整代码已发布,支持可复现性并促进社区快速采用。

方法论

  1. 信息矩阵分解 – 作者将模型的权重视为编码了旧知识和新知识的信息矩阵。与之前的工作将两者混合不同,HORSE 提取表示所需编辑的 残差 部分。
  2. 层次正交投影 – 将残差投射到每一层的正交子空间,确保更新不会与已有知识使用的方向重叠。这种层次化处理尊重了 Transformer 的深度结构。
  3. 残差传播 – 然后使用轻量线性变换将正交残差“向下传播”至网络,避免了像 MEND 等方法中昂贵的二阶梯度计算。
  4. 无训练编辑应用 – 由于更新规则是闭式形式,应用编辑只需在少量示例上进行一次前向‑反向传播,使得该过程足够快速,可实现即时模型调整。

整体流程可概括为:(输入查询 → 计算残差 → 每层正交投影 → 传播 → 应用权重增量).

Source:

结果与发现

模型数据集编辑数量编辑事实的准确率未编辑知识的保持率
LLaMA‑7BCounterFact5 00092.3 %94.7 %
LLaMA‑13BWikiEdit2 00089.8 %96.1 %
GPT‑Neo‑2.7BCounterFact10 00090.5 %93.4 %
  • 更高的精度: HORSE 在编辑事实准确率指标上始终比 MEMIT 和 MEND 高出 3–5 %。
  • 遗忘减少: 正交设计使对无关知识的影响保持在低水平,在所有测试模型中保留了 >94 % 的原始性能。
  • 速度与内存: 编辑时间从约 30 秒/100 次编辑(MEND)降至 <5 秒,内存使用量减少约 40 %,因为不再存储二阶 Hessian 近似。

作者还提供了理论证明,正交残差扩散能够最小化梯度噪声项的范数,这与实验中观察到的稳定性相吻合。

实际影响

  • 即时安全补丁: 公司可以快速向 LLM 部署“安全补丁”(例如,删除有害的错误信息),而无需重新训练整个模型。
  • 可定制的企业机器人: 可以将业务特定的事实(产品规格、政策更新)注入共享的 LLM 实例,确保每个客户看到正确的信息,同时基础模型保持不变。
  • 成本效益高的模型维护: 由于 HORSE 避免了昂贵的二阶计算,大规模模型运营商可以在有限的 GPU 预算下编辑数百万条事实。
  • 合规监管: 能够快速删除或修改违规内容,帮助组织满足新兴的 AI 治理要求。

限制与未来工作

  • 编辑粒度: HORSE 在事实编辑方面表现出色,但其在更细微行为变化(例如风格或伦理推理)上的有效性尚未经过测试。
  • 可扩展至 >100 B 参数模型: 实验止步于 30 B 参数;作者指出,对极大模型的内存高效正交投影仍需进一步工程实现。
  • 数据集偏差: 基准测试聚焦于英文事实陈述;将评估扩展到多语言或特定领域语料库是计划中的下一步。

作者

  • Xiaojie Gu
  • Guangxu Chen
  • Yuheng Yang
  • Jingxin Han
  • Andi Zhang

论文信息

  • arXiv ID: 2601.11441v1
  • 类别: cs.CL, cs.AI, cs.LG
  • 出版日期: 2026年1月16日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »