[Paper] 构造性电路放大:通过针对性子网络更新提升LLMs的数学推理
发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2512.16914v1
请提供您希望翻译的具体文本内容,我会按照要求保留来源链接并将其余部分翻译成简体中文。
概述
一项新研究表明,提升大型语言模型(LLM)的数学能力并不需要对整个模型进行重新训练。通过定位并强化模型内部实际执行算术推理的微小“电路”,作者在仅触及模型 <2 % 参数的情况下,将性能提升了最高 +11.4 %。这种 “Constructive Circuit Amplification”(CCA) 为针对特定能力进行外科式、低成本的升级打开了大门。
关键贡献
- Circuit‑level intervention: 引入一种系统化方法来定位驱动目标技能(此处为数学推理)的确切子网络(tokens + weights)。
- Sparse fine‑tuning: 仅更新约 1.5 % 的模型组件,与全模型微调相比显著降低计算和数据需求。
- Empirical gains: 在多个模型规模(如 LLaMA‑7B、LLaMA‑13B)的基准数学任务上展示出 +5–11 % 的一致准确率提升。
- Minimal side‑effects: 表明针对性的更新几乎不影响无关能力(MMLU、TriviaQA、TruthfulQA)。
- Open‑source tooling: 发布用于 token‑trace 提取、circuit 识别和选择性权重更新的代码,支持可复现性和社区扩展。
Methodology
- Collect reasoning traces – 在一组数学题目上运行大型语言模型,并记录中间的 token 激活(即“思考过程”)。
- Identify pivotal tokens – 使用归因技术(例如基于梯度的显著性、attention rollout)对 token 进行排序,找出对最终答案影响最大的 token。
- Map tokens to model components – 将高影响力的 token 追溯到处理它们的底层权重矩阵和 attention head。
- Select a sparse sub‑network – 仅保留对数学推理路径贡献最大的前 k 个组件(约占总参数的 1.5 %)。
- Targeted fine‑tuning – 在适度规模的数学数据集上微调该子网络,同时冻结模型其余部分。
- Evaluation – 在标准数学基准以及无关任务上测试增强后的模型,以衡量可能的副作用。
整个流程全自动化,无需人工检查模型内部。
结果与发现
| 模型(规模) | 基线数学准确率 | CCA增强后准确率 | Δ 准确率 | 参数更新比例 |
|---|---|---|---|---|
| LLaMA‑7B | 42.1 % | 48.5 % | +6.4 % | 1.4 % |
| LLaMA‑13B | 45.7 % | 57.1 % | +11.4 % | 1.6 % |
| LLaMA‑33B | 48.9 % | 54.2 % | +5.3 % | 1.5 % |
其他能力(MMLU、TriviaQA、TruthfulQA)变化不足 0.3 %,确认这些更新高度局部化。
关键要点
- 稀疏更新已足够——强化少数关键的注意力头和MLP行即可带来显著提升。
- 跨模型一致性——相同的CCA流程可在不同规模模型上使用,无需重新设计。
- 效率——相较于全模型微调,训练时间大约降低一个数量级。
实际意义
- 成本效益的能力升级 – 公司可以在不需要大规模 GPU 预算进行完整微调的情况下,推出针对数学或特定领域的改进。
- 快速 A/B 测试 – 由于仅有极小的权重切片被修改,您可以快速生成多个“技能增强”变体并在生产环境中进行比较。
- 安全性与对齐 – 有针对性的放大限制了因广泛微调而意外削弱无关行为的风险,这是常见的担忧。
- 模块化模型设计 – 这项工作暗示了一个未来:大型语言模型将被构建为可互换电路的集合,可根据需求进行替换或升级(例如,可热补丁的“数学模块”)。
- 面向开发者的工具 – 已发布的代码可以集成到现有的微调流水线中(例如 Hugging Face Trainer),以添加“电路放大”步骤。
局限性与未来工作
- 范围仅限于数学 – 虽然该方法在算术推理上表现良好,但其在更抽象或多模态任务上的有效性仍未得到验证。
- 依赖追踪质量 – 所识别电路的质量取决于推理追踪的忠实度;噪声或模糊的追踪可能导致次优的子网络。
- 静态稀疏预算 – 论文使用了固定约 1.5 % 的更新预算;自适应预算在性能提升与参数预算之间的平衡可能会带来更好的权衡。
- 长期稳定性 – 作者指出在多次下游微调后性能会出现轻微漂移,暗示可能需要周期性地重新放大。
未来的方向包括将 CCA 扩展到其他推理领域(代码生成、常识推理),自动化稀疏预算的选择,以及探索“电路层级”集成——在推理时将多个专门化的子网络组合使用。
作者
- Nikhil Prakash
- Donghao Ren
- Dominik Moritz
- Yannick Assogba
论文信息
- arXiv ID: 2512.16914v1
- 类别: cs.CL
- 出版时间: 2025年12月18日
- PDF: Download PDF