[Paper] AtManRL:通过可微注意力显著性实现可信推理
发布: (2026年4月17日 GMT+8 23:27)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.16158v1
概述
论文 AtManRL: Towards Faithful Reasoning via Differentiable Attention Saliency 解决了现代大语言模型(LLM)流水线中的一个微妙但关键的问题:伴随模型答案的思路链(CoT)解释往往看起来令人信服,却实际上并未影响最终预测。作者提出了一种强化学习(RL)框架,教会模型生成 忠实 的推理轨迹——即其解释的词元真正对答案起决定性作用。
关键贡献
- 可微分注意力掩码,学习突出对模型最终答案最负责的 CoT 令牌。
- 基于显著性的奖励,源自注意力掩码,鼓励模型生成真正驱动结果的推理。
- 与 GRPO(广义基于奖励的策略优化)的集成,以共同优化答案正确性和解释忠实度。
- 实证验证,在两个基准套件(GSM8K 数学题和 MMLU 知识任务)上使用 Llama‑3.2‑3B‑Instruct,显示出在准确性和可解释性方面的可衡量提升。
- 开源实现(随论文发布),可插入现有的指令微调 LLM 流水线。
方法论
- 基线 CoT 生成 – 模型首先生成一个标准的思考链(即一系列推理步骤),随后输出最终答案标记。
- 加性注意力掩码 – 一个辅助网络学习对 CoT 标记的软掩码。该掩码会被加到模型内部的注意力分数上,从而“提升”被选中标记的影响力。
- 显著性奖励 – 在一次前向传播后,作者计算掩码注意力对正确答案概率的变化幅度。导致更大正向变化的标记会获得更高的显著性分数,这些分数会被汇总为奖励信号。
- 结果奖励 – 同时计算传统的正确性奖励(例如,正确答案 +1,否者 0)。
- 使用 GRPO 的联合优化 – 两种奖励都会输入到 GRPO 算法中,这是一种能够处理多个(可能相互竞争)目标的策略梯度方法。模型参数和注意力掩码网络会同时更新。
- 训练循环 – 该过程在大量样本上重复进行,逐步使模型倾向于选择既正确又 因果 地与答案相连的推理步骤。
整个流水线保持完全可微分,因此可以端到端训练,无需为显著性图提供外部监督。
结果与发现
| 数据集 | Base Llama‑3.2‑3B‑Instruct | AtManRL(我们的) |
|---|---|---|
| GSM8K(数学) | 45.2 % 精确匹配 | 48.9 %(+3.7 点) |
| MMLU(多学科) | 38.5 % | 41.2 %(+2.7 点) |
- 显著性检测: 可视化显示学习到的掩码始终突出决定答案的关键算术操作或事实陈述。
- 可解释性提升: 人类评估者给 AtManRL 的解释打了更高的“可信度”(平均李克特量表得分 4.2/5,对比基线的 3.5/5)。
- 训练稳定性: 组合奖励不会降低收敛性;由于额外的掩码网络,训练时间增加约 15 %,对一个 3‑B 参数模型来说仍属适度。
实际意义
- Debuggable AI services: 开发者可以向用户或内部审计员展示显著性掩码,提供一个具体的“为何得到此答案?”解释,该解释基于模型自身的注意力动态。
- Safety & compliance: 在受监管的领域(金融、医疗),能够证明决策是由特定推理步骤驱动的,可满足审计要求并降低责任风险。
- Improved prompt engineering: 了解模型认为重要的 token 有助于工程师编写更好的 CoT 提示,或对下游模型进行微调,以用于自动辅导或代码生成等任务。
- Plug‑and‑play RL layer: 由于 AtManRL 基于 GRPO 构建,已使用 RLHF 流水线的团队可以通过最少的代码修改加入显著性奖励,从而在不牺牲性能的前提下获得可解释性。
限制与未来工作
- 规模: 实验仅限于一个 3‑B 参数的模型;该方法在 30‑B 或更大规模的语言模型上如何扩展仍不明确,因为此类模型的注意力模式更为分散。
- 奖励平衡: 在正确性奖励和显著性奖励之间调节权重仍然是经验性的;采用自动化的课程学习可能会使方法更稳健。
- 领域特异性: 对于具有明确因果链的任务(如数学、事实问答),显著性掩码表现良好,但在开放式生成任务中,“影响”更难量化,可能会遇到困难。
- 未来方向 作者提出的包括将掩码扩展到多头注意力,探索层次化显著性(句子层级 vs. token 层级),以及结合人机交互反馈,以进一步使解释与用户期望保持一致。
作者
- Max Henning Höth
- Kristian Kersting
- Björn Deiseroth
- Letitia Parcalabescu
论文信息
- arXiv ID: 2604.16158v1
- 分类: cs.CL, cs.AI, cs.LG
- 出版日期: 2026年4月17日
- PDF: 下载 PDF