[Paper] 强化注意力学习

发布: 1天前 (2026年2月5日 GMT+8 02:59)

7 min read

原文: arXiv

Source: arXiv - 2602.04884v1

概述

论文 “Reinforced Attention Learning” 解决了多模态大语言模型（MLLMs）中的一个日益突出的瓶颈：在文本推理上使用强化学习（RL）进行后训练能够提升纯语言模型的表现，但往往会损害视觉‑语言任务。作者将 RL 目标颠倒——不是奖励模型生成的什么 token，而是奖励模型 关注的地方。通过使用策略梯度方法直接优化内部注意力分布，他们在保持语言生成质量不变的同时，实现了对图像和视频更可靠的 grounding。

关键贡献

强化注意力学习 (RAL)： 一种新颖的强化学习框架，将多模态 Transformer 的注意力图视为待优化的策略，使用策略梯度更新而非基于 token 级别的奖励。
在线策略注意力蒸馏： 一种将学习到的注意力策略从“教师”模型转移到“学生”模型的技术，性能优于仅匹配 logits 的传统知识蒸馏。
全面的实证验证： 在一系列基于图像和视频的基准测试（如 VQA、视频问答、图像字幕）中相较于 GRPO 和其他后训练基线表现出一致的性能提升。
注意力行为分析： 通过可视化和消融实验表明，RAL 能产生更清晰、语义对齐度更高的注意力图，减少对无关视觉区域的错误关注。

方法论

策略定义
- 在每个 transformer 层中，注意力权重（对 query‑key 分数的 softmax）被解释为对视觉 token 的随机策略。
奖励信号
- 奖励来源于下游任务指标（例如 VQA 准确率），在模型生成答案之后获得，但梯度仅通过注意力分布反向传播，而不是通过输出 token 的概率。
策略梯度更新
- 使用 REINFORCE，估计相对于注意力参数的期望奖励梯度：
$$
\nabla_\theta \mathbb{E}{a\sim\pi\theta}[R] \approx \frac{1}{N}\sum_{i=1}^N (R_i - b)\nabla_\theta \log \pi_\theta(a_i)
$$
- 基线 (b)（奖励的运行平均）用于降低方差。
在线策略注意力蒸馏
- 在使用 RAL 训练出高容量的“教师”模型后，学生模型被训练去模仿教师在相同输入上的注意力分布，使用 KL‑散度损失。这使学生的潜在关注点对齐，而无需教师的 logits。
训练循环
- 模型在标准监督微调（保持语言流畅性）和 RAL 更新（加强视觉定位）之间交替进行。

结果与发现

基准	基线 (GRPO)	RAL	Δ（提升）
VQA‑2.0	71.3%	73.8%	+2.5 分
MS‑COCO Captioning (CIDEr)	124.5	129.2	+4.7
TVQA (视频问答)	68.1%	70.6%	+2.5
NLVR2 (图文推理)	78.4%	80.1%	+1.7

注意力锐度： 热力图显示 RAL 聚焦于任务相关的对象（例如 VQA 查询中的“红色球”），而 GRPO 的注意力分布更为分散。
稳定性： 训练方差更低，因为奖励信号关联到单一标量指标，而不是一系列 token 级别的奖励。
蒸馏收益： 使用注意力策略蒸馏的学生模型在参数减少 30% 的情况下，恢复约 90% 的教师性能。

实际影响

更好的开发者基础: 当构建依赖视觉推理的应用程序（例如，能够回答照片问题的 AI 助手、视频分析仪表板或 AR 覆盖层）时，经过 RAL 调整的模型不太可能产生不相关的视觉细节幻觉。
高效微调: 由于 RAL 只修改注意力权重，与完整序列的 RL 微调相比，计算开销较小，使其在单个 GPU 上即可在许多生产流水线中实现。
可迁移的知识: 在策略注意力蒸馏使得较小的边缘模型能够继承大型云模型的“关注点”，而无需传输庞大的 logits，这对延迟敏感或隐私敏感的部署非常有价值。
跨模态对齐作为一级目标: 该工作鼓励团队将注意力对齐视为可调超参数，为自定义奖励设计打开了大门（例如，对关注受保护内容进行惩罚）。

限制与未来工作

Reward Dependency（奖励依赖）: RAL 仍然需要可靠的下游度量；对于没有明确标量奖励的任务（例如开放式生成），可能需要使用代理信号。
Scalability to Very Large Models（对超大模型的可扩展性）: 实验在 13‑B 级别的 MLLMs 上进行；将 policy‑gradient 步骤扩展到 70‑B 级别的模型可能会遇到内存瓶颈。
Generalization Beyond Vision（超出视觉的泛化）: 论文聚焦于图像/视频输入；将 attention‑policy 思路扩展到音频、表格或多模态链（例如 text‑to‑code）仍是未解之题。
Interpretability vs. Performance Trade‑off（可解释性与性能的权衡）: 虽然更锐利的注意力是可取的，但过于狭窄的聚焦可能会错失上下文线索；未来工作可以探索自适应的 entropy regularization（熵正则化）。

Reinforced Attention Learning 将多模态模型的后训练从“说什么”重新定义为“看哪里”，为构建视觉语言系统的开发者提供了显著收益，同时保持训练流程轻量且可解释。

作者

Bangzheng Li
Jianmo Ni
Chen Qu
Ian Miao
Liu Yang
Xingyu Fu
Muhao Chen
Derek Zhiyuan Cheng

论文信息

arXiv ID: 2602.04884v1
Categories: cs.CL, cs.CV, cs.LG
出版日期: 2026年2月4日
PDF: 下载 PDF

[Paper] 强化注意力学习

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] AutoFigure：生成与完善出版就绪的科学插图

[Paper] 通过光学字符识别重新思考基因组建模

[Paper] 重新思考 LLM 强化学习中的 Trust Region

[Paper] 你的数据中的潜在效应：一种通过对数线性实现的通用机制