[Paper] 强化注意力学习
发布: (2026年2月5日 GMT+8 02:59)
7 min read
原文: arXiv
Source: arXiv - 2602.04884v1
概述
论文 “Reinforced Attention Learning” 解决了多模态大语言模型(MLLMs)中的一个日益突出的瓶颈:在文本推理上使用强化学习(RL)进行后训练能够提升纯语言模型的表现,但往往会损害视觉‑语言任务。作者将 RL 目标颠倒——不是奖励模型生成的 什么 token,而是奖励模型 关注的地方。通过使用策略梯度方法直接优化内部注意力分布,他们在保持语言生成质量不变的同时,实现了对图像和视频更可靠的 grounding。
关键贡献
- 强化注意力学习 (RAL): 一种新颖的强化学习框架,将多模态 Transformer 的注意力图视为待优化的策略,使用策略梯度更新而非基于 token 级别的奖励。
- 在线策略注意力蒸馏: 一种将学习到的注意力策略从“教师”模型转移到“学生”模型的技术,性能优于仅匹配 logits 的传统知识蒸馏。
- 全面的实证验证: 在一系列基于图像和视频的基准测试(如 VQA、视频问答、图像字幕)中相较于 GRPO 和其他后训练基线表现出一致的性能提升。
- 注意力行为分析: 通过可视化和消融实验表明,RAL 能产生更清晰、语义对齐度更高的注意力图,减少对无关视觉区域的错误关注。
方法论
-
策略定义
- 在每个 transformer 层中,注意力权重(对 query‑key 分数的 softmax)被解释为对视觉 token 的随机策略。
-
奖励信号
- 奖励来源于下游任务指标(例如 VQA 准确率),在模型生成答案 之后 获得,但梯度仅通过注意力分布反向传播,而不是通过输出 token 的概率。
-
策略梯度更新
- 使用 REINFORCE,估计相对于注意力参数的期望奖励梯度:
$$
\nabla_\theta \mathbb{E}{a\sim\pi\theta}[R] \approx \frac{1}{N}\sum_{i=1}^N (R_i - b)\nabla_\theta \log \pi_\theta(a_i)
$$- 基线 (b)(奖励的运行平均)用于降低方差。
-
在线策略注意力蒸馏
- 在使用 RAL 训练出高容量的“教师”模型后,学生模型被训练去模仿教师在相同输入上的注意力分布,使用 KL‑散度损失。这使学生的潜在关注点对齐,而无需教师的 logits。
-
训练循环
- 模型在标准监督微调(保持语言流畅性)和 RAL 更新(加强视觉定位)之间交替进行。
结果与发现
| 基准 | 基线 (GRPO) | RAL | Δ(提升) |
|---|---|---|---|
| VQA‑2.0 | 71.3% | 73.8% | +2.5 分 |
| MS‑COCO Captioning (CIDEr) | 124.5 | 129.2 | +4.7 |
| TVQA (视频问答) | 68.1% | 70.6% | +2.5 |
| NLVR2 (图文推理) | 78.4% | 80.1% | +1.7 |
- 注意力锐度: 热力图显示 RAL 聚焦于任务相关的对象(例如 VQA 查询中的“红色球”),而 GRPO 的注意力分布更为分散。
- 稳定性: 训练方差更低,因为奖励信号关联到单一标量指标,而不是一系列 token 级别的奖励。
- 蒸馏收益: 使用注意力策略蒸馏的学生模型在参数减少 30% 的情况下,恢复约 90% 的教师性能。
实际影响
- 更好的开发者基础: 当构建依赖视觉推理的应用程序(例如,能够回答照片问题的 AI 助手、视频分析仪表板或 AR 覆盖层)时,经过 RAL 调整的模型不太可能产生不相关的视觉细节幻觉。
- 高效微调: 由于 RAL 只修改注意力权重,与完整序列的 RL 微调相比,计算开销较小,使其在单个 GPU 上即可在许多生产流水线中实现。
- 可迁移的知识: 在策略注意力蒸馏使得较小的边缘模型能够继承大型云模型的“关注点”,而无需传输庞大的 logits,这对延迟敏感或隐私敏感的部署非常有价值。
- 跨模态对齐作为一级目标: 该工作鼓励团队将注意力对齐视为可调超参数,为自定义奖励设计打开了大门(例如,对关注受保护内容进行惩罚)。
限制与未来工作
- Reward Dependency(奖励依赖): RAL 仍然需要可靠的下游度量;对于没有明确标量奖励的任务(例如开放式生成),可能需要使用代理信号。
- Scalability to Very Large Models(对超大模型的可扩展性): 实验在 13‑B 级别的 MLLMs 上进行;将 policy‑gradient 步骤扩展到 70‑B 级别的模型可能会遇到内存瓶颈。
- Generalization Beyond Vision(超出视觉的泛化): 论文聚焦于图像/视频输入;将 attention‑policy 思路扩展到音频、表格或多模态链(例如 text‑to‑code)仍是未解之题。
- Interpretability vs. Performance Trade‑off(可解释性与性能的权衡): 虽然更锐利的注意力是可取的,但过于狭窄的聚焦可能会错失上下文线索;未来工作可以探索自适应的 entropy regularization(熵正则化)。
Reinforced Attention Learning 将多模态模型的后训练从“说什么”重新定义为“看哪里”,为构建视觉语言系统的开发者提供了显著收益,同时保持训练流程轻量且可解释。
作者
- Bangzheng Li
- Jianmo Ni
- Chen Qu
- Ian Miao
- Liu Yang
- Xingyu Fu
- Muhao Chen
- Derek Zhiyuan Cheng
论文信息
- arXiv ID: 2602.04884v1
- Categories: cs.CL, cs.CV, cs.LG
- 出版日期: 2026年2月4日
- PDF: 下载 PDF