[Paper] 强化注意力学习

发布: (2026年2月5日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2602.04884v1

概述

论文 “Reinforced Attention Learning” 解决了多模态大语言模型(MLLMs)中的一个日益突出的瓶颈:在文本推理上使用强化学习(RL)进行后训练能够提升纯语言模型的表现,但往往会损害视觉‑语言任务。作者将 RL 目标颠倒——不是奖励模型生成的 什么 token,而是奖励模型 关注的地方。通过使用策略梯度方法直接优化内部注意力分布,他们在保持语言生成质量不变的同时,实现了对图像和视频更可靠的 grounding。

关键贡献

  • 强化注意力学习 (RAL): 一种新颖的强化学习框架,将多模态 Transformer 的注意力图视为待优化的策略,使用策略梯度更新而非基于 token 级别的奖励。
  • 在线策略注意力蒸馏: 一种将学习到的注意力策略从“教师”模型转移到“学生”模型的技术,性能优于仅匹配 logits 的传统知识蒸馏。
  • 全面的实证验证: 在一系列基于图像和视频的基准测试(如 VQA、视频问答、图像字幕)中相较于 GRPO 和其他后训练基线表现出一致的性能提升。
  • 注意力行为分析: 通过可视化和消融实验表明,RAL 能产生更清晰、语义对齐度更高的注意力图,减少对无关视觉区域的错误关注。

方法论

  1. 策略定义

    • 在每个 transformer 层中,注意力权重(对 query‑key 分数的 softmax)被解释为对视觉 token 的随机策略。
  2. 奖励信号

    • 奖励来源于下游任务指标(例如 VQA 准确率),在模型生成答案 之后 获得,但梯度仅通过注意力分布反向传播,而不是通过输出 token 的概率。
  3. 策略梯度更新

    • 使用 REINFORCE,估计相对于注意力参数的期望奖励梯度:

    $$
    \nabla_\theta \mathbb{E}{a\sim\pi\theta}[R] \approx \frac{1}{N}\sum_{i=1}^N (R_i - b)\nabla_\theta \log \pi_\theta(a_i)
    $$

    • 基线 (b)(奖励的运行平均)用于降低方差。
  4. 在线策略注意力蒸馏

    • 在使用 RAL 训练出高容量的“教师”模型后,学生模型被训练去模仿教师在相同输入上的注意力分布,使用 KL‑散度损失。这使学生的潜在关注点对齐,而无需教师的 logits。
  5. 训练循环

    • 模型在标准监督微调(保持语言流畅性)和 RAL 更新(加强视觉定位)之间交替进行。

结果与发现

基准基线 (GRPO)RALΔ(提升)
VQA‑2.071.3%73.8%+2.5 分
MS‑COCO Captioning (CIDEr)124.5129.2+4.7
TVQA (视频问答)68.1%70.6%+2.5
NLVR2 (图文推理)78.4%80.1%+1.7
  • 注意力锐度: 热力图显示 RAL 聚焦于任务相关的对象(例如 VQA 查询中的“红色球”),而 GRPO 的注意力分布更为分散。
  • 稳定性: 训练方差更低,因为奖励信号关联到单一标量指标,而不是一系列 token 级别的奖励。
  • 蒸馏收益: 使用注意力策略蒸馏的学生模型在参数减少 30% 的情况下,恢复约 90% 的教师性能。

实际影响

  • 更好的开发者基础: 当构建依赖视觉推理的应用程序(例如,能够回答照片问题的 AI 助手、视频分析仪表板或 AR 覆盖层)时,经过 RAL 调整的模型不太可能产生不相关的视觉细节幻觉。
  • 高效微调: 由于 RAL 只修改注意力权重,与完整序列的 RL 微调相比,计算开销较小,使其在单个 GPU 上即可在许多生产流水线中实现。
  • 可迁移的知识: 在策略注意力蒸馏使得较小的边缘模型能够继承大型云模型的“关注点”,而无需传输庞大的 logits,这对延迟敏感或隐私敏感的部署非常有价值。
  • 跨模态对齐作为一级目标: 该工作鼓励团队将注意力对齐视为可调超参数,为自定义奖励设计打开了大门(例如,对关注受保护内容进行惩罚)。

限制与未来工作

  • Reward Dependency(奖励依赖): RAL 仍然需要可靠的下游度量;对于没有明确标量奖励的任务(例如开放式生成),可能需要使用代理信号。
  • Scalability to Very Large Models(对超大模型的可扩展性): 实验在 13‑B 级别的 MLLMs 上进行;将 policy‑gradient 步骤扩展到 70‑B 级别的模型可能会遇到内存瓶颈。
  • Generalization Beyond Vision(超出视觉的泛化): 论文聚焦于图像/视频输入;将 attention‑policy 思路扩展到音频、表格或多模态链(例如 text‑to‑code)仍是未解之题。
  • Interpretability vs. Performance Trade‑off(可解释性与性能的权衡): 虽然更锐利的注意力是可取的,但过于狭窄的聚焦可能会错失上下文线索;未来工作可以探索自适应的 entropy regularization(熵正则化)。

Reinforced Attention Learning 将多模态模型的后训练从“说什么”重新定义为“看哪里”,为构建视觉语言系统的开发者提供了显著收益,同时保持训练流程轻量且可解释。

作者

  • Bangzheng Li
  • Jianmo Ni
  • Chen Qu
  • Ian Miao
  • Liu Yang
  • Xingyu Fu
  • Muhao Chen
  • Derek Zhiyuan Cheng

论文信息

  • arXiv ID: 2602.04884v1
  • Categories: cs.CL, cs.CV, cs.LG
  • 出版日期: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »