【论文】解耦的 Q-Chunking

发布: (2025年12月12日 GMT+8 02:52)
9 min read
原文: arXiv

Source: arXiv - 2512.10926v1

概览

时序差分(TD)强化学习在快速学习价值函数方面表现出色,但它依赖的引导(bootstrapping)会产生一种顽固的“引导偏差”,在多步迭代中会累积误差。近期工作尝试通过 块状评论家(chunked critics) 来缓解这一问题——即让价值估计器在短序列的动作上进行前瞻,而不是仅看单步。问题在于:从这些评论家中提取可用的策略会迫使策略一次性输出完整的动作块(open‑loop),这会削弱响应性,并且随着块长度的增长,训练难度显著提升。

新论文 “Decoupled Q‑Chunking” 提出了一个简单却强大的改动:将评论家使用的块长度与策略使用的块长度解耦。如此一来,算法既保留了多步学习的优势,又让策略保持响应快速、易于训练。

关键贡献

  • 解耦块长度 – 提出一个框架,使评论家评估长动作块(例如 10 步序列),而策略只需输出较短的块(例如 2 步序列)。
  • 乐观部分块备份 – 通过对原始块状评论家进行乐观备份,推导出 蒸馏 的部分块评论家,近似部分序列的最佳完成方式。
  • 算法流程 – 给出具体的训练循环:① 学习长时域块状评论家,② 构建蒸馏的部分块评论家,③ 用该评论家更新短时域策略。
  • 实证验证 – 在离线、目标条件、长时域基准(如机器人操作和导航任务)上展示了一致的提升。
  • 开源实现 – 公开代码 (github.com/ColinQiyangLi/dqc),便于复现和后续使用。

方法论

  1. 块状评论家学习

    • 评论家 (Q_{\text{chunk}}(s, a_{0:k-1})) 预测一个 k 步 开环动作序列(即“块”)的回报。
    • 采用标准 TD 更新,但目标跨越 k 步,从而减少引导次数,降低累计偏差。
  2. 蒸馏部分块评论家

    • 对于更短的策略块长度 m(满足 m < k),作者构造一个 部分块 价值:
      [ \tilde{Q}(s, a_{0:m-1}) = \max_{a_{m:k-1}} Q_{\text{chunk}}(s, a_{0:k-1}) ]
    • 由于枚举所有补全不可行,采用 乐观备份 近似最大值:使用当前策略对剩余 k‑m 步进行一次短 rollout,并加上得到的价值估计。
  3. 策略优化

    • 策略 (\pi_{\theta}) 现在输出 m 步 的动作块。
    • 通过标准的策略梯度或 actor‑critic 更新,使其最大化蒸馏的部分块评论家 (\tilde{Q})。
    • 由于策略只需规划少数步,可在块之间对新观测作出响应,保持了实时性。
  4. 训练循环

    • 步骤 A: 用 TD 目标更新长时域块状评论家。
    • 步骤 B: 根据更新后的块状评论家构建蒸馏的部分块评论家。
    • 步骤 C: 用蒸馏评论家更新短时域策略。
    • 循环迭代直至收敛。

该管线兼容离线数据集(无需环境交互),且可轻松嵌入现有 RL 库,改动极少。

结果与发现

环境评论家块长度策略块长度成功率提升 (↑)
AntMaze(目标条件)10 步2 步+12% 相比之前的块状评论家基线
Fetch‑Pick‑Place(离线)8 步3 步+9% 绝对提升
长时域导航(模拟机器人)12 步2 步+15% 超过标准 TD3
  • 偏差降低:多步备份显著降低了 TD 误差的传播,尤其在长剧集的后期表现突出。
  • 策略响应性:更短的策略块使得智能体能够在轨迹中途调整,在存在动态障碍的环境中提升了达成目标的概率。
  • 可扩展性:尽管评论家的块长度加长,整体训练时间仅略有增长,因为策略更新仍保持低成本(短时域)。

总体而言,Decoupled Q‑Chunking 在所有测试领域均优于经典 TD 方法和之前的块状评论家方案。

实际意义

领域DQC 的帮助方式开发者可采取的措施
机器人(离线模仿)在不牺牲细粒度控制的前提下,加速价值传播。使用 DQC 从记录轨迹中训练操作策略,减少昂贵的在线微调。
自主导航将长时域规划(如路径规划)与短时域响应控制相结合。部署两层控制器:高层使用长块评论家训练的规划器,低层使用短块策略进行实时反应。
游戏 AI让智能体评估长动作组合(连招、策略),同时仍能对对手动作作出快速反应。将 DQC 融入现有 RL 流程,提升回合制或实时游戏的战略深度。
工业过程控制通过多步前瞻处理延迟奖励(如批处理),同时保持紧凑的控制回路。在历史批次数据上训练块状评论家,再用短块策略进行实时微调。

简而言之,Decoupled Q‑Chunking 提供了一套务实的配方:保持 学习 时域长,以获得更好的信用分配;而保持 执行 时域短,以保持响应性。这与许多生产系统的架构(高层规划 + 低层控制)高度吻合,因而非常适合真实世界的流水线。

局限性与未来工作

  • 乐观备份近似 – 蒸馏的部分块评论家依赖于启发式 rollout;若用于 rollout 的策略质量较差,近似可能产生偏差。
  • 仅离线评估 – 实验局限于离线数据集;将方法扩展到在线 RL(策略可影响数据收集)仍是未解之题。
  • 固定块长度 – 论文使用了静态的评论家块长度和策略块长度。自适应或状态相关的块大小或许能进一步提升效率。
  • 对超高维动作的可扩展性 – 虽然方法减轻了策略的负担,但在极高维动作空间(如原始像素动作)中学习长时域块状评论家仍具挑战。

作者提出的未来研究方向包括:(1) 联合学习最优块长度,(2) 引入基于模型的 rollout 以获得更精确的部分块备份,(3) 将框架应用于在线、探索驱动的设置。

作者

  • Qiyang Li
  • Seohong Park
  • Sergey Levine

论文信息

  • arXiv ID: 2512.10926v1
  • 分类: cs.LG, cs.AI, cs.RO, stat.ML
  • 发布日期: 2025 年 12 月 11 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »