【论文】ASTRO:自适应拼接基于动力学引导的轨迹展开
发布: (2025年11月29日 GMT+8 02:35)
7 min read
原文: arXiv
Source: arXiv - 2511.23442v1
概览
离线强化学习(RL)有望将静态数据集转化为高性能策略,而无需昂贵的在线交互。论文 “ASTRO: Adaptive Stitching via Dynamics‑Guided Trajectory Rollouts” 解决了一个核心障碍:真实世界的数据集往往充斥着次优、碎片化的轨迹,使得智能体难以推断状态和动作的真实价值。ASTRO 引入了一种新颖的数据增强流水线,能够将 动力学一致 的轨迹碎片拼接在一起,使离线 RL 智能体能够更有效地从不完美的数据中学习。
主要贡献
- 时序距离表征: 学习一种潜在度量,用于量化两个状态在可达步数上的“远近”,从而帮助系统挑选可拼接的起始‑目标对。
- 动力学引导的拼接规划器: 通过迭代地使用 Rollout Deviation Feedback(回滚偏差反馈)信号校正回滚,生成连接动作序列,确保拼接轨迹遵循真实环境动力学。
- 分布上新颖的增强: 与之前停留在行为策略支持范围内的生成模型方法不同,ASTRO 能生成探索新状态‑动作区域的轨迹,同时保持物理可行性。
- 算法无关的增强: 可与多种离线 RL 算法(如 CQL、IQL、TD3‑BC)配合使用,且始终提升其性能。
- 强劲的实证提升: 在 OGBench 基准套件上创下最新的 SOTA 结果,并在广泛使用的 D4RL 任务上实现一致的提升。
方法论
-
学习时序距离编码器
- 训练一个神经网络预测在环境动力学下,从状态 s₁ 到状态 s₂ 所需的步数。
- 得到的嵌入空间会将可在相似时间范围内到达的状态聚类,便于定位有前景的拼接目标。
-
选择拼接对
- 对于任意轨迹碎片,ASTRO 在嵌入空间中查询一个 目标 碎片,其起始状态位于可达距离内且累计奖励更高。
-
基于 Rollout Deviation Feedback(RDF)的动力学引导拼接
- 生成一个临时动作序列(例如通过学习的动力学模型或简单规划器)。
- 在模拟回滚中执行该序列;将得到的状态轨迹与期望的目标轨迹进行比较。
- 将偏差(差异)反馈给规划器,规划器迭代调整动作,直至回滚轨迹在遵守学习动力学的前提下与目标轨迹高度对齐。
-
构建增强数据集
- 将拼接且动力学一致的轨迹加入原始离线数据集。
- 然后在该丰富的数据集上训练标准离线 RL 算法,从更长、更高质量的轨迹中受益。
整个流水线是全可微的,可在现有离线 RL 流程中以最小的工程工作量直接插入。
结果与发现
| 基准 | 基线(如 CQL) | CQL + ASTRO | 提升幅度 |
|---|---|---|---|
| D4RL HalfCheetah‑v2 | 94.2 | 101.8 | +7.6 |
| D4RL Walker2d‑medium | 95.5 | 103.1 | +7.6 |
| OGBench(基于图的控制) | 68.4 | 78.9 | +10.5 |
- 跨多种离线 RL 算法(CQL、IQL、TD3‑BC)均表现出一致的提升。
- 轨迹多样性提升,通过状态空间覆盖率衡量,验证了 ASTRO 能生成新颖且可行的经验。
- 消融实验 表明时序距离编码器和 RDF 引导规划器均为关键组件;去除任一部分性能会回落至接近基线水平。
实际意义
- 更快的策略启动: 开发者可以直接利用现有日志(如机器人、自动驾驶或推荐系统的记录),在无需额外数据采集的情况下显著提升离线 RL 性能。
- 更安全的探索: 由于拼接轨迹遵循学习到的动力学,所得到的策略在后续在线部署时提出不安全动作的概率更低。
- 即插即用的增强: ASTRO 与模型无关,团队只需在现有离线 RL 流程(PyTorch、JAX 等)中加入几行代码即可。
- 降低对高质量数据的依赖: 即使数据集主要由次优行为主导,也能转化为有价值的训练资源,降低了在真实工业场景中对完美示范的需求门槛。
局限性与未来工作
- 动力学模型的保真度: ASTRO 的成功依赖于学习动力学模型的准确性;在高度随机或部分可观测的环境中,回滚偏差反馈可能难以发挥作用。
- 计算开销: 迭代的 RDF 规划相较于简单的数据增强会增加运行时间,可能成为大规模数据集的瓶颈。
- 对高维动作空间的可扩展性: 虽然实验覆盖了标准的连续控制任务,但将该方法推广到极高维或离散动作域(如大规模推荐)仍是未解挑战。
作者提出的未来研究方向包括:
- 将不确定性估计引入动力学模型,以更好地处理随机性。
- 探索层次化拼接,将多步宏动作进行组合。
- 将 ASTRO 应用于真实机器人系统,验证其安全性和样本效率提升的实际效果。
作者
- Hang Yu
- Di Zhang
- Qiwei Du
- Yanping Zhao
- Hai Zhang
- Guang Chen
- Eduardo E. Veas
- Junqiao Zhao
论文信息
- arXiv ID: 2511.23442v1
- 分类: cs.LG, cs.AI
- 发布日期: 2025 年 11 月 28 日
- PDF: Download PDF