[Paper] TopoCurate:建模交互拓扑用于工具使用代理训练
发布: (2026年3月2日 GMT+8 18:38)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.01714v1
概述
本文介绍了 TopoCurate,一种训练能够使用工具(例如虚拟手、API 或机器人操纵器)的 AI 代理的新方法。TopoCurate 不仅仅关注回滚是否成功结束,而是构建一个 拓扑图,展示在多次尝试中动作和观察是如何相互作用的,从而让训练者能够为监督微调(SFT)和强化学习(RL)挑选最具信息量的经验。
关键贡献
- 交互感知拓扑: 将任务的所有 rollout 投射到统一的语义图中,合并等价的动作‑观察状态,将分散的轨迹转化为结构化流形。
- 双选择课程:
- SFT 选择器 偏好展示错误恢复、语义效率和策略多样性的轨迹,降低协变量偏移和模式崩溃。
- RL 选择器 偏好具有高“错误分支”比例和多样化策略的任务,在稀疏奖励环境中提升梯度信噪比。
- 实证提升: 与最强现有基线相比,在 SFT 基准上实现 +4.2 % 的一致提升,在 RL 基准(BFCLv3、Tau2)上实现 +6.9 % 的提升。
- 开放资源: 计划发布代码、数据以及拓扑构建流水线供社区使用。
方法论
- 收集多次试验的 rollout,针对每个工具使用任务(例如,“pick‑up‑cup”,“open‑door”)。
- 语义商投影:
- 使用预训练的语言‑视觉模型对每个(动作,观察)对进行编码。
- 对语义等价的对进行聚类(例如,“grasp‑handle” 与 “grab‑handle”)。
- 将聚类合并为图的节点;边表示时间上的转移。
- 生成的图捕获代理交互如何分叉为成功或失败分支。
- 双重选择机制:
- SFT 选择器遍历图,寻找包含恢复循环(例如,“failed‑grasp → adjust → retry”)和高效子路径(最小冗余步骤)的路径。它还通过从图的不同策略区域采样来保证多样性。
- RL 选择器计算属于失败分支的边的比例(错误分支比率)以及策略分布的熵。对比率和熵较高的任务被选入 RL 更新,以确保更丰富的梯度信号。
- 训练循环: 选中的 SFT 轨迹用于微调策略,然后 RL 选择器提供高信号任务进行策略梯度更新。该过程迭代进行直至收敛。
结果与发现
| 设置 | 基线 (SFT) | TopoCurate (SFT) | 基线 (RL) | TopoCurate (RL) |
|---|---|---|---|---|
| BFCLv3 | 71.3 % 通过 | 75.5 % (+4.2) | 0.42 % 奖励 | 0.48 % (+6.9) |
| Tau2 | 68.7 % 通过 | 72.9 % (+4.2) | 0.38 % 奖励 | 0.51 % (+6.9) |
- 更高的成功率(SFT)表明,策划后的轨迹让模型学习到更稳健的恢复行为。
- 提升的 RL 奖励显示,错误分支丰富的任务提供了更强的学习信号,缓解了经典的稀疏奖励问题。
- 消融实验确认,拓扑投影和双重选择标准均对提升有叠加贡献。
Practical Implications
- 更可靠的工具使用代理: 构建虚拟助理、游戏 AI 或机器人控制器的开发者可以获得能够优雅地从错误中恢复的策略,而不是仅仅“走运”。
- 减少数据浪费: 通过自动过滤冗余或琐碎的 rollout,训练流水线变得更具样本效率,降低计算成本。
- 强化学习课程设计: 错误分支比例指标提供了一种简单、可解释的方式来优先处理具有挑战性的任务,可嵌入现有的 RL 框架(例如 OpenAI Gym、RLlib)。
- 跨领域适用性: 拓扑构建适用于任何可以嵌入动作和观测的模态(文本、视觉、本体感知),使其适合多模态工具使用场景,例如调用 API 的代码生成代理。
限制与未来工作
- 图构建的可扩展性: 对于非常长的时间范围或大规模数据集,聚类步骤可能变得昂贵;需要近似聚类或流式图更新。
- 对嵌入质量的依赖: 语义等价依赖于预训练编码器;领域特定词汇可能需要对这些编码器进行微调。
- 基准仅限于模拟环境: 真实世界机器人验证仍在等待,作者指出传感器噪声可能影响拓扑的稳定性。
- 未来方向 包括将 TopoCurate 扩展到层次化工具使用(嵌套子任务),整合人机交互反馈以细化拓扑,以及探索拓扑随时间演化的持续学习设置。
作者
- Jinluan Yang
- Yuxin Liu
- Zhengyu Chen
- Chengcheng Han
- Yueqing Sun
- Qi Gu
- Hui Su
- Xunliang Cai
- Fei Wu
- Kun Kuang
论文信息
- arXiv ID: 2603.01714v1
- 分类: cs.LG, cs.CL
- 发布日期: 2026年3月2日
- PDF: Download PDF