[Paper] TopoCurate：建模交互拓扑用于工具使用代理训练

发布: 1天前 (2026年3月2日 GMT+8 18:38)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.01714v1

概述

本文介绍了 TopoCurate，一种训练能够使用工具（例如虚拟手、API 或机器人操纵器）的 AI 代理的新方法。TopoCurate 不仅仅关注回滚是否成功结束，而是构建一个 拓扑图，展示在多次尝试中动作和观察是如何相互作用的，从而让训练者能够为监督微调（SFT）和强化学习（RL）挑选最具信息量的经验。

关键贡献

交互感知拓扑: 将任务的所有 rollout 投射到统一的语义图中，合并等价的动作‑观察状态，将分散的轨迹转化为结构化流形。
双选择课程:
- SFT 选择器 偏好展示错误恢复、语义效率和策略多样性的轨迹，降低协变量偏移和模式崩溃。
- RL 选择器 偏好具有高“错误分支”比例和多样化策略的任务，在稀疏奖励环境中提升梯度信噪比。
实证提升: 与最强现有基线相比，在 SFT 基准上实现 +4.2 % 的一致提升，在 RL 基准（BFCLv3、Tau2）上实现 +6.9 % 的提升。
开放资源: 计划发布代码、数据以及拓扑构建流水线供社区使用。

方法论

收集多次试验的 rollout，针对每个工具使用任务（例如，“pick‑up‑cup”，“open‑door”）。
语义商投影：
- 使用预训练的语言‑视觉模型对每个（动作，观察）对进行编码。
- 对语义等价的对进行聚类（例如，“grasp‑handle” 与 “grab‑handle”）。
- 将聚类合并为图的节点；边表示时间上的转移。
- 生成的图捕获代理交互如何分叉为成功或失败分支。
双重选择机制：
- SFT 选择器遍历图，寻找包含恢复循环（例如，“failed‑grasp → adjust → retry”）和高效子路径（最小冗余步骤）的路径。它还通过从图的不同策略区域采样来保证多样性。
- RL 选择器计算属于失败分支的边的比例（错误分支比率）以及策略分布的熵。对比率和熵较高的任务被选入 RL 更新，以确保更丰富的梯度信号。
训练循环： 选中的 SFT 轨迹用于微调策略，然后 RL 选择器提供高信号任务进行策略梯度更新。该过程迭代进行直至收敛。

结果与发现

设置	基线 (SFT)	TopoCurate (SFT)	基线 (RL)	TopoCurate (RL)
BFCLv3	71.3 % 通过	75.5 % (+4.2)	0.42 % 奖励	0.48 % (+6.9)
Tau2	68.7 % 通过	72.9 % (+4.2)	0.38 % 奖励	0.51 % (+6.9)

更高的成功率（SFT）表明，策划后的轨迹让模型学习到更稳健的恢复行为。
提升的 RL 奖励显示，错误分支丰富的任务提供了更强的学习信号，缓解了经典的稀疏奖励问题。
消融实验确认，拓扑投影和双重选择标准均对提升有叠加贡献。

Practical Implications

更可靠的工具使用代理： 构建虚拟助理、游戏 AI 或机器人控制器的开发者可以获得能够优雅地从错误中恢复的策略，而不是仅仅“走运”。
减少数据浪费： 通过自动过滤冗余或琐碎的 rollout，训练流水线变得更具样本效率，降低计算成本。
强化学习课程设计： 错误分支比例指标提供了一种简单、可解释的方式来优先处理具有挑战性的任务，可嵌入现有的 RL 框架（例如 OpenAI Gym、RLlib）。
跨领域适用性： 拓扑构建适用于任何可以嵌入动作和观测的模态（文本、视觉、本体感知），使其适合多模态工具使用场景，例如调用 API 的代码生成代理。

限制与未来工作

图构建的可扩展性: 对于非常长的时间范围或大规模数据集，聚类步骤可能变得昂贵；需要近似聚类或流式图更新。
对嵌入质量的依赖: 语义等价依赖于预训练编码器；领域特定词汇可能需要对这些编码器进行微调。
基准仅限于模拟环境: 真实世界机器人验证仍在等待，作者指出传感器噪声可能影响拓扑的稳定性。
未来方向 包括将 TopoCurate 扩展到层次化工具使用（嵌套子任务），整合人机交互反馈以细化拓扑，以及探索拓扑随时间演化的持续学习设置。

作者

Jinluan Yang
Yuxin Liu
Zhengyu Chen
Chengcheng Han
Yueqing Sun
Qi Gu
Hui Su
Xunliang Cai
Fei Wu
Kun Kuang

论文信息

arXiv ID: 2603.01714v1
分类: cs.LG, cs.CL
发布日期: 2026年3月2日
PDF: Download PDF

[Paper] TopoCurate：建模交互拓扑用于工具使用代理训练

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时强化学习的工具验证

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验

[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)

[Paper] LLMs 作为战略行为者：行为对齐、风险校准与论证框架在地缘政治模拟中的研究