[Paper] 从试错中学习:面向 Embodied LLMs 的反思式测试时规划
发布: (2026年2月25日 GMT+8 02:55)
8 分钟阅读
原文: arXiv
看起来您只提供了来源链接,而没有提供需要翻译的正文内容。请提供您希望翻译成简体中文的文本,我会为您进行翻译。
概述
论文 “Learning from Trials and Errors: Reflective Test‑Time Planning for Embodied LLMs” 解决了当前依赖大型语言模型(LLMs)的机器人控制系统的一个核心弱点:它们能够规划高层次的动作,却没有办法在部署过程中 从错误中学习。作者借鉴人类专家的反思实践理念,提出了一种测试时的 “反思” 循环,使机器人能够在运行时生成、评估并即时修正自己的计划,将每一次失败都转化为学习机会。
关键贡献
- Reflective Test‑Time Planning (RTP): 一个两阶段的反思框架,结合 reflection‑in‑action(执行前的自我批评)和 reflection‑on‑action(执行后的模型更新)。
- Retrospective Reflection: 一种事后机制,重新审视早期决策,以在长时间跨度内分配奖励,解决延迟奖励问题。
- New Benchmarks: 引入 Long‑Horizon Household 套件和 MuJoCo Cupboard Fitting 基准,用于评估现实多步骤任务中的反思规划。
- Empirical Gains: 最先进的具身 LLM 基线在成功率上提升 15‑30 %,消融实验确认两种反思模式的互补价值。
- Real‑Robot Validation: 在实体机器人上的演示表明系统能够在无需人工重新编程的情况下纠正抓取或导航错误。
方法论
- 基础具身 LLM: 机器人从一个预训练的 LLM(例如 GPT‑4)开始,该模型将自然语言目标转换为一系列低层次动作。
- Reflection‑in‑Action(执行前):
- LLM 扩展其在测试时的推理,为下一步生成多个候选动作方案。
- 一个内部的“反思模型”(在合成错误数据上训练的轻量分类器)对每个候选方案进行可行性、安全性以及与整体目标对齐程度的评分。
- 选取得分最高的候选方案执行。
- Reflection‑on‑Action(执行后):
- 动作执行后,机器人观察结果(例如成功/失败、传感器反馈)。
- 利用这些反馈,在短期测试时的训练循环中通过梯度步骤同时更新反思模型和动作选择策略,实际上是从错误中“学习”。
- 回顾性反思:
- 对于长时程任务,系统会定期回顾整个动作轨迹,用后续获得的知识重新评估早期决策。
- 将信用重新分配给早期步骤,并相应微调策略。
- 训练与部署: 反思组件离线在模拟失败和人工标注的错误案例混合上进行训练,但关键的学习发生在部署期间——无需额外的数据收集。
结果与发现
| 基准 | 基线成功率 | RTP 成功率 | Δ 改进 |
|---|---|---|---|
| 长期家务任务(10 步) | 48 % | 71 % | +23 % |
| MuJoCo 橱柜装配(操作) | 62 % | 78 % | +16 % |
| 真实机器人抓取放置(5 步) | 55 % | 73 % | +18 % |
- 消融研究 表明,移除行动中的反思会导致性能下降约 9%,而移除对行动的反思会导致下降约 12%,验证两者皆为必需。
- 定性分析 显示机器人通过在尝试放置物体前重新规划抓取来自我纠正误抓,这是基线代理从未能够恢复的。
- 计算开销 相对适中:生成 3–5 个候选动作会在每一步额外增加约 0.4 s,完全符合家用机器人的实时约束。
实际意义
- 稳健的家庭助理: 可部署的机器人现在能够适应意外障碍(例如,椅子被移动),无需基于云的再训练循环,从而对日常用户更可靠。
- 降低工程开销: 开发者可以依赖单一的 LLM 主干,让反射模块处理边缘情况,减少手工编写的异常处理。
- 安全关键操作: 在工业环境中,行动反射可以在不安全的动作导致损害之前捕获它们,提供比传统运动规划器更额外的安全保障。
- 边缘设备的持续改进: 由于学习发生在测试阶段,设备可以在数周的运行中自行提升,而无需将数据发送回服务器,从而保护隐私和带宽。
- 框架兼容性: RTP 架构与模型无关;它可以嵌入任何具身 LLM 流程(例如 SayCan、VIMA),成为机器人社区可复用的组件。
局限性与未来工作
- 反射模型的可扩展性: 当前的反射分类器轻量,但在处理高度复杂的多模态错误空间(例如可变形物体操作)时可能会遇到困难。
- 对模拟失败数据的依赖: 离线预训练依赖合成错误场景;真实世界的多样性可能会暴露出模型的不足。
- 长时程信用分配: 虽然回顾性反射有所帮助,但在超过约 15 步后信用分配仍会下降,表明需要更复杂的记忆机制。
- 硬件限制: 额外的推理过程会增加功耗,这对电池供电的机器人可能是个限制因素。
未来的方向包括:整合视觉引导的自监督以获得更丰富的反射、将框架扩展到多机器人协同,以及探索元学习技术以加速测试时的适应。
作者
- Yining Hong
- Huang Huang
- Manling Li
- Li Fei-Fei
- Jiajun Wu
- Yejin Choi
论文信息
- arXiv ID: 2602.21198v1
- 分类: cs.LG, cs.AI, cs.CL, cs.CV, cs.RO
- 发表时间: 2026年2月24日
- PDF: 下载 PDF