[Paper] RoboPocket：使用你的手机即时改进机器人策略

发布: 15小时前 (2026年3月6日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.05504v1

概述

RoboPocket 展示了普通智能手机如何成为一种强大的工具，能够即时改进机器人控制策略。通过使用增强现实（AR）将机器人预测的未来运动投射到真实世界，用户可以在没有实际机器人在手的情况下发现并纠正失败案例，从而将模仿学习的数据收集瓶颈转变为快速、交互式的循环。

Remote Inference + AR Visual Foresight: 在用户环境中可视化策略的预测轨迹，使操作员在实际执行前看到机器人将要去往的位置。
Robot‑Free Interactive Data Collection: 仅使用消费级手机即可实现“即时策略迭代”，在纠正阶段无需昂贵的机器人硬件。
Asynchronous Online Fine‑tuning Pipeline: 将新收集的示例流式传输到训练服务器，并在几分钟内更新策略，实现近实时的学习闭环。
Empirical Validation of Scaling Laws: 表明系统遵循已确立的数据尺度趋势，并相较于纯离线数据尺度方法实现最高 2× higher sample efficiency（2 倍的样本效率提升）。
Distributed Interactive Corrections: 证明少数用户提供的针对性纠正能够显著提升整 fleet 机器人的性能。

Source: …

手机上的策略预测 – 当前的机器人策略运行在云服务器上；手机将实时摄像头画面流式传输到服务器，服务器返回短时域轨迹预测（例如几秒钟的机器人运动）。
AR 覆盖 – 使用手机的 AR 工具包，将预测路径渲染为虚拟线条或幽灵机器人，叠加在用户视野中，并锚定到真实场景。
人机交互校正 – 操作员观看覆盖层。如果预测路径看起来不安全或次优（例如与障碍物碰撞），他们通过移动手机并点击“记录”按钮来录制纠正示范。手机将纠正后的轨迹捕获为标记示例。
异步微调 – 录制的演示上传到训练节点，持续聚合新数据，执行少量梯度更新，并将更新后的模型推送回推理服务。循环每隔几分钟重复一次，因此下一个 AR 预览已经反映了最新的改进。
分布式扩展 – 多个用户可以并行运行相同的流水线，各自贡献针对性的校正；中心训练器合并所有数据流，实现一种无需现场机器人的分布式 DAgger。

RoboPocket 为机器人学习的民主化打开了一条引人注目的道路——将口袋大小的设备转变为快速、交互式的自主系统教师。随着作者继续延长预测视野并提升后端可扩展性，我们或许很快就会看到大规模、无机器人参与的众包训练流水线，为下一代智能机器人提供动力。