[Paper] Fast-ThinkAct:通过可言语化潜在规划实现高效的 Vision-Language-Action 推理
发布: (2026年1月15日 GMT+8 02:59)
8 min read
原文: arXiv
Source: arXiv - 2601.09708v1
概述
论文 Fast‑ThinkAct 解决了视觉‑语言‑动作(VLA)系统的一个核心瓶颈:它们能够对场景进行良好的推理,但往往会给出冗长的思路链(CoT)解释,从而导致推理速度极其缓慢。通过让模型生成 紧凑的、“可口头表达”的潜在计划 并直接执行这些计划,作者实现了接近最新水平的性能,同时将延迟降低了最高 89 %。这使得 VLA 代理在实时机器人和交互式 AI 应用中更加实用。
关键贡献
- Latent CoT Distillation: 引入一种教师‑学生框架,将完整的文本推理轨迹压缩为简短的潜在表示,同时不损失规划质量。
- Preference‑Guided Objective: 将潜在计划与机器人实际执行的操作轨迹对齐,确保蒸馏的推理基于物理可行性。
- Reasoning‑Enhanced Policy Learning: 将紧凑的潜在规划器与下游策略网络耦合,使智能体能够在一次前向传播中将“思考”转化为动作。
- Broad Empirical Validation: 在多个具身操作基准(如 ALFRED、RoboTHOR)和推理任务上验证该方法,显示出与完整 CoT 基线相当或更优的成功率。
- Latency Reduction: 与现有最佳 VLA 推理流水线相比,实现了最高 89.3 % 的推理时间降低,同时保留了长时程规划、少样本适应和失败恢复能力。
方法论
-
教师模型(完整 CoT 生成器):
- 首先训练一个大型多模态 Transformer(例如 GPT‑4 风格),使其生成详细的文本推理链,将视觉‑语言提示映射为一系列操作动作。
-
学生模型(潜在规划器):
- 一个较小的 Transformer 学习预测潜在向量,该向量隐式编码相同的计划。
- 通过知识蒸馏训练学生:强制潜在向量使用轻量解码器重建教师的 CoT,同时直接以真实动作轨迹进行监督。
-
偏好引导损失:
- 损失由两部分组成:(a) 语言对齐(潜在计划转回教师 CoT 的语言表达程度)和 (b) 轨迹对齐(生成的机器人运动与专家示范的匹配程度)。
- 这一双重目标确保潜在计划既可解释(可以转化为文字),又可执行(符合物理和任务约束)。
-
策略集成:
- 将潜在规划器的输出输入到标准的强化学习风格策略网络,该网络将潜在计划和当前观测映射为低层次的电机指令。
- 由于潜在计划是固定大小的向量,整个管线在一次前向传播中完成,消除了完整 CoT 生成的多步解码开销。
Results & Findings
| 基准 | 指标(成功率) | 相对于 Full‑CoT 的延迟降低 |
|---|---|---|
| ALFRED(长时任务) | +2.1 % 超过基线 | ≈ 85 % |
| RoboTHOR(少样本适应) | +1.8 % | ≈ 89 % |
| 自定义故障恢复套件 | +3.4 % | ≈ 88 % |
- 性能持平: Fast‑ThinkAct 的成功率与最佳显式 CoT 模型相当或略有超出,证实紧凑的潜在推理并未牺牲规划质量。
- 速度提升: 每个回合的平均推理时间从约 2.5 秒(完整 CoT)降至约 0.3 秒,使得在边缘设备上实现实时部署成为可能。
- 鲁棒性: 由于轨迹对齐损失使模型学会预判并纠正偏差,潜在规划器仍能从执行错误中恢复。
实际意义
- 实时机器人: 服务机器人、仓库拣选机器人和自主无人机现在可以加入复杂的视觉‑语言推理,而不会出现之前迫使它们依赖反应式、浅层策略的延迟。
- 边缘部署: 由于学生模型轻量且推理步骤仅为单一向量预测,整个系统可以轻松运行在现代 GPU 加速的边缘硬件上(例如 NVIDIA Jetson)。
- 按需可解释性: 开发者可以选择调用解码器来“口头化”潜在计划,以便调试或面向用户的解释,在速度和可解释性之间取得平衡。
- 快速原型: 少样本适应能力意味着新任务(例如新厨房电器)只需少量示例即可教学,加速产品迭代周期。
- 容错安全操作: 内置的恢复推理降低了对外部安全监控的需求,简化了在安全关键环境中的系统集成。
限制与未来工作
- 领域转移: 当前实验聚焦于室内操作;扩展到室外或高度动态的场景可能需要额外的视觉定位机制。
- 教师模型的可扩展性: 训练大型教师模型仍然需要大量计算资源;未来工作可以探索自监督或合成数据以降低成本。
- 可解释性权衡: 虽然潜在计划可以被解码,但随着潜在空间的压缩,文字化的保真度会下降;改进这种“按需解释”路径是一个开放的挑战。
- 多代理场景: 该框架假设单一具身代理;将潜在规划范式适配到协同多机器人任务是一个有前景的方向。
Fast‑ThinkAct 展示了 高效的潜在推理 能够将两者的优势——深度、语言引导的规划和实时动作执行——带给构建下一代具身 AI 系统的开发者。
作者
- Chi-Pin Huang
- Yunze Man
- Zhiding Yu
- Min-Hung Chen
- Jan Kautz
- Yu-Chiang Frank Wang
- Fu-En Yang
论文信息
- arXiv ID: 2601.09708v1
- 分类: cs.CV, cs.AI, cs.LG, cs.RO
- 发表时间: 2026年1月14日
- PDF: 下载 PDF