[Paper] LISN:语言指令的社交导航与基于VLM的控制器调制

发布: (2025年12月11日 GMT+8 02:54)
6 min read
原文: arXiv

Source: arXiv - 2512.09920v1

Overview

本文介绍了 LISN‑Bench,这是首个评估移动机器人在语言指令下进行社交导航的仿真基准。通过将自然语言指令遵循与经典的避碰结合,作者推动机器人导航向真实世界的人机共存迈进。他们提出的 Social‑Nav‑Modulator 架构利用视觉语言模型(VLM)动态调整代价图和控制器参数,使成功率相较现有基线实现了显著提升。

Key Contributions

  • LISN‑Bench:基于 Rosnav‑Arena 3.0 的 ROS 开源基准,集成多样的语言指令、场景理解和社交约束。
  • Social‑Nav‑Modulator:一种层次化的“快‑慢”控制器,其中 VLM 以低频运行调制机器人的代价图和低层控制器增益,实现感知与实时执行的解耦。
  • Empirical breakthrough:系统达到 91.3 % 的平均成功率,比最强基线高出 63 %,尤其在“在人群中跟随某人”和“避开禁区”等任务上表现突出。
  • Public resources:代码、基准场景和预训练模型已公开,便于可重复研究和快速原型开发。

Methodology

  1. Benchmark design

    • 基于兼容 ROS 的 Rosnav‑Arena 3.0 仿真平台构建。
    • 场景包括静态障碍、移动行人以及指令禁区(例如“不要踩红地毯”)。
    • 每个 episode 提供自然语言指令和目标位姿。
  2. Social‑Nav‑Modulator architecture

    • 慢循环(VLM 代理):大约每 1 秒,视觉语言模型处理 RGB 图像、当前地图和文本指令,输出调制信号:(i) 对代价图的调整(如在禁区提升代价),以及 (ii) 对低层控制器的缩放因子(如在人靠近时增加角速度增益)。
    • 快循环(传统控制器):标准的 DWA(Dynamic Window Approach)或 TEB(Timed‑Elastic‑Band)规划器以 10–20 Hz 运行,使用调制后的代价图和控制器参数生成速度指令。
    • 解耦优势:将重量级 VLM 推理摊销,使机器人控制回路保持响应,同时仍受益于高层语义推理。
  3. Training & inference

    • VLM 在合成数据集上进行微调,数据集包含图像、指令与期望的代价图修改配对。
    • 无端到端强化学习;系统保持模块化,开发者可自由替换规划器或 VLM 主干。

Results & Findings

MetricSocial‑Nav‑ModulatorBest Baseline (e.g., VLM‑Only)
Success Rate (overall)91.3 %56.2 %
Follow‑person in crowd88.7 %45.1 %
Forbidden‑zone avoidance94.2 %62.3 %
Average navigation time12.4 s15.8 s
  • Speed‑accuracy trade‑off:通过降低 VLM 频率,系统仍保持实时响应(≈20 Hz 控制回路),且成功率高于持续运行 VLM 的方案。
  • Robustness to dynamic crowds:代价图调制能够快速提升移动行人周围的惩罚,使机器人在不牺牲指令遵循的前提下实现更平滑的绕行。
  • Ablation studies:去除代价图调制或控制增益缩放任一部分,性能下降约 20 %,验证了两者协同作用的重要性。

Practical Implications

  • Plug‑and‑play navigation stack:开发者只需替换代价图服务器并接入 VLM 推理节点,即可将 Social‑Nav‑Modulator 集成到现有 ROS 导航流水线,改动极小。
  • Natural‑language interfaces:服务机器人(如办公室或医院的送餐机器人)现在可以遵循诸如“把咖啡送到会议室,但不要进入消防通道走廊”之类的高层指令,提升用户信任。
  • Safety‑by‑instruction:禁区处理使机器人能够遵守监管或现场特定规则,而无需在静态地图中硬编码。
  • Scalable perception:层次化设计降低 GPU 负载,使其在边缘设备(NVIDIA Jetson、Intel NCS2)上也能实现真实部署。
  • Benchmark as a development yardstick:LISN‑Bench 为评估未来语言引导导航方案提供了标准化测试平台,促进可重复性和公平比较。

Limitations & Future Work

  • Simulation‑only evaluation:未在真实机器人上验证,域差距(光照、传感器噪声)可能影响 VLM 感知。
  • Instruction complexity:基准聚焦于单句指令,多步或模糊指令的处理仍是未解难题。
  • VLM latency:虽然已摊销,但 VLM 仍带来约 1 秒的延迟,在高度动态环境中可能成为瓶颈。
  • Scalability of fine‑tuning:当前微调依赖合成数据,若要覆盖多样的室内/室外场景,可能需要更大规模、标注完善的语料库。

未来研究方向包括真实机器人实验、用于多步任务的层次化语言规划器,以及基于环境动态自适应调度 VLM 推理的机制。

Authors

  • Junting Chen
  • Yunchuan Li
  • Panfeng Jiang
  • Jiacheng Du
  • Zixuan Chen
  • Chenrui Tie
  • Jiajun Deng
  • Lin Shao

Paper Information

  • arXiv ID: 2512.09920v1
  • Categories: cs.RO, cs.AI, cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »