[Paper] LISN:语言指令的社交导航与基于VLM的控制器调制
发布: (2025年12月11日 GMT+8 02:54)
6 min read
原文: arXiv
Source: arXiv - 2512.09920v1
Overview
本文介绍了 LISN‑Bench,这是首个评估移动机器人在语言指令下进行社交导航的仿真基准。通过将自然语言指令遵循与经典的避碰结合,作者推动机器人导航向真实世界的人机共存迈进。他们提出的 Social‑Nav‑Modulator 架构利用视觉语言模型(VLM)动态调整代价图和控制器参数,使成功率相较现有基线实现了显著提升。
Key Contributions
- LISN‑Bench:基于 Rosnav‑Arena 3.0 的 ROS 开源基准,集成多样的语言指令、场景理解和社交约束。
- Social‑Nav‑Modulator:一种层次化的“快‑慢”控制器,其中 VLM 以低频运行调制机器人的代价图和低层控制器增益,实现感知与实时执行的解耦。
- Empirical breakthrough:系统达到 91.3 % 的平均成功率,比最强基线高出 63 %,尤其在“在人群中跟随某人”和“避开禁区”等任务上表现突出。
- Public resources:代码、基准场景和预训练模型已公开,便于可重复研究和快速原型开发。
Methodology
-
Benchmark design
- 基于兼容 ROS 的 Rosnav‑Arena 3.0 仿真平台构建。
- 场景包括静态障碍、移动行人以及指令禁区(例如“不要踩红地毯”)。
- 每个 episode 提供自然语言指令和目标位姿。
-
Social‑Nav‑Modulator architecture
- 慢循环(VLM 代理):大约每 1 秒,视觉语言模型处理 RGB 图像、当前地图和文本指令,输出调制信号:(i) 对代价图的调整(如在禁区提升代价),以及 (ii) 对低层控制器的缩放因子(如在人靠近时增加角速度增益)。
- 快循环(传统控制器):标准的 DWA(Dynamic Window Approach)或 TEB(Timed‑Elastic‑Band)规划器以 10–20 Hz 运行,使用调制后的代价图和控制器参数生成速度指令。
- 解耦优势:将重量级 VLM 推理摊销,使机器人控制回路保持响应,同时仍受益于高层语义推理。
-
Training & inference
- VLM 在合成数据集上进行微调,数据集包含图像、指令与期望的代价图修改配对。
- 无端到端强化学习;系统保持模块化,开发者可自由替换规划器或 VLM 主干。
Results & Findings
| Metric | Social‑Nav‑Modulator | Best Baseline (e.g., VLM‑Only) |
|---|---|---|
| Success Rate (overall) | 91.3 % | 56.2 % |
| Follow‑person in crowd | 88.7 % | 45.1 % |
| Forbidden‑zone avoidance | 94.2 % | 62.3 % |
| Average navigation time | 12.4 s | 15.8 s |
- Speed‑accuracy trade‑off:通过降低 VLM 频率,系统仍保持实时响应(≈20 Hz 控制回路),且成功率高于持续运行 VLM 的方案。
- Robustness to dynamic crowds:代价图调制能够快速提升移动行人周围的惩罚,使机器人在不牺牲指令遵循的前提下实现更平滑的绕行。
- Ablation studies:去除代价图调制或控制增益缩放任一部分,性能下降约 20 %,验证了两者协同作用的重要性。
Practical Implications
- Plug‑and‑play navigation stack:开发者只需替换代价图服务器并接入 VLM 推理节点,即可将 Social‑Nav‑Modulator 集成到现有 ROS 导航流水线,改动极小。
- Natural‑language interfaces:服务机器人(如办公室或医院的送餐机器人)现在可以遵循诸如“把咖啡送到会议室,但不要进入消防通道走廊”之类的高层指令,提升用户信任。
- Safety‑by‑instruction:禁区处理使机器人能够遵守监管或现场特定规则,而无需在静态地图中硬编码。
- Scalable perception:层次化设计降低 GPU 负载,使其在边缘设备(NVIDIA Jetson、Intel NCS2)上也能实现真实部署。
- Benchmark as a development yardstick:LISN‑Bench 为评估未来语言引导导航方案提供了标准化测试平台,促进可重复性和公平比较。
Limitations & Future Work
- Simulation‑only evaluation:未在真实机器人上验证,域差距(光照、传感器噪声)可能影响 VLM 感知。
- Instruction complexity:基准聚焦于单句指令,多步或模糊指令的处理仍是未解难题。
- VLM latency:虽然已摊销,但 VLM 仍带来约 1 秒的延迟,在高度动态环境中可能成为瓶颈。
- Scalability of fine‑tuning:当前微调依赖合成数据,若要覆盖多样的室内/室外场景,可能需要更大规模、标注完善的语料库。
未来研究方向包括真实机器人实验、用于多步任务的层次化语言规划器,以及基于环境动态自适应调度 VLM 推理的机制。
Authors
- Junting Chen
- Yunchuan Li
- Panfeng Jiang
- Jiacheng Du
- Zixuan Chen
- Chenrui Tie
- Jiajun Deng
- Lin Shao
Paper Information
- arXiv ID: 2512.09920v1
- Categories: cs.RO, cs.AI, cs.CV
- Published: December 10, 2025
- PDF: Download PDF