[Paper] LISN：语言指令的社交导航与基于VLM的控制器调制

发布: 4个月前 (2025年12月11日 GMT+8 02:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09920v1

Overview

本文介绍了 LISN‑Bench，这是首个评估移动机器人在语言指令下进行社交导航的仿真基准。通过将自然语言指令遵循与经典的避碰结合，作者推动机器人导航向真实世界的人机共存迈进。他们提出的 Social‑Nav‑Modulator 架构利用视觉语言模型（VLM）动态调整代价图和控制器参数，使成功率相较现有基线实现了显著提升。

Key Contributions

LISN‑Bench：基于 Rosnav‑Arena 3.0 的 ROS 开源基准，集成多样的语言指令、场景理解和社交约束。
Social‑Nav‑Modulator：一种层次化的“快‑慢”控制器，其中 VLM 以低频运行调制机器人的代价图和低层控制器增益，实现感知与实时执行的解耦。
Empirical breakthrough：系统达到 91.3 % 的平均成功率，比最强基线高出 63 %，尤其在“在人群中跟随某人”和“避开禁区”等任务上表现突出。
Public resources：代码、基准场景和预训练模型已公开，便于可重复研究和快速原型开发。

Methodology

Benchmark design
- 基于兼容 ROS 的 Rosnav‑Arena 3.0 仿真平台构建。
- 场景包括静态障碍、移动行人以及指令禁区（例如“不要踩红地毯”）。
- 每个 episode 提供自然语言指令和目标位姿。
Social‑Nav‑Modulator architecture
- 慢循环（VLM 代理）：大约每 1 秒，视觉语言模型处理 RGB 图像、当前地图和文本指令，输出调制信号：(i) 对代价图的调整（如在禁区提升代价），以及 (ii) 对低层控制器的缩放因子（如在人靠近时增加角速度增益）。
- 快循环（传统控制器）：标准的 DWA（Dynamic Window Approach）或 TEB（Timed‑Elastic‑Band）规划器以 10–20 Hz 运行，使用调制后的代价图和控制器参数生成速度指令。
- 解耦优势：将重量级 VLM 推理摊销，使机器人控制回路保持响应，同时仍受益于高层语义推理。
Training & inference
- VLM 在合成数据集上进行微调，数据集包含图像、指令与期望的代价图修改配对。
- 无端到端强化学习；系统保持模块化，开发者可自由替换规划器或 VLM 主干。

Results & Findings

Metric	Social‑Nav‑Modulator	Best Baseline (e.g., VLM‑Only)
Success Rate (overall)	91.3 %	56.2 %
Follow‑person in crowd	88.7 %	45.1 %
Forbidden‑zone avoidance	94.2 %	62.3 %
Average navigation time	12.4 s	15.8 s

Speed‑accuracy trade‑off：通过降低 VLM 频率，系统仍保持实时响应（≈20 Hz 控制回路），且成功率高于持续运行 VLM 的方案。
Robustness to dynamic crowds：代价图调制能够快速提升移动行人周围的惩罚，使机器人在不牺牲指令遵循的前提下实现更平滑的绕行。
Ablation studies：去除代价图调制或控制增益缩放任一部分，性能下降约 20 %，验证了两者协同作用的重要性。

Practical Implications

Plug‑and‑play navigation stack：开发者只需替换代价图服务器并接入 VLM 推理节点，即可将 Social‑Nav‑Modulator 集成到现有 ROS 导航流水线，改动极小。
Natural‑language interfaces：服务机器人（如办公室或医院的送餐机器人）现在可以遵循诸如“把咖啡送到会议室，但不要进入消防通道走廊”之类的高层指令，提升用户信任。
Safety‑by‑instruction：禁区处理使机器人能够遵守监管或现场特定规则，而无需在静态地图中硬编码。
Scalable perception：层次化设计降低 GPU 负载，使其在边缘设备（NVIDIA Jetson、Intel NCS2）上也能实现真实部署。
Benchmark as a development yardstick：LISN‑Bench 为评估未来语言引导导航方案提供了标准化测试平台，促进可重复性和公平比较。

Limitations & Future Work

Simulation‑only evaluation：未在真实机器人上验证，域差距（光照、传感器噪声）可能影响 VLM 感知。
Instruction complexity：基准聚焦于单句指令，多步或模糊指令的处理仍是未解难题。
VLM latency：虽然已摊销，但 VLM 仍带来约 1 秒的延迟，在高度动态环境中可能成为瓶颈。
Scalability of fine‑tuning：当前微调依赖合成数据，若要覆盖多样的室内/室外场景，可能需要更大规模、标注完善的语料库。

未来研究方向包括真实机器人实验、用于多步任务的层次化语言规划器，以及基于环境动态自适应调度 VLM 推理的机制。

Authors

Junting Chen
Yunchuan Li
Panfeng Jiang
Jiacheng Du
Zixuan Chen
Chenrui Tie
Jiajun Deng
Lin Shao

Paper Information

arXiv ID: 2512.09920v1
Categories: cs.RO, cs.AI, cs.CV
Published: December 10, 2025
PDF: Download PDF

[Paper] LISN：语言指令的社交导航与基于VLM的控制器调制

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 模糊指纹：对 AI 图像指纹 鲁棒性的系统评估

[Paper] DentalGPT: 激励牙科中的多模态复杂推理

[Paper] Parallax：运行时并行化用于异构边缘系统的算子回退

[Paper] 模糊指纹：对 AI 图像指纹鲁棒性的系统评估