[논문] LISN: 언어 지시형 사회적 내비게이션과 VLM 기반 컨트롤러 조정

발행: (2025년 12월 11일 오전 03:54 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.09920v1

Overview

이 논문은 LISN‑Bench를 소개한다. 이는 언어‑지시 기반 사회적 내비게이션을 평가하는 최초의 시뮬레이션 벤치마크이다. 자연어 지시 수행과 기존 충돌 회피를 결합함으로써, 저자들은 로봇 내비게이션을 실제 인간‑로봇 공존 환경으로 끌어낸다. 제안된 Social‑Nav‑Modulator 아키텍처는 비전‑언어 모델(VLM)을 활용해 비용지도와 컨트롤러 파라미터를 동적으로 조정함으로써, 기존 베이스라인 대비 성공률을 크게 향상시킨다.

Key Contributions

  • LISN‑Bench: Rosnav‑Arena 3.0을 기반으로 한 ROS‑기반 오픈소스 벤치마크로, 다양한 언어 지시, 장면 이해, 사회적 제약을 통합한다.
  • Social‑Nav‑Modulator: VLM이 낮은 주파수에서 실행되어 로봇의 비용지도와 저수준 컨트롤러 이득을 조절하는 계층적 “fast‑slow” 컨트롤러이다. 무거운 인식을 실시간 구동과 분리한다.
  • Empirical breakthrough: 시스템이 91.3 % 평균 성공률을 달성했으며, 가장 강력한 베이스라인보다 63 % 높은 성능을 보인다. 특히 “군중 속에서 사람 따라가기”와 “금지 구역 회피”와 같은 과제에서 두드러진다.
  • Public resources: 코드, 벤치마크 시나리오, 사전 학습 모델을 공개하여 재현 가능한 연구와 빠른 프로토타이핑을 가능하게 한다.

Methodology

  1. Benchmark design

    • ROS와 호환되는 Rosnav‑Arena 3.0 시뮬레이터 위에 구축됨.
    • 시나리오에는 정적 장애물, 움직이는 보행자, 지시‑금지 영역(예: “빨간 카펫을 건너지 말라”)이 포함된다.
    • 각 에피소드는 자연어 명령과 목표 자세를 제공한다.
  2. Social‑Nav‑Modulator architecture

    • Slow loop (VLM agent): 약 1 초마다 비전‑언어 모델이 RGB 이미지, 현재 지도, 텍스트 명령을 처리한다. 조절 신호를 출력한다: (i) 비용지도 조정(예: 금지 구역의 비용 상승), (ii) 저수준 컨트롤러 스케일링 팩터(예: 사람이 가까이 있을 때 각도 이득 증가).
    • Fast loop (traditional controller): 표준 DWA(Dynamic Window Approach) 또는 TEB(Timed‑Elastic‑Band) 플래너가 10–20 Hz에서 실행되어, 조절된 비용지도와 컨트롤러 파라미터를 사용해 속도 명령을 생성한다.
    • Decoupling advantage: 무거운 VLM 추론을 분산시켜 로봇 제어 루프는 응답성을 유지하면서 고수준 의미 추론의 이점을 얻는다.
  3. Training & inference

    • VLM은 이미지, 명령, 원하는 비용지도 수정이 짝을 이룬 합성 데이터셋으로 미세조정된다.
    • 엔드‑투‑엔드 강화학습은 사용되지 않는다; 시스템은 모듈식으로 유지되어 플래너나 VLM 백본을 자유롭게 교체할 수 있다.

Results & Findings

MetricSocial‑Nav‑ModulatorBest Baseline (e.g., VLM‑Only)
Success Rate (overall)91.3 %56.2 %
Follow‑person in crowd88.7 %45.1 %
Forbidden‑zone avoidance94.2 %62.3 %
Average navigation time12.4 s15.8 s
  • Speed‑accuracy trade‑off: VLM을 낮은 주파수로 실행함으로써 시스템은 실시간 응답성(≈20 Hz 제어 루프)을 유지하면서도 지속적으로 VLM을 구동하는 경우보다 높은 성공률을 달성한다.
  • Robustness to dynamic crowds: 비용지도 조절이 움직이는 보행자 주변에 빠르게 패널티를 높여, 지시 준수를 희생하지 않고도 부드러운 우회를 가능하게 한다.
  • Ablation studies: 비용지도 조절이나 컨트롤러 이득 스케일링 중 하나를 제거하면 성능이 약 20 % 감소함을 확인했으며, 두 신호가 시너지 효과를 낸다.

Practical Implications

  • Plug‑and‑play navigation stack: 개발자는 기존 ROS 내비게이션 파이프라인에 Social‑Nav‑Modulator를 최소한의 변경만으로 통합할 수 있다—비용지도 서버를 교체하고 VLM 추론 노드를 노출하면 된다.
  • Natural‑language interfaces: 사무실이나 병원에서 사용되는 서비스 로봇이 “회의실에 커피를 가져다 주되, 비상구 복도는 피하라”와 같은 고수준 명령을 수행할 수 있어 사용자 신뢰도가 향상된다.
  • Safety‑by‑instruction: 금지 구역 처리는 정적 지도를 하드코딩하지 않고도 규제나 현장별 규칙을 준수하도록 만든다.
  • Scalable perception: 계층적 설계가 GPU 부하를 감소시켜 NVIDIA Jetson, Intel NCS2와 같은 엣지 디바이스에서도 실현 가능하게 만든다.
  • Benchmark as a development yardstick: LISN‑Bench는 향후 언어‑유도 내비게이션 솔루션을 평가하기 위한 표준화된 테스트베드를 제공하여 재현성과 공정한 비교를 촉진한다.

Limitations & Future Work

  • Simulation‑only evaluation: 실제 로봇에 대한 전이는 보여지지 않았으며, 조명·센서 노이즈 등 도메인 격차가 VLM 인식에 영향을 줄 수 있다.
  • Instruction complexity: 벤치마크는 단일 문장 명령에 초점을 맞추고 있어, 다단계·모호한 지시 처리에는 아직 한계가 있다.
  • VLM latency: 비록 분산되었지만 VLM은 여전히 약 1 초 지연을 발생시키며, 이는 매우 동적인 환경에서는 문제가 될 수 있다.
  • Scalability of fine‑tuning: 현재 VLM 미세조정은 합성 데이터에 의존하고 있어, 다양한 실내·실외 도메인으로 확장하려면 더 큰 주석 데이터가 필요할 것이다.

향후 연구 방향은 실제 로봇 실험, 다단계 작업을 위한 계층적 언어 플래너, 환경 동적성에 기반한 적응형 VLM 추론 스케줄링 등을 포함한다.

Authors

  • Junting Chen
  • Yunchuan Li
  • Panfeng Jiang
  • Jiacheng Du
  • Zixuan Chen
  • Chenrui Tie
  • Jiajun Deng
  • Lin Shao

Paper Information

  • arXiv ID: 2512.09920v1
  • Categories: cs.RO, cs.AI, cs.CV
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Particulate: Feed-Forward 3D 객체 관절화

우리는 Particulate라는 feed-forward 접근 방식을 제시한다. 이 방법은 일상적인 객체의 단일 정적 3D mesh를 입력으로 받아, 기본적인 articulation의 모든 속성을 직접 추론한다.