[Paper] NovaPlan: 제로샷 장기 조작을 위한 폐쇄 루프 비디오 언어 계획
발행: (2026년 2월 24일 오전 03:35 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.20119v1
Overview
NovaPlan은 로봇이 특정 작업에 대한 훈련 없이 다단계, 개방형 조작 작업을 수행하도록 하는 로봇 공학 분야의 가장 어려운 과제 중 하나를 해결합니다. 대형 비전‑언어 모델(VLM)과 비디오 기반 계획, 그리고 기하학을 고려한 저수준 컨트롤러를 결합함으로써, 시스템은 생각하고, 관찰하고, 행동하는 폐쇄 루프를 구현하며, 실시간으로 실수를 자동으로 복구할 수 있습니다.
주요 기여
- Zero‑shot 계층적 계획 – VLM 기반 고수준 플래너가 임의의 자연어 명령을 하위 목표로 분해하고 실행을 지속적으로 모니터링합니다.
- 폐쇄‑루프 비디오 기반 상상 – 시스템이 원하는 하위 목표에 대한 짧은 비디오 클립을 생성하고, 객체 키포인트와 인간 손 자세를 추출하여 로봇의 움직임 사전 정보로 활용합니다.
- 동적 사전 전환 – 경량 선택기가 시각적 조건(예: 가림, 깊이 노이즈)에 따라 객체 중심 사전과 손 중심 사전 중 하나를 선택해 로봇 움직임을 안정적으로 유지합니다.
- 자율 오류 복구 – 저수준 행동이 실패하면 고수준 VLM이 남은 단계들을 다시 계획하여 인간 개입 없이도 장기적인 로봇 행동을 견고하게 수행합니다.
- 광범위한 평가 – 세 가지 복잡한 조립 작업 및 Functional Manipulation Benchmark(FMB)에서 기존 Zero‑shot 베이스라인을 능가하는 성능을 입증했습니다.
Source: …
Methodology
- 고수준 의미 플래너 – 사전 학습된 비전‑언어 모델이 사용자의 자연어 명령(예: “장난감 차를 조립해”)을 받습니다. 모델은 텍스트 형태의 하위 목표 시퀀스(예: “바퀴를 집어 올리기”, “바퀴를 축에 부착하기”)를 생성합니다.
- 폐쇄‑루프 모니터링 – 각 하위 목표가 완료된 후, 로봇은 카메라 영상을 VLM에 스트리밍합니다. 관찰된 상태가 상상한 결과와 다르면, 플래너가 남은 계획을 수정합니다.
- 비디오 상상 및 사전 추출 – 각 하위 목표마다 비디오 생성 모델이 인간이 해당 단계를 수행하는 짧은 클립을 합성합니다. 이 클립으로부터 시스템은 다음을 추출합니다:
- 객체 키포인트(예: 블록의 모서리) – 로봇이 물체를 잡거나 놓아야 할 위치를 정의합니다.
- 인간 손 자세 – 운동학적 궤적을 제공합니다.
- 사전 선택 및 저수준 제어 – 경량 분류기가 시각적 신뢰도(가림, 깊이 오류)를 평가하고, 더 신뢰할 수 있는 사전을 선택합니다. 선택된 사전은 충돌 제약을 고려하는 기하학‑인식 컨트롤러를 통해 관절‑공간 명령으로 변환됩니다.
- 반복 실행 – 로봇은 저수준 동작을 수행하고 센서 데이터를 다시 스트리밍하며, 전체 작업이 완료될 때까지 이 루프가 반복됩니다.
Results & Findings
| Task / Benchmark | Success Rate (Zero‑Shot) | Compared Baseline | Notable Behaviors |
|---|---|---|---|
| Toy Car Assembly (4 steps) | 87 % | VLM‑only planning (45 %) | 놓친 그립 후 재계획하여 조립을 완료함. |
| Shelf‑Stacking (5 objects) | 81 % | Video‑only prior (58 %) | 손 자세가 가려졌을 때 객체‑키포인트 사전으로 전환함. |
| Functional Manipulation Benchmark (FMB) | 73 % (average across 10 tasks) | Prior state‑of‑the‑art zero‑shot (62 %) | 미끄러진 물체를 다시 잡는 등 정교한 오류 복구를 시연함. |
Key takeaways
- Closed‑loop VLM monitor는 실패 전파를 크게 감소시켜, 단일 실수가 전체 작업을 거의 방해하지 않게 함.
- Prior switching은 어려운 시각 조건에서 강인성을 향상시켜, 보다 부드러운 궤적을 제공함.
- 모든 기능은 특정 작업 데모나 파인‑튜닝 없이 나타나며, 제로‑샷 주장을 입증함.
실용적 함의
- 새로운 작업에 대한 빠른 프로토타이핑 – 엔지니어는 로봇에게 간단한 영어 명령을 전달하고 NovaPlan이 실행 가능한 계획을 생성하도록 하여 데이터 수집 및 주석 비용을 절감할 수 있습니다.
- 적응형 제조 셀 – 제품 변형이 자주 바뀌는 유연한 공장에서는 NovaPlan이 실시간으로 조작 순서를 재구성하여 예상치 못한 부품 배치나 작은 걸림을 처리할 수 있습니다.
- 보조 로봇공학 – 가정용 로봇은 사용자의 명령(예: “식탁을 차려”)을 해석하고 접시가 미끄러질 경우 우아하게 복구하여 보다 안전하고 신뢰할 수 있게 됩니다.
- 도구에 구애받지 않는 개발 – 시스템이 일반적인 비디오 생성 및 VLM에 의존하기 때문에 맞춤형 인식 파이프라인 없이도 기존 로봇 스택(ROS, MoveIt)과 통합할 수 있습니다.
제한 사항 및 향후 연구
- 비디오 생성 품질에 대한 의존 – 부실하게 상상된 클립(예: 비현실적인 조명)은 키포인트 추출을 손상시켜, 매우 복잡한 장면에서 성능을 제한할 수 있다.
- 깊이 센서 정확도 – 깊이 측정이 노이즈가 많을 때, 특히 반사성이나 투명한 물체에 대해 기하학 컨트롤러가 여전히 어려움을 겪는다.
- VLM 모니터링의 확장성 – 실시간 폐쇄‑루프 추론이 엣지 하드웨어에서 병목 현상이 될 수 있으며, 향후 연구에서는 경량 증류를 탐색할 수 있다.
- 비강체 조작으로의 확장 – 현재 실험은 강체 물체에 초점을 맞추고 있으며, 변형 가능한 물체(천, 음식)를 다루기 위해서는 더 풍부한 사전 지식과 가능하면 촉각 피드백이 필요하다.
저자들은 촉각 센싱의 보다 긴밀한 통합을 탐색하고, 도메인 이동 상황에서 비디오 사전 지식의 견고성을 향상시키며, NovaPlan을 대규모 산업 조립 라인에 벤치마크할 계획이다.
저자
- Jiahui Fu
- Junyu Nan
- Lingfeng Sun
- Hongyu Li
- Jianing Qian
- Jennifer L. Barry
- Kris Kitani
- George Konidaris
논문 정보
- arXiv ID: 2602.20119v1
- 분류: cs.RO, cs.AI, cs.CV
- 출판일: 2026년 2월 23일
- PDF: Download PDF