[논문] 비디오 오독: 탐색적 조작 추적 QA를 위한 읽기 휴리스틱 폐쇄‑루프 증류
개요
탐색적 조작은 종종 겉보기에 실패한 시도를 다음에 해야 할 일에 대한 핵심 증거로 바꿔준다. 예를 들어, 로봇이 잠긴 캐비닛 서랍을 잡아당기다가 실패하고, 잠금을 열어야만 성공한다. 실패한 잡아당기기는 잠긴 상태라는 잠재적 전제조건을 드러내며, 이는 최소 성공 행동 체인(작업을 완료하는 데 필요한 최소한의 행동들), 여기서는 [잠금-열기, 서랍-당기기]를 결정한다. 이 추적을 올바르게 해석하는 것이 그 체인을 복구하기 위한 전제조건이다. 우리는 이를 **탐색적 조작 추적 질문(EMT‑QA)**이라고 정의한다: 탐색적 추적에서 동기화된 영상과 고유감각 데이터를 제공받았을 때, 탐색 과정에서 드러난 잠재 전제조건 하에 최소 성공 행동 체인을 예측한다. 그러나 최신 비전‑언어 모델(VLM)과 구현형 멀티모달 LLM조차 이 증거를 제대로 읽어내지 못한다. 원시 영상, 원시 고유감각, 혹은 두 데이터를 결합한 경우에도 일관된 체인 복구에 실패한다. 우리는 **폐쇄‑루프 추적 증류(Closed‑Loop Trace Distillation)**라는 파이프라인을 도입한다. 이 파이프라인은 작업별 코딩 에이전트를 사용해 라벨이 붙은 학습 추적을 검사하고, 추적 전체를 한 줄의 자연어 프롬프트로 압축한다. 이를 **증류된 읽기 휴리스틱(DRH)**이라 부른다. 추론 단계에서는 에이전트를 호출하지 않으며 모델 가중치도 업데이트되지 않는다. 고정된 VLM에 원시 추적과 DRH를 프롬프트 입력으로 제공한다. 세 개의 시뮬레이터 과제와 두 개의 실제 로봇 과제에서, DRH는 최상의 원시‑모달리티 기준선 대비 체인 정확도를 +0.38 ~ +0.47 향상시킨다. 동일한 DRH는 프롬프트된 VLM과 동등한 성능을 보이는 일회성 프로그램형 분류기의 유일한 사양으로도 활용될 수 있다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.RO
- cs.AI
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.RO 분야의 발전에 기여한다.
저자
- Haizhou Ge
- Yufei Jia
- Yue Li
- Zhixing Chen
- Lu Shi
- Lei Han
- Guyue Zhou
- Ruqi Huang
논문 정보
- arXiv ID: 2606.08542v1
- 분류: cs.RO, cs.AI, cs.CV
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드