[논문] 비디오 오독: 탐색적 조작 추적 QA를 위한 읽기 휴리스틱 폐쇄‑루프 증류

발행: 3일 전 (2026년 6월 7일 PM 06:49 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.08542v1

개요

탐색적 조작은 종종 겉보기에 실패한 시도를 다음에 해야 할 일에 대한 핵심 증거로 바꿔준다. 예를 들어, 로봇이 잠긴 캐비닛 서랍을 잡아당기다가 실패하고, 잠금을 열어야만 성공한다. 실패한 잡아당기기는 잠긴 상태라는 잠재적 전제조건을 드러내며, 이는 최소 성공 행동 체인(작업을 완료하는 데 필요한 최소한의 행동들), 여기서는 [잠금-열기, 서랍-당기기]를 결정한다. 이 추적을 올바르게 해석하는 것이 그 체인을 복구하기 위한 전제조건이다. 우리는 이를 **탐색적 조작 추적 질문(EMT‑QA)**이라고 정의한다: 탐색적 추적에서 동기화된 영상과 고유감각 데이터를 제공받았을 때, 탐색 과정에서 드러난 잠재 전제조건 하에 최소 성공 행동 체인을 예측한다. 그러나 최신 비전‑언어 모델(VLM)과 구현형 멀티모달 LLM조차 이 증거를 제대로 읽어내지 못한다. 원시 영상, 원시 고유감각, 혹은 두 데이터를 결합한 경우에도 일관된 체인 복구에 실패한다. 우리는 **폐쇄‑루프 추적 증류(Closed‑Loop Trace Distillation)**라는 파이프라인을 도입한다. 이 파이프라인은 작업별 코딩 에이전트를 사용해 라벨이 붙은 학습 추적을 검사하고, 추적 전체를 한 줄의 자연어 프롬프트로 압축한다. 이를 **증류된 읽기 휴리스틱(DRH)**이라 부른다. 추론 단계에서는 에이전트를 호출하지 않으며 모델 가중치도 업데이트되지 않는다. 고정된 VLM에 원시 추적과 DRH를 프롬프트 입력으로 제공한다. 세 개의 시뮬레이터 과제와 두 개의 실제 로봇 과제에서, DRH는 최상의 원시‑모달리티 기준선 대비 체인 정확도를 +0.38 ~ +0.47 향상시킨다. 동일한 DRH는 프롬프트된 VLM과 동등한 성능을 보이는 일회성 프로그램형 분류기의 유일한 사양으로도 활용될 수 있다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.RO
cs.AI
cs.CV

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.RO 분야의 발전에 기여한다.

저자

Haizhou Ge
Yufei Jia
Yue Li
Zhixing Chen
Lu Shi
Lei Han
Guyue Zhou
Ruqi Huang

논문 정보

arXiv ID: 2606.08542v1
분류: cs.RO, cs.AI, cs.CV
발표일: 2026년 6월 7일
PDF: PDF 다운로드

[논문] 비디오 오독: 탐색적 조작 추적 QA를 위한 읽기 휴리스틱 폐쇄‑루프 증류

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] FADA: 선택적으로 증류된 통합 비전‑언어 모델을 통한 접근 가능한 태아 초음파 해석 및 주석

[논문] OmniGameArena: 개선 역학을 갖춘 VLM 게임 에이전트를 위한 통합 UE5 벤치마크

[논문] PTL‑Diffusion: 주기적 종단 법칙을 적용한 매니폴드 인식 확산

[논문] AHA‑WAM: 관찰 기반 컨텍스트 라우팅을 활용한 비동기 수평 적응형 세계‑행동 모델링