네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

발행: (2026년 6월 18일 AM 02:59 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.19341v1

개요

장기 영상 이해를 위한 수동 모델들은 일반적으로 “전체 보기” 패러다임을 따르며, 쿼리 난이도에 관계없이 프레임을 균등하게 처리해 비디오 길이에 따라 계산 비용이 증가합니다. 하지만 상호작용 가능한 프레임워크가 등장했으며, 이들은 일반적으로 전역 사전 스캔을 기반으로 하며, 컨텍스트 비용은 여전히 비디오 길이에 따라 증가합니다. 우리는 OmniAgent를 제안합니다. 이는 첫 번째 네이티브 옴니-모달 에이전트로, 영상 이해를 Observation‑Thought‑Action 사이클을 기반으로 한 반복적인 POMDP로 공식화합니다. OmniAgent는 요청에 따라 작업을 수행해 오디오‑비주얼 신호를 영구적인 텍스트 메모리로 선택적으로 압축하여 추론 복잡성을 원본 비디오 길이에 종속되지 않게 합니다. 이를 위해 (1) 에이전트 감독 미세조정을 도입하여 best-of-N 트래jectory 합성을 통한 이중 단계 품질 관리와 함께 네이티브 액тив 퍼셉션을 초기화하고, (2) TAURA(턴 인식 적응적 불확실성 재스케일드 장점)를 이용한 에이전트 강화 학습을 도입했습니다. TAURA는 턴별 엔트로피를 활용해 핵심 발견 전환에 대한 크레딧 할당을 유도합니다. 특히, OmniAgent는 테스트 시 스케일링이 양호하여 추론 전환 수가 늘어날수록 성능이 향상되며, 이는 액тив 퍼셉션의 효과를 검증합니다. 열 가지 벤치마크(예: VideoMME, LVBench)에서의 실험 결과는 OmniAgent가 오픈소스 모델 중 최첨단 성능을 달성했음을 보여줍니다. 특히 LVBench에서 우리 7B 에이전트는 10배 더 큰 Qwen2.5‑VL‑72B(50.5% vs. 47.3%)를 능가합니다.

핵심 공헌

이 논문은 다음과 같은 분야를 다룹니다:

  • cs.CV
  • cs.CL
  • cs.SD

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전을 기여합니다.

저자

  • Zhenghao Xing
  • Ruiyang Xu
  • Yuxuan Wang
  • Jinzheng He
  • Ziyang Ma
  • Qize Yang
  • Yunfei Chu
  • Jin Xu
  • Junyang Lin
  • Chi-Wing Fu
  • Pheng-Ann Heng

논문 정보

  • arXiv ID: 2606.19341v1
  • Categories: cs.CV, cs.CL, cs.SD
  • Published: 2026년 6월 17일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »

루프된 세계 모델

Current world models face a fundamental tension: faithful long-horizon simulation demands deep computation, but deeper models are expensive to deploy and prone ...