네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

발행: 1일 전 (2026년 6월 18일 AM 02:59 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19341v1

개요

장기 영상 이해를 위한 수동 모델들은 일반적으로 “전체 보기” 패러다임을 따르며, 쿼리 난이도에 관계없이 프레임을 균등하게 처리해 비디오 길이에 따라 계산 비용이 증가합니다. 하지만 상호작용 가능한 프레임워크가 등장했으며, 이들은 일반적으로 전역 사전 스캔을 기반으로 하며, 컨텍스트 비용은 여전히 비디오 길이에 따라 증가합니다. 우리는 OmniAgent를 제안합니다. 이는 첫 번째 네이티브 옴니-모달 에이전트로, 영상 이해를 Observation‑Thought‑Action 사이클을 기반으로 한 반복적인 POMDP로 공식화합니다. OmniAgent는 요청에 따라 작업을 수행해 오디오‑비주얼 신호를 영구적인 텍스트 메모리로 선택적으로 압축하여 추론 복잡성을 원본 비디오 길이에 종속되지 않게 합니다. 이를 위해 (1) 에이전트 감독 미세조정을 도입하여 best-of-N 트래jectory 합성을 통한 이중 단계 품질 관리와 함께 네이티브 액тив 퍼셉션을 초기화하고, (2) TAURA(턴 인식 적응적 불확실성 재스케일드 장점)를 이용한 에이전트 강화 학습을 도입했습니다. TAURA는 턴별 엔트로피를 활용해 핵심 발견 전환에 대한 크레딧 할당을 유도합니다. 특히, OmniAgent는 테스트 시 스케일링이 양호하여 추론 전환 수가 늘어날수록 성능이 향상되며, 이는 액тив 퍼셉션의 효과를 검증합니다. 열 가지 벤치마크(예: VideoMME, LVBench)에서의 실험 결과는 OmniAgent가 오픈소스 모델 중 최첨단 성능을 달성했음을 보여줍니다. 특히 LVBench에서 우리 7B 에이전트는 10배 더 큰 Qwen2.5‑VL‑72B(50.5% vs. 47.3%)를 능가합니다.

핵심 공헌

이 논문은 다음과 같은 분야를 다룹니다:

cs.CV
cs.CL
cs.SD

방법론

자세한 방법については 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전을 기여합니다.

저자

Zhenghao Xing
Ruiyang Xu
Yuxuan Wang
Jinzheng He
Ziyang Ma
Qize Yang
Yunfei Chu
Jin Xu
Junyang Lin
Chi-Wing Fu
Pheng-Ann Heng

논문 정보

arXiv ID: 2606.19341v1
Categories: cs.CV, cs.CL, cs.SD
Published: 2026년 6월 17일
PDF: PDF 다운로드

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

개요

핵심 공헌

방법론

실용적 함의

저자

논문 정보

관련 글

우르두 카티브 손글씨 데이터셋: 오프라인 우르두 손글씨 텍스트 인식용 CRNN 기반 베이스라인 평가

루프된 세계 모델

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

[논문] 튜링 보상으로 사용자 시뮬레이터 학습