[Paper] OmniAgent: 오디오 가이드 액티브 퍼셉션 에이전트 for 옴니모달 오디오-비디오 이해
발행: (2025년 12월 30일 오전 02:59 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.23646v1
개요
OmniAgent는 새로운 “오디오‑가이드” AI 에이전트로, 소리를 주요 단서로 사용하여 무엇을 언제 비디오 프레임을 볼지 능동적으로 결정합니다. 인식을 정적인 프레임‑별 패스가 아니라 동적인 도구‑구동 프로세스로 전환함으로써, 시스템은 훨씬 정교한 오디오‑시각 추론을 달성하고 여러 벤치마크 작업에서 최첨단 수준을 뛰어넘습니다.
핵심 기여
- 오디오‑우선 활성 인식 – 짧은 오디오 스니펫이 먼저 관련 시간 구간을 찾고, 이후 시각 분석을 해당 구간에만 집중하는 거친‑정밀 파이프라인을 도입.
- 툴 오케스트레이션 프레임워크 – 전체 비디오에 단일 모델을 적용하는 대신, 필요에 따라 특화된 인식 모듈(예: 객체 탐지기, 행동 인식기)을 동적으로 선택·호출하는 플래너를 구현.
- 동적, 쿼리‑구동 워크플로 – 정적·밀집 캡션 파이프라인에서 벗어나, “생각‑하고‑행동” 루프를 통해 후속 질문을 하고 필요할 때만 추가 증거를 수집.
- 강력한 실증적 향상 – 세 가지 다양한 오디오‑비디오 이해 벤치마크에서 선도적인 오픈소스 및 상용 멀티모달 모델보다 절대 정확도 10‑20 % 상승.
- 오픈‑소스 친화적 설계 – 공개된 LLM 백엔드와 모듈형 인식 도구를 기반으로 하여 구성 요소를 쉽게 확장하거나 교체 가능.
Methodology
- Coarse Audio Localization – 에이전트는 먼저 전체 클립에 가벼운 오디오 인코더를 실행하여 눈에 띄는 사운드 이벤트(예: 개 짖는 소리, 음악 음표)를 감지합니다. 이 단계에서는 흥미로운 행동이 발생할 가능성이 높은 대략적인 시간 창을 생성합니다.
- Planner & Tool Selector – 언어 모델 기반 플래너가 오디오 단서와 현재 작업 설명(예: “시끄러운 충돌의 원인은 무엇인가?”)을 받아들입니다. 플래너는 다음에 호출할 인식 도구(예: 얼굴 탐지기, 포즈 추정기, 장면 분류기)를 결정하고 해당 도구에 대한 정확한 질의를 작성합니다.
- Fine‑grained Visual Inspection – 선택된 도구는 오디오가 식별한 창 안의 프레임만을 처리하여 계산량을 크게 줄이면서도 세부 정보를 보존합니다.
- Iterative Reasoning Loop – LLM은 도구의 출력을 통합하고 내부 상태를 업데이트하며, 추가 도구를 요청할 수 있습니다(예: 움직임이 모호할 경우 광학 흐름을 요청). 답변 신뢰도가 임계값을 초과하면 루프가 종료됩니다.
- Answer Generation – 마지막으로 LLM은 오디오 증거, 시각적 탐지 및 고차원 추론을 결합한 자연어 응답을 생성합니다.
전체 파이프라인은 최소한의 도구 사용을 장려하면서 답변 정확성을 극대화하는 강화 학습 스타일 보상을 통해 엔드‑투‑엔드로 학습될 수 있습니다.
결과 및 발견
| Benchmark | Prior SOTA | OmniAgent | Δ Accuracy |
|---|---|---|---|
| AVQA (Audio‑Visual Question Answering) | 68.3 % | 78.9 % | +10.6 % |
| VGGSound‑Action | 71.5 % | 84.2 % | +12.7 % |
| MUSIC‑Video (multimodal retrieval) | 73.0 % | 91.5 % | +18.5 % |
- 효율성: 시각 도구가 전체 프레임의 약 15 %만 사용하므로, 추론 시간은 밀집 캡셔닝 베이스라인에 비해 약 30 % 감소합니다.
- 노이즈에 대한 강인성: 오디오‑우선 로컬라이제이션은 시스템이 관련 없는 시각적 잡음을 무시하도록 도와, 배경이 복잡한 비디오에서 높은 정확도를 달성합니다.
- 일반화: 모듈식 도구 세트 덕분에 OmniAgent는 최소한의 재학습으로 새로운 작업(예: 사운드‑소스 분리)에 적응할 수 있습니다.
실용적 함의
- 개발자 친화적인 API: 도구 오케스트레이션 레이어를 간단한 “질문하기” 엔드포인트로 노출할 수 있으며, 개발자는 핵심 LLM을 건드리지 않고도 맞춤형 탐지기(예: 자체 결함 인식 모델)를 연결할 수 있다.
- 비용 효율적인 비디오 분석: 미디어 플랫폼은 OmniAgent를 실행해 사용자 생성 콘텐츠에 태그를 달거나 검열할 수 있으며, 오디오가 주목할 만한 신호(예: 폭력적인 소리, 비상 경보)를 나타낼 때만 컴퓨팅 자원을 집중한다.
- 향상된 보조 기술: 청각 장애인을 위한 웨어러블 기기는 오디오 우선 접근 방식을 사용해 눈에 띄는 소리가 발생할 때만 시각적 컨텍스트를 제공함으로써 배터리 수명을 절약할 수 있다.
- 향상된 멀티모달 검색: 전자상거래 사이트는 사용자가 “유리가 깨지는 영상을 보여줘”와 같이 검색하도록 허용하고, 오디오 신호를 활용해 관련 클립을 빠르게 찾아내어 사용자 경험을 향상시킬 수 있다.
제한 사항 및 향후 작업
- 오디오 품질 의존성: 소음이 많은 환경이나 저품질 녹음에서는 초기 오디오 단서가 이벤트 위치를 잘못 파악할 수 있어 시각적 증거를 놓칠 수 있습니다.
- 도구 선택 오버헤드: 플래너의 의사결정 과정이 엣지 배포 시 지연을 초래하므로, 실시간 사용을 위해 경량 대안이 필요합니다.
- 도메인 전이: 모듈식 설계가 적응을 용이하게 하지만, 현재 도구 세트는 일반 객체와 행동에 맞춰 튜닝되어 있어 의료 영상과 같은 특수 도메인에서는 새로운 도구 학습이 필요합니다.
- 향후 방향으로는 시각‑우선 백업 전략 통합, 도구 라이브러리 확대(예: 3D 포즈, 깊이 추정) 및 라벨링된 데이터에 대한 의존도를 낮추기 위한 자체 지도 학습 기반 오디오‑시각 정렬 연구가 포함됩니다.
저자
- Keda Tao
- Wenjie Du
- Bohan Yu
- Weiqiang Wang
- Jian Liu
- Huan Wang
논문 정보
- arXiv ID: 2512.23646v1
- 카테고리: cs.CV
- 출판일: 2025년 12월 29일
- PDF: PDF 다운로드