[Paper] LongVideoAgent: 긴 비디오를 활용한 다중 에이전트 추론
Source: arXiv - 2512.20618v1
Overview
이 논문은 LongVideoAgent를 소개한다. 이는 대형 언어 모델(LLM)이 손실이 있는 요약으로 압축하지 않고도 시간 단위의 비디오 에피소드를 추론할 수 있게 하는 다중 에이전트 시스템이다. 기반 및 시각적 추출을 전문 에이전트에 위임함으로써, 이 프레임워크는 장시간 비디오 질문 응답(QA) 작업에 대해 세밀하고 시간적으로 근거가 있는 답변을 제공하며, 새롭게 공개된 LongTVQA 및 LongTVQA+ 데이터셋에서 새로운 벤치마크를 설정한다.
주요 기여
- 멀티‑에이전트 아키텍처: 마스터 LLM이 grounding agent (관련 비디오 구간을 찾음)와 vision agent (목표 텍스트 관찰을 생성)를 조정한다.
- 강화 학습(RL) 미세‑튜닝: 마스터 에이전트는 단계 제한 보상을 사용해 정답 정확도, 간결성, 계산 효율성을 균형 있게 학습한다.
- 새로운 에피소드‑수준 벤치마크: LongTVQA와 LongTVQA+는 TVQA/TVQA+에서 전체 길이 TV 에피소드를 모아, 시간 규모 비디오 추론을 위한 현실적인 테스트베드를 제공한다.
- 해석 가능성: 시스템은 근거가 되는 타임스탬프와 추출된 관찰과 같은 명시적인 추론 흔적을 제공하여 개발자가 검토할 수 있다.
- 최첨단 성능: 멀티‑에이전트 파이프라인은 두 데이터셋 모두에서 강력한 비‑에이전트 베이스라인을 크게 능가한다.
방법론
- Master LLM (Planner) – 사용자 질문을 받고 단계별로 어떤 하위 작업을 호출할지 결정합니다. 추론을 tractable하게 유지하기 위해 최대 추론 단계 수가 제한됩니다.
- Grounding Agent – 마스터의 텍스트 단서를 받아 긴 비디오(사전 계산된 시각적 임베딩 및 자막 사용)를 검색하고 답변이 포함될 가능성이 가장 높은 짧은 클립(예: 5초 창)을 반환합니다.
- Vision Agent – 선택된 클립에 비전‑언어 모델을 실행하여 자막 텍스트를 보완하는 간결한 텍스트 관찰(객체 이름, 행동, 장면 변화)을 생성합니다.
- Iterative Loop – 마스터는 추가적인 grounding/vision 패스를 요청하고, 가설을 정제한 뒤 최종적으로 답변을 생성할 수 있습니다.
- RL Training – 보상 함수는 불필요한 단계를 벌점하고 올바른 답변에 보상을 줍니다. Proximal Policy Optimization (PPO)을 사용해 마스터의 정책을 미세조정하고, grounding 및 vision 에이전트는 고정합니다.
전체 파이프라인은 일반 GPU에서 실행되며, grounding 및 vision 모듈은 마스터를 재학습하지 않고도 최신 모델로 교체할 수 있습니다.
결과 및 발견
| 모델 | 정확도 (LongTVQA) | 정확도 (LongTVQA+) |
|---|---|---|
| Baseline LLM + full‑video concat | 42.3 % | 38.7 % |
| Retrieval‑augmented LLM | 48.9 % | 45.1 % |
| LongVideoAgent (w/ RL) | 57.4 % | 53.2 % |
| LongVideoAgent (no RL) | 54.1 % | 50.8 % |
- RL 미세조정은 정확도와 단계 효율성 모두를 향상시킵니다 (평균 단계 수가 7.2에서 5.4로 감소).
- Grounding은 관련 없는 컨텍스트를 줄입니다: 검색된 클립의 84 %가 정답 구간을 포함하는 반면, 단순 슬라이딩 윈도우 검색은 61 %에 불과합니다.
- Vision observations은 자막만 사용한 베이스라인 대비 약 12 %의 절대적인 향상을 제공하며, 시각적 세부 정보의 가치를 확인시킵니다.
실용적인 함의
- Content‑aware assistants: 개발자는 전체 길이의 영화, 강의, 혹은 감시 영상을 사전에 요약하지 않고도 사용자 질문에 답변하는 챗봇을 구축할 수 있다.
- Efficient indexing: 그라운딩 에이전트는 사전 계산된 임베딩을 사용하여 테라바이트 규모의 비디오 아카이브에서도 빠른 검색을 가능하게 한다.
- Modular upgrades: 더 나은 비전‑언어 모델(예: Flamingo‑2, GPT‑4V)이 등장하면 비전 에이전트를 교체하여 즉시 성능을 향상시킬 수 있다.
- Explainable AI: 명시적인 클립 타임스탬프와 관찰 로그는 미디어 분석 파이프라인에서 디버깅이나 감사 요구사항을 충족시키기 쉽게 만든다.
- Reduced compute cost: 전체 비디오를 처리하는 대신 소수의 짧은 클립에 연산을 집중함으로써 추론 비용이 크게 감소한다 (엔드‑투‑엔드 비디오 LLM에 비해 FLOPs 약 70 % 감소).
제한 사항 및 향후 작업
- 자막 의존성: 현재 그라운딩 에이전트는 자막 타임스탬프에 크게 의존합니다; 정확한 자막이 없는 비디오는 성능 저하가 발생할 수 있습니다.
- 고정 단계 예산: 단계 제한은 추론 비용을 낮게 유지하지만 복잡한 다중 홉 추론을 잘라낼 수 있습니다; 적응형 예산 책정은 아직 미해결 과제입니다.
- 비전 에이전트의 확장성: 고해상도 클립을 처리하면 여전히 상당한 GPU 부하가 발생합니다; 향후 작업에서는 경량 시각 토크나이저나 계층적 어텐션을 탐색할 수 있습니다.
- TV 외 일반화: 데이터셋은 스크립트된 TV 에피소드를 중심으로 합니다; 다큐멘터리, 스포츠, 사용자 생성 콘텐츠 등에 적용하려면 도메인 특화 그라운딩 힌트가 필요합니다.
LongVideoAgent는 협업 멀티‑에이전트 접근 방식이 장시간 비디오 추론을 개발자에게 실용적으로 만들 수 있음을 보여주며, 보다 풍부하고 시간적 인식을 갖춘 AI 애플리케이션의 문을 엽니다.
저자
- Runtao Liu
- Ziyi Liu
- Jiaqi Tang
- Yue Ma
- Renjie Pi
- Jipeng Zhang
- Qifeng Chen
논문 정보
- arXiv ID: 2512.20618v1
- 분류: cs.AI, cs.CV, cs.LG, cs.MA
- 출판일: 2025년 12월 23일
- PDF: PDF 다운로드