[Paper] StoryVideoQA: 대규모, 다장르 및 자동 생성 데이터셋을 활용한 딥 비디오 이해 확장

발행: (2026년 6월 5일 AM 01:12 GMT+9)
4 분 소요
원문: arXiv

Source: arXiv - 2606.06338v1

Overview

Video question answering (VideoQA)은 주어진 비디오에 대한 질문에 답하는 것을 목표로 합니다. 기존 접근 방식은 사실 기반 VideoQA에서는 뛰어나지만, 복잡한 스토리라인을 이해해야 하는 깊은 비디오 이해(DVU)에서는 어려움을 겪습니다. 이러한 문제는 비디오 내용이 장기간에 걸쳐 존재하고, 질문 유형이 다면적이며, 인스턴스 수준의 스토리 요소가 존재한다는 점에서 비롯되며, 이는 수동으로 구축된 DVU 데이터셋의 규모와 다양성을 제한합니다.

이 문제를 해결하기 위해 우리는 이전에 StoryMind를 도입하여 균형 잡힌 세분화된 주제로 DVU 데이터셋을 자동으로 구축했습니다. TV 시리즈에 대해 고품질 질문‑답변(QA) 쌍을 생성할 수 있지만, 더 길고 복잡한 영화에 적용할 경우 성능 저하가 크게 발생했습니다. 본 논문에서는 StoryMindv2를 추가 설계하여 TV 시리즈와 영화 모두에 대해 고품질 DVU 데이터셋을 생성하는 향상된 다중 에이전트 협업 프레임워크를 제시합니다. 새로운 감독자‑가이드 생성 메커니즘과 정교한 다중 리뷰어 투표 전략을 통합함으로써, 이 프레임워크를 활용해 StoryVideoQA를 구축했으며, 이는 현재까지 가장 큰 DVU 데이터셋으로 363 K 개 이상의 QA393.2 시간에 달하는 다양한 스토리 비디오(평균 TV 시리즈 1,635 초, 영화 7,878 초)를 포함합니다.

이 대규모 벤치마크에 대해 20개의 최신 VideoQA 방법을 종합적으로 평가한 결과, 이들 방법은 장기간에 걸친 캐릭터 연관성을 충분히 유지하거나 복잡한 스토리라인에 대한 일관된 이해를 구축하지 못함을 확인했습니다. 이러한 격차를 메우기 위해 우리는 PlotTree라는 새로운 비디오 이해 에이전트를 제안합니다. PlotTree는 장기간 비디오 내용을 계층적 플롯 구조로 재구성하여 StoryVideoQA에서 효율적인 스토리라인 추론을 가능하게 합니다.

Project page: https://github.com/nercms-mmap/StoryVideoQA/

Key Contributions

  • cs.CV

Methodology

자세한 방법론은 전체 논문을 참고하십시오.

Practical Implications

이 연구는 cs.CV 분야의 발전에 기여합니다.

Authors

  • Zhengqian Wu
  • Zhixian Liu
  • Aodong Chen
  • Jingyang Zhang
  • Ruizhe Li
  • Hanlin Ge
  • Zhongyuan Wang
  • Chunxia Xiao
  • Chao Liang

Paper Information

  • arXiv ID: 2606.06338v1
  • Categories: cs.CV
  • Published: June 4, 2026
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »