[Paper] PerceptionComp: 복잡한 인식 중심 추론을 위한 비디오 벤치마크
Source: arXiv - 2603.26653v1
Overview
논문에서는 PerceptionComp이라는 새로운 벤치마크를 소개한다. 이 벤치마크는 비디오‑이해 모델이 장기간 시각 스트림에 걸쳐 깊고 다단계 추론을 수행하도록 만든다. 기존 데이터셋에서는 단일 프레임이나 짧은 클립만으로도 충분한 단서를 제공하는 경우가 많지만, PerceptionComp은 시스템이 시간적으로 분리된 여러 증거 조각을 연결하고 결합 논리와 순차 논리를 적용하도록 강제한다—즉, 진정한 인지‑중심 추론을 위한 리트머스 테스트가 된다.
주요 기여
- 수동으로 선별된 벤치마크: 1,114개의 고복잡도 다지선다형 질문으로, 다양한 분야(도시 산책, 실내 투어, 비디오 게임, 익스트림 스포츠)의 279개 비디오를 포괄합니다.
- 장기적이며 구성적인 추론: 각 질문은 여러 비연속적인 순간에서 시각적 증거를 수집하고 논리 연산자(AND, THEN)를 사용해 추론해야 합니다.
- 넓은 지각 범위: 질문은 객체, 속성, 관계, 위치, 행동 및 사건을 아우르며, 의미 인식, 시각적 대응, 시간적 및 공간적 추론의 혼합을 요구합니다.
- 인간 기준 연구: 참가자들은 기존 벤치마크보다 훨씬 더 많은 시간이 필요하고, 재시청이 금지될 경우 정확도가 약 19 %로 급락하여 인지 부하가 크다는 점을 강조합니다.
- 포괄적인 모델 평가: Gemini‑3‑Flash와 같은 최첨단 멀티모달 대형 언어 모델(MLLM)은 5지선다에서 약 46 % 정확도에 불과하고, 오픈소스 대안은 40 % 이하에 머물러 큰 성능 격차를 드러냅니다.
방법론
- Video selection & annotation – 큐레이터는 다양한 실제 비디오 소스를 선택하고 단일 스냅샷만으로는 답할 수 없는 질문을 작성했습니다. 각 질문은 다섯 개의 답변 옵션 세트와 짝을 이루며, 하나는 정답이고 네 개는 설득력 있게 만든 오답입니다.
- Complexity design – 질문은 다음을 요구하도록 구성됩니다:
- Temporal stitching (예: “빨간 차가 멈추기 전이고 보행자가 건넌 후에 나타나는 객체는 무엇인가?”)
- Logical composition (합성 “AND”, 순차 “THEN”)
- Multi‑modal cues (시각, 텍스트 오버레이, 가능한 경우 오디오 단서).
- Human evaluation protocol – 시험 응시자는 두 조건에서 답변합니다: (a) 무제한 재시청, (b) 한 번만 시청. 시간과 정확도가 기록됩니다.
- Model evaluation pipeline – 비디오 프레임을 저자들이 권장하는 프롬프트 전략(프레임 샘플링 + 시간 요약)을 사용해 각 MLLM에 입력합니다. 모델은 다섯 옵션 중 하나를 선택하고 정확도가 계산됩니다.
Results & Findings
| 설정 | 인간 정확도 (무제한) | 인간 정확도 (단일 패스) | 최고 MLLM (Gemini‑3‑Flash) |
|---|---|---|---|
| 5선택 | ~78 % | 18.97 % | 45.96 % |
| 오픈소스 모델 (평균) | – | – | < 40 % |
- 인간 성능은 재시청 없이 크게 떨어지며, 이 벤치마크가 실제로 반복적인 인지를 요구한다는 것을 확인시켜 줍니다.
- MLLM은 가장 강력한 상용 시스템조차 크게 뒤처져, 현재 비디오‑LLM 파이프라인이 장거리 시각 메모리와 구성 논리를 위한 견고한 메커니즘이 부족함을 나타냅니다.
- 오류 분석 결과, 모델은 시간 순서 파악 및 별개의 시각적 증거를 연결하는 데 자주 실패하지만, 단순 속성 질의에 대해서는 비교적 잘 처리합니다.
Practical Implications
- Better video assistants – Real‑world assistants (e.g., smart home cameras, autonomous vehicle dashboards) need to answer “why” and “what‑if” questions that span minutes of footage. PerceptionComp highlights the gaps that must be closed before such assistants become reliable.
- Content moderation & compliance – Automated tools that must detect policy violations over extended streams (e.g., illicit behavior that unfolds across a video) can benchmark against PerceptionComp to gauge temporal reasoning competence.
- Game AI & interactive media – Developers building AI that can narrate or critique gameplay will benefit from models that can reference events separated by long intervals, a capability directly measured by this benchmark.
- Tooling for developers – The dataset’s open‑source nature and clear evaluation scripts enable rapid prototyping of new video‑memory architectures (e.g., hierarchical transformers, retrieval‑augmented video encoders) without building a benchmark from scratch.
제한 사항 및 향후 연구
- Domain coverage – 다양하지만, 279개의 비디오는 여전히 제한된 시나리오 집합을 나타냅니다; 희귀하거나 고도로 전문화된 도메인(예: 의료 절차)은 포함되지 않습니다.
- Annotation scalability – 전체 수동 주석은 품질을 보장하지만 대규모 코퍼스로 확장하는 데 비용이 많이 듭니다; 반자동 질문 생성 방식을 탐색할 수 있습니다.
- Audio & multimodal cues – 현재 벤치마크는 주로 시각적 증거에 초점을 맞추고 있습니다; 동기화된 오디오나 자막을 통합하면 추론 과제가 확대됩니다.
- Model interaction – 평가에서는 모델을 블랙‑박스 분류기로 취급합니다; 향후 연구에서는 인간이 다시 보는 행동을 더 가깝게 모방하는 인터랙티브 프롬프트나 반복 인식 루프를 탐색할 수 있습니다.
PerceptionComp는 비디오 AI의 다음 경계에 조명을 비춥니다: “이 프레임에 무엇이 있나요?”에서 “전체 클립에서 무슨 일이 일었고 왜?”로 이동합니다. 진정으로 인지적인 시스템을 구축하려는 개발자에게 이 벤치마크는 어려운 테스트와 앞으로의 혁신을 위한 로드맵을 모두 제공합니다.
저자
- Shaoxuan Li
- Zhixuan Zhao
- Hanze Deng
- Zirun Ma
- Shulin Tian
- Zuyan Liu
- Yushi Hu
- Haoning Wu
- Yuhao Dong
- Benlin Liu
- Ziwei Liu
- Ranjay Krishna
논문 정보
- arXiv ID: 2603.26653v1
- 카테고리: cs.CV, cs.AI, cs.CL, cs.LG
- 출판일: 2026년 3월 27일
- PDF: PDF 다운로드