[Paper] YoCausal: 비디오 생성은 World Model에서 얼마나 떨어져 있는가? 인과관점

발행: 1주 전 (2026년 5월 29일 AM 02:59 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2605.30346v1

Overview

논문 **“YoCausal: How Far is Video Generation from World Model? A Causality Perspective”**는 간단하면서도 심오한 질문을 제기합니다: 현대 비디오 확산 모델(VDM)이 실제로 인과 관계를 이해하고 있는가, 아니면 단순히 시간적 패턴을 암기하고 있는가? 이를 답하기 위해 저자들은 발달 심리학에서 사용되는 “기대 위반(violation‑of‑expectation)” 실험에서 영감을 얻은 YoCausal이라는 두 단계 벤치마크를 소개합니다. 실제 세계 비디오를 시간축을 뒤집어 자연스러운 반사실(counterfactual)을 만들고, 이를 통해 연구자들은 모델이 시간의 화살표를 어떻게 인식하고 더 깊은 인과 추론을 수행하는지를 탐구할 수 있습니다.

주요 기여

YoCausal benchmark – 합성 데이터 생성이 필요 없는 확장 가능한 실제 환경 평가 스위트.
Reverse Surprise Index (RSI) – 시간적으로 역전된 클립에 대해 VDM이 얼마나 놀라는지를 측정하는 지표로, 시간 방향성에 대한 인식을 포착한다.
Causality Cognition Index (CCI) – 비전‑언어 모델(VLM)을 활용해 영상을 인과와 비인과 그룹으로 나누는 새로운 2단계 절차로, 순수한 시간적 편향이 아닌 실제 인과 이해를 분리한다.
Comprehensive empirical study – 13개의 최신 VDM을 YoCausal에 평가한 종합 실증 연구로, 강력한 시간 화살표 감지가 인과 이해를 보장하지 않음을 밝혀냈다.
Human baseline – 저자들은 인간 판단을 수집하여 현재 모델과 인간 수준 인과 인지 사이의 격차를 정량화한다.

Source: …

Methodology

Dataset Construction
- 일상적인 비디오(예: 요리, 스포츠, 일상 활동)의 대규모 컬렉션으로 시작합니다.
- 각 클립에 대해 시간 순서를 단순히 뒤집어 반사실(counterfactual) 버전을 만듭니다. 별도의 라벨링이나 시뮬레이션이 필요 없으므로 벤치마크를 저비용으로 확장 가능하게 유지합니다.
Level 1 – Arrow‑of‑Time Evaluation (RSI)
- 원본 클립과 뒤집힌 클립을 모두 denoise(노이즈 제거)하도록 훈련된 VDM에 입력합니다.
- 각 방향에 대한 denoising loss를 계산합니다; 뒤집힌 클립에서 손실이 더 크면 모델이 시간적 “놀라움”을 감지한다는 의미입니다.
- Reverse Surprise Index는 두 손실 간의 정규화된 차이입니다.
Level 2 – Causal Reasoning Evaluation (CCI)
- 사전 훈련된 비전‑언어 모델(예: CLIP)을 사용해 인과 관계를 설명하는 캡션(예: “공이 손을 놓아서 떨어진다”)이 각 비디오와 얼마나 잘 맞는지 점수를 매깁니다.
- 데이터셋을 causal(캡션‑비디오 정렬도가 높은)과 non‑causal(정렬도가 낮은) 하위 집합으로 나눕니다.
- 각 하위 집합에 대해 RSI를 별도로 적용합니다; Causality Cognition Index는 인과적 하위 집합과 비인과적 하위 집합의 RSI 점수 차이입니다. 차이가 클수록 VDM이 단순한 시간 규칙성이 아니라 실제 원인‑결과에 민감함을 나타냅니다.
Human Baseline
- 인간 참가자들이 동일한 원본/뒤집힌 쌍을 시청하고 각 방향이 얼마나 “자연스러운”지 평가합니다. 그들의 평균 점수가 모델 성능에 대한 기준점이 됩니다.

결과 및 발견

모델 (선택)	RSI (시간 화살표)	CCI (인과 격차)	인간 CCI
VDM‑A (diffusion‑based)	0.78	0.12	0.68
VDM‑B (latent‑diffusion)	0.81	0.09	—
VDM‑C (flow‑based)	0.73	0.05	—
Human	—	0.68	—

시간 화살표 인식: 대부분의 VDM은 높은 RSI 점수를 달성하여 비디오가 “역방향”임을 판단할 수 있음을 의미합니다.
인과 인지: CCI 값이 인간 기준보다 훨씬 낮아, 모델이 원본 클립에 명확한 원인‑결과 관계가 있든 없든 역방향 비디오를 거의 동일하게 처리함을 나타냅니다.
격차 분석: 가장 성능이 좋은 VDM조차 인간 인과 격차의 약 15 %만을 포착하고 있어, 개선 여지가 크게 남아 있음을 강조합니다.

Ablation 연구에 따르면 모델 용량을 늘리거나 학습 시간을 연장해도 인과 격차가 자동으로 좁혀지지는 않으며, 현재 diffusion 목표가 명시적인 인과 신호를 포함하고 있지 않다는 점을 시사합니다.

실용적 함의

분야	영향
콘텐츠 제작 도구	확산 모델을 이용한 인페인팅이나 프레임 보간에 의존하는 비디오 편집기는 시간적으로는 그럴듯하지만 인과적으로 일관되지 않은 결과를 만들 수 있다(예: 공이 던져지기 전에 튀는 것처럼 보임). 이 한계를 이해하면 사용자가 인과적 불일치를 확인하거나 수정할 수 있는 UI 설계에 도움이 된다.
로보틱스 및 시뮬레이션	VDM을 사용해 로봇 인식을 위한 합성 학습 데이터를 생성할 때 인과적 충실도가 부족하면 실제 환경에서 실패하는 정책이 나올 수 있다(예: 조작 작업에서 원인‑결과를 오해함).
AI 안전 및 정렬	인과 추론은 견고한 의사결정의 핵심 요소이다. 이 벤치마크는 생성 모델이 단순히 “패턴 매칭”에 그치는지, 실제 물리 현상을 모델링하는지를 테스트하는 구체적인 방법을 제공하여 안전이 중요한 배포에 정보를 제공한다.
벤치마킹 및 연구	YoCausal는 저비용이며 확장 가능한 프로토콜을 제공해 기존 학습 파이프라인에 쉽게 적용할 수 있어, 커뮤니티가 모델 개발 초기 단계에서 인과 목표(예: 대비 전후 손실)를 도입하도록 장려한다.

개발자는 제공된 코드베이스를 사용해 자체 비디오 모델을 평가하고, 공개된 베이스라인과 비교하며, CCI 향상을 목표로 손실 함수나 아키텍처 조정을 반복할 수 있다.

제한 사항 및 향후 작업

인과 시나리오 범위: 벤치마크는 인과성을 추론하기 위해 텍스트 캡션에 의존하는데, 이는 단일 문장으로 포착되지 않는 미묘하거나 다단계 원인‑결과 사슬을 놓칠 수 있다.
VLM 품질 의존성: CCI의 인과적 비인과적 비디오 구분은 비전‑언어 모델의 정렬 정확도에 달려 있으며, VLM의 편향이 평가에 전파될 수 있다.
시간적 세분성: 전체 클립을 뒤집는 것은 거친 반사실(counterfactual)이며, 하위 사건을 교환하는 등 더 세밀한 조작은 보다 미묘한 인과 실패를 드러낼 수 있다.
향후 방향: 저자들은 명시적 인과 그래프 감독을 통합하고, 전방‑후방 일관성 손실을 사용한 학습을 진행하며, YoCausal을 다중모달(오디오‑비주얼) 설정으로 확장하여 실제 세계 모델 학습을 더 잘 근사할 것을 제안한다.

저자

You‑Zhe Xie
Yu‑Hsuan Li
Jie‑Ying Lee
Kaipeng Zhang
Yu‑Lun Liu
Zhixiang Wang

논문 정보

arXiv ID: 2605.30346v1
카테고리: cs.CV
출판일: 2026년 5월 28일
PDF: Download PDF

[Paper] YoCausal: 비디오 생성은 World Model에서 얼마나 떨어져 있는가? 인과관점

Overview

주요 기여

Methodology

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] TunerDiT: 훈련 없이 확산 트랜스포머를 점진적으로 제어해 다중 이벤트 영상 생성

[논문] 비전·언어 모델, 모호한 입력에서 여성 표현 억제