[Paper] WorldLens: 실제 세계에서 Driving World Models의 전 스펙트럼 평가
Source: arXiv - 2512.10958v1
개요
논문 WorldLens는 생성형 주행 세계 모델에서 점점 커져가는 맹점을 다룹니다. 이러한 모델은 사진처럼 사실적인 장면을 만들 수 있지만, 기하학, 물리, 제어 가능성에서 종종 실패합니다. 이를 해결하기 위해 저자들은 원시 비디오 생성부터 하위 자율 주행 과제까지 전체 “세계 구축” 파이프라인을 평가하는 포괄적인 벤치마크와 대규모 인간 주석 데이터셋, 그리고 학습된 평가 에이전트를 제시합니다.
주요 기여
- WorldLens Benchmark – 시각적 사실성, 기하학적 일관성, 물리적 타당성, 기능적 신뢰성을 동시에 측정하는 5차원 스위트(Generation, Reconstruction, Action‑Following, Downstream Task, Human Preference).
- WorldLens‑26K Dataset – 26,000개의 인간 평가 주행 비디오와 수치 점수 및 텍스트 근거를 포함, 다양한 실패 모드 커버.
- WorldLens‑Agent – 인간 주석으로 학습된 압축 평가 모델로, 새로운 세계 모델 출력에 대해 확장 가능하고 설명 가능한 점수를 제공.
- 포괄적인 실증 연구 – 여러 최첨단 생성형 세계 모델을 체계적으로 평가하여 트레이드오프(예: 텍스처 품질 vs. 물리 충실도)를 밝힘.
- 오픈소스 생태계 – 벤치마크 코드, 데이터셋, 평가 에이전트를 공개하여 재현성 및 향후 확장을 장려.
방법론
평가 축 정의
- Generation: 원시 비디오 품질(예: 선명도, 텍스처 사실성)을 평가.
- Reconstruction: 생성된 프레임에서 알려진 3D 기하학 및 깊이를 충실히 재현하는지 확인.
- Action‑Following: 지정된 차량 제어 시퀀스(조향, 가속)에 세계가 올바르게 반응하는지 측정.
- Downstream Task: 합성 세계 내에서 실행되는 하위 자율 주행 스택(예: 인식, 계획)의 성능을 평가.
- Human Preference: 크라우드소싱된 평가를 통해 현실감과 타당성에 대한 주관적 판단을 포착.
데이터 수집
- 실제 주행 로그(센서 스트림, 제어 명령)를 시드로 사용.
- 여러 생성형 세계 모델이 이 시드로부터 4D 비디오를 합성.
- 인간 주석자는 비디오를 시청하고 1‑10 점수를 매긴 뒤 짧은 근거를 작성(예: “조향 입력이 없는데도 차가 도로를 벗어남”).
WorldLens‑Agent 학습
- 멀티모달 트랜스포머가 비디오 프레임, 제어 신호, 선택적 깊이 맵을 입력으로 처리.
- 수치 점수와 근거 텍스트가 감독 신호가 되어, 모델이 스칼라 품질 점수와 설명 텍스트를 동시에 예측하도록 학습.
벤치마크 실행
- 각 모델을 다섯 축에 걸쳐 실행하고 점수를 집계해 “World Fidelity” 프로파일을 생성, 강점과 약점을 시각화.
결과 및 발견
- 보편적 승자는 없음: 사진처럼 사실적인 텍스처를 잘 만드는 모델(예: diffusion 기반 생성기)은 물리적으로 불가능한 움직임(예: 마찰 없이 미끄러지는 차)을 자주 보임. 반대로 기하학에 초점을 맞춘 모델은 깊이 일관성은 유지하지만 시각적 디테일이 부족함.
- 인간 판단과의 상관관계: WorldLens‑Agent가 예측한 점수는 인간 평점과 피어슨 상관계수 0.78을 기록했으며, 생성된 근거는 annotator 설명과 ≈70 % 일치(BLEU‑4).
- 하위 과제 영향: 합성 세계에서 자율 주행 인식 스택을 평가했을 때, 물리 충실도가 낮은 모델은 실제 데이터 대비 성능이 최대 45 % 감소, 비현실적 역학이 실용성에 큰 비용을 초래함을 보여줌.
- Action‑Following 격차: 최고 성능 모델조차도 지정된 제어 명령의 **≈80 %**만을 정확히 따르며, 폐쇄‑루프 시뮬레이션 개선 여지가 큼.
실용적 함의
- 안전한 시뮬레이션 기반 개발: 엔지니어가 물리를 보존하는 세계 모델을 정량적으로 선택할 수 있어, 자율 주행 파이프라인에서 “시뮬레이션‑투‑실제” 전이 실패 위험을 감소.
- 벤치마크‑주도 모델 설계: 5축 프레임워크는 텍스처, 기하학, 역학을 균형 있게 고려하도록 장려, 단일 시각적 지표 최적화에 머무르지 않게 함.
- 확장 가능한 품질 보증: WorldLens‑Agent는 자동화되고 설명 가능한 점수 서비스를 제공, 생성 시뮬레이션 도구의 CI 파이프라인에 통합해 비현실적 출력이 하위 테스트에 도달하기 전에 감지 가능.
- 도메인 간 적용 가능성: 비록 주행에 초점을 맞추었지만, 벤치마크 구조(생성 → 재구성 → 행동 → 과제 → 인간)는 로봇공학, AR/VR 등 합성 세계가 사실성과 기능성을 동시에 요구하는 모든 분야에 적용 가능.
제한점 및 향후 연구
- 도메인 특수성: 현재 벤치마크는 도시 주행 시나리오에 맞춰 설계됐으며, 오프로드, 항공, 실내 환경으로 확장하려면 새로운 데이터와 추가 평가 축이 필요.
- 주석 비용: 고품질 인간 근거는 대규모 수집에 비용이 많이 듦; 향후 반지도학습이나 능동 학습 기법을 도입해 라벨링 부담을 줄이는 방안을 모색.
- 에이전트 일반화: 현재 WorldLens‑Agent는 제어 신호 접근을 전제로 함; 명시적 행동 입력이 없는 순수 생성 모델을 다루는 것은 아직 미해결 과제.
- 실세계 검증: 하위 과제 성능 저하는 지표가 되지만, 테스트 차량을 이용한 완전한 엔드‑투‑엔드 실세계 배포 테스트가 이루어져야 벤치마크의 실효성을 확고히 할 수 있음.
WorldLens는 생성된 주행 세계가 얼마나 아름답게 보이는가뿐 아니라 얼마나 충실히 행동하는가를 측정하는 최초의 통합 기준을 제공함으로써, 자율 시스템 개발에서 시뮬레이션‑우선 접근법의 신뢰성을 크게 향상시킬 전망입니다.
저자
- Ao Liang
- Lingdong Kong
- Tianyi Yan
- Hongsi Liu
- Wesley Yang
- Ziqi Huang
- Wei Yin
- Jialong Zuo
- Yixuan Hu
- Dekai Zhu
- Dongyue Lu
- Youquan Liu
- Guangfeng Jiang
- Linfeng Li
- Xiangtai Li
- Long Zhuo
- Lai Xing Ng
- Benoit R. Cottereau
- Changxin Gao
- Liang Pan
- Wei Tsang Ooi
- Ziwei Liu
논문 정보
- arXiv ID: 2512.10958v1
- Categories: cs.CV
- Published: December 11, 2025
- PDF: Download PDF