[Paper] Yume-1.5: 텍스트 제어 인터랙티브 월드 생성 모델

발행: (2025년 12월 27일 오전 02:52 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.22096v1

Overview

이 논문은 Yume‑1.5라는 새로운 확산 기반 프레임워크를 소개합니다. 이 프레임워크는 단일 이미지 또는 텍스트 프롬프트만으로 탐색 가능한 3D‑유사 세계를 생성하고, 사용자가 키보드 컨트롤을 통해 실시간으로 그 안을 걸어다닐 수 있게 합니다. 기존 세계 생성 모델이 겪던 가장 큰 세 가지 문제점(거대한 모델 크기, 느린 다단계 추론, 텍스트 기반 이벤트 제어 부재)을 해결함으로써, 저자들은 게임, VR 경험, 빠른 프로토타이핑 도구와 같은 인터랙티브 애플리케이션에 충분히 반응성이 높은 시스템을 제공합니다.

주요 기여

  • 통합된 장시간 비디오 생성 파이프라인은 증가하는 과거 컨텍스트를 압축하고 선형 어텐션을 사용하여 메모리와 연산을 시퀀스 길이에 대해 선형으로 유지합니다.
  • 실시간 스트리밍 가속은 양방향 어텐션 증류와 향상된 텍스트 임베딩 방식을 통해 달성되며, 추론 지연을 초당 몇 초에서 프레임당 100 ms 이하로 감소시킵니다.
  • 텍스트 제어 세계 이벤트는 사용자가 동적 변화를 설명하도록 허용합니다(예: “폭풍이 몰아온다” 또는 “다리가 무너진다”) 그리고 모델이 즉시 장면을 업데이트합니다.
  • 키보드 기반 탐색 인터페이스는 외부 물리 엔진 없이도 생성된 세계를 원활하게 탐색할 수 있음을 보여줍니다.
  • 오픈소스 코드 공개(보조 자료)는 커뮤니티가 시스템을 재현하고 확장할 수 있도록 합니다.

방법론

  1. Context Compression + Linear Attention – 세계가 확장됨에 따라 모델은 일반적으로 생성된 프레임 전체 히스토리를 유지해야 하는데, 이는 GPU 메모리를 빠르게 초과한다. 저자들은 과거 프레임을 고정 크기의 잠재 공간으로 요약하는 경량 압축 모듈을 도입하고, 이를 프레임 수에 따라 선형적으로 확장되는 선형 어텐션 트랜스포머에 입력한다(제곱이 아닌 선형 스케일).

  2. Bidirectional Attention Distillation – 학습 중에 무거운 “teacher” 모델이 표준 어텐션으로 전체 컨텍스트를 처리한다. 더 작은 “student” 모델은 제한된 윈도우만을 보면서 teacher의 출력을 모방하도록 학습하여, 품질을 유지하면서 실행 시간을 크게 줄인다.

  3. Enhanced Text Embedding – 단일 프롬프트 토큰 대신, 시스템은 텍스트 임베딩 계층(전역 프롬프트 + 단계별 이벤트 토큰)을 디퓨전 디노이징 단계에 삽입하여 세계 역학에 대한 세밀한 제어를 가능하게 한다.

  4. Keyboard Navigation Loop – 생성된 프레임은 경량 렌더러로 스트리밍된다. 사용자의 키 입력은 잠재 공간 오프셋으로 변환되어 디퓨전 단계에 다시 입력되어 다음 뷰를 생성하고, 세계를 부드럽게 1인칭 시점으로 이동하도록 만든다.

결과 및 발견

  • Latency: 평균 프레임당 생성 시간이 베이스라인 디퓨전의 약 1.2 초에서 RTX 3090 기준 ≈85 ms 로 감소했으며, 실시간 상호작용 임계값을 만족합니다.
  • Quality: 인간 평가(MOS, Mean Opinion Score)에서 기존 장시간 비디오 디퓨전 베이스라인 대비 +0.6 향상이 확인되었으며, 특히 프레임 간 공간 일관성을 유지하는 데서 큰 개선을 보였습니다.
  • Text‑Event Responsiveness: 사용자가 “강을 추가해”, “밤이 찾아와”와 같은 동적 명령을 내렸을 때, 모델은 2–3 프레임 내에 장면을 업데이트하면서 연속성을 유지했습니다.
  • Scalability: 압축된 컨텍스트 덕분에 OOM 오류 없이 30 초(≈900 프레임)까지의 세계를 생성할 수 있었으며, 이는 기존 방법에 비해 4배 증가한 수치입니다.

실용적 함의

  • Game Prototyping – 디자이너는 컨셉 이미지를 스케치하거나 짧은 설명을 작성하고 즉시 플레이 가능한 환경을 탐험할 수 있어 레벨 디자인 주기를 가속화합니다.
  • VR/AR Content Creation – 실시간 생성은 장치 내 또는 클라우드 지원 경험을 의미하며, 환경이 음성이나 텍스트 명령에 따라 변화하여 적응형 스토리텔링을 가능하게 합니다.
  • Simulation & Training – 로봇공학이나 자율주행 등 산업 분야에서 다양한 제어 가능한 가상 지형을 즉석에서 생성해 시나리오 테스트에 활용할 수 있습니다.
  • Creative Tools – 아티스트는 “중세 시장 추가” 또는 “사이버펑크 야경으로 변환”과 같이 입력하여 세계 구축을 반복하고 즉각적인 시각적 피드백을 확인함으로써 고품질 세계 제작 장벽을 낮출 수 있습니다.

제한 사항 및 향후 작업

  • 물리적 현실감 – 현재 시스템은 시각적 타당성에 초점을 맞추고 있으며, 물리(충돌, 중력)는 시뮬레이션되지 않아 고충실도 게임 엔진에서의 사용이 제한됩니다.
  • 텍스트 이해 범위 – 복잡한 다단계 지시는 때때로 모호한 결과를 초래하며, 보다 풍부한 언어 모델이 이벤트 파싱을 개선할 수 있습니다.
  • 하드웨어 의존성 – 고성능 GPU에서는 지연 시간이 실시간이지만, 저사양 하드웨어는 여전히 어려움을 겪습니다. 향후 작업은 모델 프루닝 및 양자화를 추가로 진행하는 것을 목표로 합니다.
  • 평가 지표 – 논문은 주관적 점수에 크게 의존하고 있으며, 인터랙티브 월드 생성에 대한 표준화된 정량적 지표를 확립하는 것이 아직 해결되지 않은 과제입니다.

Yume‑1.5는 생성 AI와 인터랙티브 미디어를 연결하는 중요한 단계이며, 전통적인 게임 파이프라인의 무거운 인프라 없이도 개발자들이 동적인 텍스트 기반 세계를 만들 수 있는 실용적인 경로를 제공합니다.

저자

  • Xiaofeng Mao
  • Zhen Li
  • Chuanhao Li
  • Xiaojie Xu
  • Kaining Ying
  • Tong He
  • Jiangmiao Pang
  • Yu Qiao
  • Kaipeng Zhang

논문 정보

  • arXiv ID: 2512.22096v1
  • Categories: cs.CV
  • Published: 2025년 12월 26일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »