[Paper] MobileI2V: 모바일 기기에서 빠르고 고해상도 이미지‑비디오 변환

발행: (2025년 11월 27일 오전 12:09 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2511.21475v1

개요

이 논문은 MobileI2V라는 경량 확산 기반 모델을 소개한다. 이 모델은 단일 이미지를 고해상도(720p) 비디오로 스마트폰에서 실시간으로 변환할 수 있다. 주의 메커니즘을 재구성하고, 확산 샘플링 스케줄을 압축하며, 모바일 전용 최적화를 적용함으로써 저자는 프레임당 100 ms 미만의 생성 속도를 달성했으며, 이는 기존 방법보다 수십 배 빠르면서도 시각적 품질을 경쟁 수준으로 유지한다.

주요 기여

  • Hybrid Linear‑Softmax Attention Denoiser – 효율적인 선형 어텐션과 가끔씩 사용되는 소프트맥스 어텐션을 혼합한 새로운 아키텍처로, 모바일 하드웨어에서 속도와 충실도 사이의 최적점을 찾는다.
  • Two‑Step Time‑Step Distillation – 일반적인 20+ 확산 단계를 2개의 추론 단계로 줄이는 학습 트릭으로, 품질 손실은 거의 없으면서 약 10배의 속도 향상을 제공한다.
  • Mobile‑First Attention Optimizations – ARM CPU/NPU에서 어텐션 레이어의 처리량을 두 배로 늘리는 저수준 커널 튜닝 및 메모리 친화적 스케줄링.
  • First Real‑Time 720p I2V on‑device – 일반적인 스마트폰에서 30 fps 비디오 클립을 (<100 ms/프레임) 엔드‑투‑엔드로 생성함을 입증, 온‑디바이스 창의 AI의 이정표를 세운다.
  • Open‑source Release – 전체 코드와 사전 학습 가중치를 공개하여 즉시 실험 및 통합이 가능하도록 한다.

방법론

  1. 모델 백본 – MobileI2V는 270 M 파라미터 UNet‑스타일 확산 디노이저를 기반으로 한다. 순수 소프트맥스 어텐션(모바일에서 비용이 높음) 대신 대부분의 레이어에 선형 어텐션 블록을 삽입하고, 품질에 가장 큰 영향을 미치는 초기 고수준 피처 맵 등에서는 소프트맥스 어텐션을 유지한다. 이 “선형‑하이브리드” 설계는 어텐션의 2차 비용을 선형으로 줄이면서도 중요한 전역 컨텍스트를 보존한다.

  2. Time‑Step Distillation – 전통적인 확산은 많은 작은 디노이징 단계를 필요로 한다. 저자들은 전체 스케줄을 사용해 교사 모델을 학습한 뒤, 그 지식을 학생 모델에 증류한다. 학생 모델은 잡음이 섞인 잠재 표현에서 거의 깨끗한 상태로 바로 두 단계만에 도달하도록 학습한다. 증류 손실은 학생의 중간 출력을 교사의 다단계 궤적에 맞추어 샘플링 과정을 효과적으로 압축한다.

  3. Mobile‑Specific Optimizations

    • Operator Fusion: 컨볼루션과 활성화를 하나의 커널로 결합해 메모리 트래픽을 감소.
    • Cache‑Friendly Layout: 텐서를 ARM NEON 벡터 라인에 맞게 재배열해 캐시 미스를 최소화.
    • Dynamic Precision: 안전한 부분에서는 혼합 정밀도(FP16)를 사용하고, 수치적으로 민감한 레이어만 FP32로 되돌린다.
  4. 학습 파이프라인 – 모델은 대규모 비디오 데이터셋(예: UCF‑101, Kinetics)에서 표준 확산 목표와 함께, 시간 일관성을 벌점으로 하는 보조 손실을 추가해 학습한다. 이는 생성된 프레임 간 부드러운 움직임을 보장한다.

결과 및 발견

지표기존 Mobile‑I2V (베이스라인)MobileI2V (2‑step)
해상도480p720p
평균 프레임당 지연 (CPU)~800 ms<100 ms
FVD (Frechet Video Distance) ↓210185 (≈ 12% 개선)
PSNR (비디오 품질) ↑24.1 dB24.8 dB
모델 크기350 M 파라미터270 M 파라미터
  • 속도: 두 단계 증류가 10배 속도 향상을 제공하고, 어텐션 최적화가 추가로 2배 이득을 주어 일반 기기에서도 실시간 재생이 가능해졌다.
  • 품질: 공격적인 속도 향상에도 불구하고 시각적 품질은 데스크톱급 확산 모델과 동등하며, 객관적 지표(FVD, PSNR)와 사용자 연구 모두 이를 뒷받침한다.
  • 자원 발자국: 모델은 1 GB 이하의 RAM에 충분히 들어가며, 백그라운드 앱이나 AR 경험에도 적합하다.

실용적 함의

  • 온‑디바이스 창의 앱 – 개발자는 비디오 생성 기능(예: 애니메이션 아바타, 동적 스토리보드, AR 필터)을 클라우드 의존 없이 모바일 앱에 직접 삽입할 수 있어 프라이버시 보호와 지연 감소가 가능하다.
  • 실시간 비디오 편집 – Instagram Reels나 TikTok 같은 플랫폼은 “사진을 짧은 클립으로 변환” 필터를 즉시 폰에서 실행할 수 있어 새로운 콘텐츠 제작 워크플로우를 열어준다.
  • 엣지 AI for Gaming – 절차적으로 생성된 컷신이나 NPC 애니메이션을 실시간으로 합성해 게임 패키지 크기를 줄이고 개인화된 경험을 제공한다.
  • 대역폭 민감 시나리오 – 연결이 불안정한 환경(예: 원격 현장 작업)에서는 고해상도 이미지를 서버에 업로드할 필요 없이 온‑디바이스에서 바로 생성한다.
  • 연구 및 프로토타이핑 – 오픈소스 코드는 텍스트‑투‑비디오 등 다른 모달리티 실험이나 하이브리드 어텐션 방식을 다양한 모바일 AI 작업에 적용하기 위한 견고한 베이스라인을 제공한다.

제한점 및 향후 연구

  • 하드웨어 의존성 – 보고된 속도는 고성능 ARM CPU/NPU를 기준으로 하며, 구형 기기에서는 <100 ms 목표 달성이 어려울 수 있다.
  • 시간 일관성 극단 상황 – 빠른 움직임이나 복잡한 가림 현상에서 가끔 jitter가 발생하며, 추가적인 시간 정규화가 필요할 수 있다.
  • 다양한 도메인에 대한 일반화 – 학습 데이터가 자연 장면에 집중돼 있어, 스타일화된 이미지나 의료 영상에 대한 성능은 검증되지 않았다.
  • 720p 이상 확장성 – 720p는 중요한 이정표이지만, 1080p 혹은 4K로 확장하려면 추가적인 모델 압축이나 하드웨어 가속이 필요하다.

저자들은 adaptive step‑distillation(장면 복잡도에 따라 확산 단계 수를 가변화)과 hardware‑aware neural architecture search를 통해 성능을 더욱 끌어올릴 것을 제안한다.


MobileI2V는 고품질 실시간 이미지‑투‑비디오 합성이 이제 클라우드 전용이 아니라는 것을 입증한다. 하이브리드 어텐션 설계와 공격적인 증류를 통해 개발자는 동적 비디오 생성을 사용자의 주머니 속으로 직접 가져올 수 있는 실용적인 툴킷을 얻게 된다.

저자

  • Shuai Zhang
  • Bao Tang
  • Siyuan Yu
  • Yueting Zhu
  • Jingfeng Yao
  • Ya Zou
  • Shanglin Yuan
  • Li Yu
  • Wenyu Liu
  • Xinggang Wang

논문 정보

  • arXiv ID: 2511.21475v1
  • 분류: cs.CV
  • 발표일: 2025년 11월 26일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…