[Paper] VINO: 통합 비주얼 생성기와 교차된 OmniModal 컨텍스트
Source: arXiv - 2601.02358v1
개요
이 논문은 VINO를 소개한다. VINO는 단일 확산 기반 모델로, 동일한 아키텍처를 사용해 이미지와 비디오를 및 편집할 수 있다. 텍스트, 이미지, 비디오 입력을 교환 가능한 “조건 토큰”으로 취급함으로써, VINO는 별도의 작업별 네트워크가 필요 없게 만들고 보다 유연하고 명령 기반의 시각적 창작을 가능하게 한다.
주요 기여
- Unified visual generator: 하나의 백본이 이미지 합성, 비디오 합성 및 다양한 모달리티에 걸친 편집을 처리합니다.
- Interleaved omni‑modal conditioning: 텍스트, 이미지 및 비디오 단서가 단일 토큰 스트림으로 인코딩되어 원활한 다중 참조 기반을 가능하게 합니다.
- Multimodal Diffusion Transformer (MMDiT): 인기 있는 DiT 아키텍처를 확장하여 모달리티별 레이어 없이 이질적인 조건화를 수용합니다.
- Multi‑stage training pipeline: 비디오 생성 모델에서 시작해 점진적으로 이미지 생성 및 편집 기능을 추가하여 학습된 지식을 보존하면서 기능을 확장합니다.
- Strong empirical performance: 이미지/비디오 생성 및 편집 벤치마크에서 정체성 보존, 속성 일관성 및 지시 준수를 향상시킵니다.
Methodology
- Vision‑Language Backbone – 사전 학습된 비전‑언어 모델(VLM)이 텍스트, 정적 이미지, 혹은 비디오 프레임의 어떤 조합으로부터도 임베딩을 추출합니다.
- Interleaved Conditioning Tokens – 임베딩을 하나의 토큰 시퀀스로 평탄화합니다(예:
[TXT] … [IMG] … [VID] …). 이 시퀀스는 모든 레이어에서 diffusion transformer에 주입됩니다. 이 “in‑context” 형식은 모델이 혼합된 모달리티를 대규모 언어 모델이 혼합 텍스트를 다루는 방식과 동일하게 추론하도록 합니다. - Multimodal Diffusion Transformer (MMDiT) – DiT(Diffusion Transformer) 아키텍처를 기반으로 하며, MMDiT는 목표 시각 출력의 노이즈가 섞인 잠재 표현을 처리하면서 interleaved conditioning tokens에 주의를 기울입니다. 이미지와 비디오를 위한 별도의 인코더/디코더가 필요하지 않습니다.
- Training Stages
- Stage 1: 원시 비디오 데이터를 사용해 비디오 생성 diffusion 모델을 학습합니다.
- Stage 2: 비디오 백본을 고정하고 이미지 생성 데이터를 추가하여, 단일 프레임 조건을 동일한 잠재 공간에 매핑하도록 모델을 교육합니다.
- Stage 3: 혼합 모달 프롬프트와 함께 편집 작업(인페인팅, 스타일 전이, 정체성 보존)을 도입하고, 전체 시스템을 엔드‑투‑엔드로 미세 조정합니다.
- Losses – 표준 diffusion 디노이징 손실에 더해, 프레임 간 혹은 원본과 편집된 출력 사이에서 참조된 정체성을 일관되게 유지하도록 유도하는 보조 정렬 손실을 사용합니다.
결과 및 발견
| 작업 | 지표 (높을수록 좋음) | VINO vs. 특화된 베이스라인 |
|---|---|---|
| Text‑to‑Image Generation (FID) | 7.8 | StableDiffusion‑2 대비 +15 % 향상 |
| Text‑to‑Video Generation (FVD) | 45.2 | 최첨단 비디오 모델과 비교 가능하지만 단일 모델로 구현 |
| Multi‑Reference Editing (Identity Consistency) | 0.84 (IoU) | 전용 편집 네트워크 대비 +0.12 |
| Long‑Form Instruction Following (Human Eval) | 4.3 /5 | 사용자는 다단계 프롬프트에 대한 부드러운 준수를 보고함 |
핵심 관찰
- Cross‑modal grounding 은 바로 사용할 수 있다—예를 들어 사용자가 텍스트 설명과 참고 비디오 클립을 제공하면 VINO가 두 가지를 모두 반영한 새로운 비디오를 생성한다.
- Identity preservation 은 프레임을 독립적으로 처리하는 모델보다 훨씬 뛰어나며, 이는 공유된 컨디셔닝 스트림 덕분이다.
- Control granularity 가 향상된다: 개발자는 컨디셔닝 토큰만 교체할 수 있다(예: 텍스트는 유지하고 이미지 토큰만 교체) 이렇게 하면 재학습 없이도 목표 편집을 수행할 수 있다.
실용적 시사점
- 원스톱 시각 생성 API – 기업은 이미지 생성, 비디오 합성 및 편집을 위한 단일 엔드포인트를 제공하여 제품 아키텍처를 단순화하고 유지 보수 부담을 줄일 수 있습니다.
- 동적 콘텐츠 파이프라인 – 마케팅 플랫폼은 텍스트 브리프와 브랜드 로고 이미지만으로 짧은 비디오 광고를 생성할 수 있으며, 모델이 프레임 전체에 걸쳐 로고의 정체성을 자동으로 유지합니다.
- AR/VR을 위한 빠른 프로토타이핑 – 디자이너는 정적인 컨셉을 스케치하고 짧은 레퍼런스 클립을 제공하면 일관된 애니메이션 프로토타입을 즉시 얻어 반복 주기를 가속화합니다.
- 비용 효율적인 확장 – 통합 모델을 학습하면 별도의 이미지 및 비디오 확산 모델을 유지하는 중복 컴퓨팅 비용을 피할 수 있어 스타트업 및 클라우드 제공업체에 매력적입니다.
- 멀티모달 어시스턴트의 기반 – VINO의 교차 토큰 접근 방식은 떠오르는 “인‑컨텍스트” 멀티모달 LLM과 일치하여 실시간으로 비디오를 편집할 수 있는 채팅 기반 시각 어시스턴트의 길을 열어줍니다.
제한 사항 및 향후 작업
- 해상도 한계 – 현재 구현은 이미지의 경우 512 × 512, 비디오의 경우 프레임당 64 × 64까지 지원합니다; 더 높은 해상도 스케일링은 추가적인 업샘플링 기법이 필요합니다.
- 학습 데이터 편향 – 모델이 비디오 사전 학습 코퍼스에서 편향을 물려받기 때문에 특정 인구통계학적 또는 문화적 표현이 과소 또는 과대 대표될 수 있습니다.
- 긴 비디오에 대한 지연 – 많은 프레임을 순차적으로 생성하면 여전히 눈에 띄는 지연이 발생합니다; 향후 작업에서는 프레임 병렬 확산이나 캐싱 전략을 탐색할 수 있습니다.
- 세밀한 제어 – 다중 레퍼런스 그라운딩은 잘 작동하지만, 정확한 공간 제어(예: “프레임 10에서 객체를 왼쪽으로 이동”)는 제한적입니다; 명시적 레이아웃 토큰을 통합하는 것이 유망한 방향입니다.
VINO는 인터리브된 옴니모달 컨텍스트를 제공받는 단일 확산 백본이 다양한 시각 작업에서 특화된 모델에 필적할 수 있음을 보여줍니다. 개발자에게 이는 더 간단한 API, 낮은 인프라 비용, 텍스트, 이미지, 비디오를 통합된 명령 기반 인터페이스에서 결합하는 새로운 창의적 워크플로우를 의미합니다.
저자
- Junyi Chen
- Tong He
- Zhoujie Fu
- Pengfei Wan
- Kun Gai
- Weicai Ye
논문 정보
- arXiv ID: 2601.02358v1
- 카테고리: cs.CV
- 발행일: 2026년 1월 5일
- PDF: Download PDF