[Paper] Canvas-to-Image: 구성적 이미지 생성 with 멀티모달 제어
Source: arXiv - 2511.21691v1
개요
현대 확산 모델은 고품질·다양한 이미지를 생성하는 데 뛰어나지만, 사용자가 텍스트 프롬프트, 대상 레퍼런스, 공간 배치, 포즈 제약, 레이아웃 주석 등을 동시에 지정할 때 고충실도 구성 및 다중 모달 제어에는 여전히 어려움을 겪습니다. 우리는 이러한 이질적인 제어들을 하나의 캔버스 인터페이스로 통합하는 Canvas-to-Image라는 통합 프레임워크를 제안합니다. 이를 통해 사용자는 자신의 의도를 충실히 반영한 이미지를 생성할 수 있습니다.
핵심 아이디어는 다양한 제어 신호를 모델이 직접 해석할 수 있는 단일 복합 캔버스 이미지로 인코딩하여 시각‑공간적 추론을 통합하는 것입니다. 또한 다중‑작업 데이터셋을 구축하고 Multi‑Task Canvas Training 전략을 제안하여, 확산 모델이 이질적인 제어들을 텍스트‑투‑이미지 생성에 공동으로 이해하고 통합하도록 최적화합니다. 이 공동 학습을 통해 Canvas-to-Image는 작업‑특정 휴리스틱에 의존하지 않고 여러 제어 모달리티를 동시에 reasoning 할 수 있으며, 추론 단계에서 다중 제어 상황에도 잘 일반화됩니다.
광범위한 실험 결과, Canvas-to-Image는 정체성 보존 및 제어 충실도 측면에서 최신 방법들을 크게 능가함을 보여줍니다. 특히 다중 인물 구성, 포즈 제어 구성, 레이아웃 제한 생성, 다중 제어 생성 등 어려운 벤치마크에서 뛰어난 성능을 기록했습니다.
저자
- Yusuf Dalva
- Guocheng Gordon Qian
- Maya Goldenberg
- Tsai‑Shien Chen
- Kfir Aberman
- Sergey Tulyakov
- Pinar Yanardag
- Kuan‑Chieh Jackson Wang
논문 정보
- arXiv ID: 2511.21691v1
- Categories: cs.CV
- Published: 2025년 11월 27일
- PDF: Download PDF