[Paper] Canvas-to-Image: 구성적 이미지 생성 with 멀티모달 제어

발행: (2025년 11월 27일 오전 03:59 GMT+9)
3 min read
원문: arXiv

Source: arXiv - 2511.21691v1

개요

현대 확산 모델은 고품질·다양한 이미지를 생성하는 데 뛰어나지만, 사용자가 텍스트 프롬프트, 대상 레퍼런스, 공간 배치, 포즈 제약, 레이아웃 주석 등을 동시에 지정할 때 고충실도 구성 및 다중 모달 제어에는 여전히 어려움을 겪습니다. 우리는 이러한 이질적인 제어들을 하나의 캔버스 인터페이스로 통합하는 Canvas-to-Image라는 통합 프레임워크를 제안합니다. 이를 통해 사용자는 자신의 의도를 충실히 반영한 이미지를 생성할 수 있습니다.

핵심 아이디어는 다양한 제어 신호를 모델이 직접 해석할 수 있는 단일 복합 캔버스 이미지로 인코딩하여 시각‑공간적 추론을 통합하는 것입니다. 또한 다중‑작업 데이터셋을 구축하고 Multi‑Task Canvas Training 전략을 제안하여, 확산 모델이 이질적인 제어들을 텍스트‑투‑이미지 생성에 공동으로 이해하고 통합하도록 최적화합니다. 이 공동 학습을 통해 Canvas-to-Image는 작업‑특정 휴리스틱에 의존하지 않고 여러 제어 모달리티를 동시에 reasoning 할 수 있으며, 추론 단계에서 다중 제어 상황에도 잘 일반화됩니다.

광범위한 실험 결과, Canvas-to-Image는 정체성 보존 및 제어 충실도 측면에서 최신 방법들을 크게 능가함을 보여줍니다. 특히 다중 인물 구성, 포즈 제어 구성, 레이아웃 제한 생성, 다중 제어 생성 등 어려운 벤치마크에서 뛰어난 성능을 기록했습니다.

저자

  • Yusuf Dalva
  • Guocheng Gordon Qian
  • Maya Goldenberg
  • Tsai‑Shien Chen
  • Kfir Aberman
  • Sergey Tulyakov
  • Pinar Yanardag
  • Kuan‑Chieh Jackson Wang

논문 정보

  • arXiv ID: 2511.21691v1
  • Categories: cs.CV
  • Published: 2025년 11월 27일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 보편적 가중치 부분공간 가설

우리는 다양한 작업에 대해 학습된 딥 뉴럴 네트워크가 놀라울 정도로 유사한 저차원 파라메트릭 서브스페이스를 나타낸다는 것을 보여준다. 우리는 최초의 대규모…