[Paper] Canvas-to-Image: 使用多模态控制的组合图像生成
发布: (2025年11月27日 GMT+8 02:59)
3 min read
原文: arXiv
Source: arXiv - 2511.21691v1
概览
虽然现代扩散模型在生成高质量、多样化的图像方面表现出色,但在实现高保真度的组合与多模态控制方面仍然存在困难,尤其是当用户同时指定文本提示、主体引用、空间布局、姿态约束和布局标注时。我们提出 Canvas-to-Image,一个统一的框架,将这些异构控制整合到单一画布界面,使用户能够生成忠实反映其意图的图像。
我们的核心思路是将多样的控制信号编码为单一的复合画布图像,模型可以直接对其进行解释,以实现集成的视觉‑空间推理。我们进一步策划了一套多任务数据集,并提出 多任务画布训练(Multi‑Task Canvas Training)策略,优化扩散模型在统一学习范式下共同理解并融合异构控制用于文本到图像的生成。这种联合训练使 Canvas-to-Image 能够跨多种控制模态进行推理,而不依赖于任务特定的启发式方法,并且在推理阶段对多控制场景具有良好的泛化能力。
大量实验表明,Canvas-to-Image 在身份保持和控制遵循方面显著优于最先进的方法,涵盖了包括多人组合、姿态控制组合、布局约束生成以及多控制生成等具有挑战性的基准。
作者
- Yusuf Dalva
- Guocheng Gordon Qian
- Maya Goldenberg
- Tsai‑Shien Chen
- Kfir Aberman
- Sergey Tulyakov
- Pinar Yanardag
- Kuan‑Chieh Jackson Wang
论文信息
- arXiv ID: 2511.21691v1
- 分类: cs.CV
- 发布日期: 2025年11月27日
- PDF: Download PDF