[Paper] InfSplign:推理时空间对齐的文本到图像扩散模型
发布: (2025年12月20日 GMT+8 01:52)
6 min read
原文: arXiv
Source: arXiv - 2512.17851v1
概述
近期的文本到图像扩散模型能够生成逼真的照片级图片,但在提示要求精确空间关系时仍会出现问题(例如,“左侧有一只猫,右侧有一只狗”)。InfSplign 通过一种 无训练、推理时 的技术来弥补这一缺口,它在不修改原始模型权重的前提下,引导扩散过程实现更好的对象放置。
关键贡献
- 即插即用推理模块:兼容任何预训练扩散主干(Stable Diffusion、DALL·E‑2 等),无需额外训练数据。
- 复合空间损失:结合多尺度交叉注意力线索,(1) 将对象对齐到描述的位置,(2) 在采样过程中保持整体对象计数平衡。
- 逐步噪声调整:在每个去噪步骤应用损失,微妙地将潜在噪声轨迹重塑为空间一致的输出。
- 最新水平的结果:在 VISOR 和 T2I‑CompBench 基准上,优于现有的推理时技巧和微调基线。
- 开源实现:已在 GitHub 完全发布,可立即进行实验。
方法论
- 跨注意力提取 – 在扩散过程中,解码器的跨注意力图(将文本标记链接到图像补丁)在多个分辨率层级上被收集。
- 空间损失构建 –
- 位置损失:鼓励某个标记(例如“左”)在对应的图像区域获得高注意力。
- 存在损失:确保每个对象标记在整幅图像上获得大致相同的总注意力,防止对象缺失或重复。
- 噪声校正 – 在每个去噪步骤中,通过对组合损失进行梯度下降来更新当前潜在变量,实际上是“引导”扩散轨迹朝向空间上忠实的解。
- 无需模型再训练 – 所有操作均在推理阶段完成,原始扩散模型权重保持不变,使该方法轻量(≈ 5 % 额外开销)且可普遍适用。
结果与发现
| Benchmark | Metric (higher = better) | Prior best | InfSplign |
|---|---|---|---|
| VISOR (spatial alignment) | mIoU | 0.42 | 0.58 |
| T2I‑CompBench (compositional fidelity) | CLIP‑Score | 0.71 | 0.78 |
| Runtime (per image) | seconds | 1.0 | 1.05 |
- 空间对齐 相比最强的推理时基线提升约 30 % 的绝对 mIoU。
- 即使 微调 了扩散权重的方法也未能达到 InfSplign 的性能,凸显了针对性噪声引导的强大效果。
- 定性示例显示对象顺序(“狗左侧于猫”)明显更准确,缺失元素也更少。
实际意义
- 生成式 UI 工具的开发者 可以将 InfSplign 作为即插即用模块集成,以在不重新训练大型模型的情况下为终端用户提供更可靠的布局控制。
- 内容流水线(例如游戏资产生成、广告)受益于更高的组合准确性,减少手动后期编辑。
- 低资源环境(边缘设备、即服务推理)可以采用 InfSplign,因为它只增加了适度的计算开销,并且不需要存储额外的微调检查点。
- 提示工程 变得不那么脆弱:开发者可以自信地使用空间关键字(“above”“next to”等),模型会遵守这些指令。
限制与未来工作
- 该方法假设底层扩散模型已经学习到合理的交叉注意力图;如果模型噪声过大或训练不足,可能会限制其效果。
- 对于包含大量重叠空间约束的极其复杂场景,仍可能产生模糊的布局;如何将损失函数扩展以处理更高阶关系仍是一个待解挑战。
- 未来的研究可以探索 adaptive loss weighting(自适应损失加权)在不同扩散步骤中的使用,或结合 semantic segmentation(语义分割)线索,以进一步提升空间保真度。
InfSplign 表明,在推理阶段进行一次聪明且轻量的微调,就能弥补文本到图像生成长期存在的差距,为更可控、可投入生产的生成流水线打开了大门。
作者
- Sarah Rastegar
- Violeta Chatalbasheva
- Sieger Falkena
- Anuj Singh
- Yanbo Wang
- Tejas Gokhale
- Hamid Palangi
- Hadi Jamali‑Rad
论文信息
- arXiv ID: 2512.17851v1
- 分类: cs.CV, cs.AI
- 出版时间: 2025年12月19日
- PDF: 下载 PDF