[Paper] InfSplign：推理时空间对齐的文本到图像扩散模型

发布: 1个月前 (2025年12月20日 GMT+8 01:52)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.17851v1

概述

近期的文本到图像扩散模型能够生成逼真的照片级图片，但在提示要求精确空间关系时仍会出现问题（例如，“左侧有一只猫，右侧有一只狗”）。InfSplign 通过一种 无训练、推理时 的技术来弥补这一缺口，它在不修改原始模型权重的前提下，引导扩散过程实现更好的对象放置。

跨注意力提取 – 在扩散过程中，解码器的跨注意力图（将文本标记链接到图像补丁）在多个分辨率层级上被收集。
空间损失构建 –
- 位置损失：鼓励某个标记（例如“左”）在对应的图像区域获得高注意力。
- 存在损失：确保每个对象标记在整幅图像上获得大致相同的总注意力，防止对象缺失或重复。
噪声校正 – 在每个去噪步骤中，通过对组合损失进行梯度下降来更新当前潜在变量，实际上是“引导”扩散轨迹朝向空间上忠实的解。
无需模型再训练 – 所有操作均在推理阶段完成，原始扩散模型权重保持不变，使该方法轻量（≈ 5 % 额外开销）且可普遍适用。

Benchmark	Metric (higher = better)	Prior best	InfSplign
VISOR (spatial alignment)	mIoU	0.42	0.58
T2I‑CompBench (compositional fidelity)	CLIP‑Score	0.71	0.78
Runtime (per image)	seconds	1.0	1.05

该方法假设底层扩散模型已经学习到合理的交叉注意力图；如果模型噪声过大或训练不足，可能会限制其效果。
对于包含大量重叠空间约束的极其复杂场景，仍可能产生模糊的布局；如何将损失函数扩展以处理更高阶关系仍是一个待解挑战。
未来的研究可以探索 adaptive loss weighting（自适应损失加权）在不同扩散步骤中的使用，或结合 semantic segmentation（语义分割）线索，以进一步提升空间保真度。

InfSplign 表明，在推理阶段进行一次聪明且轻量的微调，就能弥补文本到图像生成长期存在的差距，为更可控、可投入生产的生成流水线打开了大门。