[Paper] CAMEO：多视角扩散模型的对应注意力对齐

发布: 2个月前 (2025年12月3日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03045v1

概览

多视角扩散模型已成为从单张参考图像生成场景新视角的首选工具，但保持生成视角几何一致性的内部机制一直是个谜团。全新的 CAMEO 框架揭示了注意力图是如何隐式学习跨视角对应关系的，并展示了少量监督即可显著加速训练并提升合成质量。

诊断注意力对应
- 作者首先在训练过程中可视化了普通多视角扩散模型的注意力图。
- 通过叠加已知的 3D 对应关系（由深度或光流得到），他们确认许多注意头确实关注到跨视角的正确空间位置，但在极端相机旋转时对齐会变得嘈杂。
用几何信息监督注意力
- 他们构建了一个 对应损失，惩罚模型的注意力分布与“真实”对应图（由预先计算的深度/光流管线得到）之间的距离。
- 该损失仅作用于单个注意力层（通常是中层的自注意力块），其余扩散模型仍使用标准的去噪目标进行训练。
训练循环
- 对于每一步训练，模型接收一张参考图像和一个目标视角。
- 将扩散损失（预测噪声）与对应损失相加（加上一个小的权重系数）。
- 由于监督是稀疏的（仅一层、一个损失项），额外的计算开销可以忽略不计。
集成方式
- CAMEO 以即插即用模块实现：将选定的注意力块替换为“CAMEO‑enabled”版本，输出常规的注意力权重并返回一个损失项。
- 不需要对扩散调度器、网络结构或推理流程做任何修改。

*收敛定义为验证集 LPIPS 达到平台期。

更快的原型开发： 构建 AR/VR 内容生成器的团队可以在数周而非数月内训练出高质量的多视角扩散模型，显著降低云计算成本。
即插即用升级： 现有流水线（如 DreamFusion 风格的 3‑D 生成、视角一致的图像‑到‑视频工具）只需在单个注意力块加入 CAMEO 监督，即可完成升级，无需重新设计整个网络。
提升下游任务： 生成视图中更准确的几何信息有利于 3‑D 重建、场景编辑和神经渲染等下游应用，这些任务对跨视角一致性要求极高。
开发者友好工具： 由于该损失仅需预先计算的对应图（深度/光流），开发者可以直接复用现成的深度估计器，甚至使用 CAD 模型生成的合成深度，集成过程十分简便。

依赖对应质量： CAMEO 的监督效果取决于真实光流或深度图的质量，噪声较大的估计会导致错误传播。
单层聚焦： 虽然单层监督已取得良好效果，但作者指出在极其复杂的场景（如严重遮挡）中，多层或层次化监督可能更有益。
对超高分辨率的可扩展性： 当前实验最高分辨率为 512 × 512，若要扩展到 4K 级纹理，可能需要额外的内存高效注意力机制。
未来方向： 论文建议探索学习式对应生成器（取代外部深度估计器）、在训练过程中自适应调整对应损失权重，以及将 CAMEO 应用于其他生成范式，如视频扩散模型。