[Paper] NeuralRemaster:相位保留扩散用于结构对齐生成

发布: (2025年12月5日 GMT+8 02:59)
9 min read
原文: arXiv

Source: arXiv - 2512.05106v1

Overview

本文提出 Phase‑Preserving Diffusion (φ‑PD),这是一种对扩散式生成流水线的简洁而强大的改动,它在随机化频率分量的 幅度 的同时保持输入图像的 相位(空间布局)不变。通过这种方式,模型能够生成与原始几何结构完美对齐的新内容——而标准扩散模型由于高斯噪声会同时打乱幅度 相位,难以实现这一点。作者展示了 φ‑PD 可以即插即用地与任何现有的图像或视频扩散模型配合使用,并且可以通过单一的频率截断旋钮在结构刚性和创意自由度之间进行权衡。

Key Contributions

  • Phase‑Preserving Diffusion (φ‑PD):一种模型无关的前向扩散过程重新表述,保留条件信号的 Fourier 相位,仅随机化幅度。
  • Frequency‑Selective Structured (FSS) noise:单参数(频率截断)噪声调度,使实践者能够连续控制生成输出与输入结构的贴合程度。
  • Zero inference overhead:φ‑PD 不增加任何额外参数或运行时开销;可直接嵌入任何预训练的扩散模型(图像或视频)而无需重新训练网络结构。
  • Broad applicability:在真实感与风格化图像再渲染、图像到图像翻译、视频到视频翻译以及自动驾驶规划器的仿真到真实(sim‑to‑real)增强等任务上均有展示。
  • Significant downstream impact:在 CARLA 驾驶模拟器上实验表明,φ‑PD 将 CARLA‑to‑Waymo 规划器的成功率提升约 50 %,凸显了其超越视觉质量的实际价值。

Methodology

  1. Fourier Decomposition

    • 将每个输入(图像或视频帧)通过快速傅里叶变换(FFT)转入频域。
    • 将表示分解为 幅度(每个频率的强度)和 相位(这些频率的空间排列)。
  2. Phase‑Preserving Corruption

    • 传统扩散在 幅度相位 上同时加入各向同性高斯噪声,导致几何信息被破坏。
    • φ‑PD 只在幅度上加入 结构化噪声,而 保持相位不变。实现方式为:采样噪声张量、应用频率选择性掩码(FSS 掩码),并依据与标准扩散时间步相同的调度将其与原始幅度混合。
  3. Frequency‑Selective Structured (FSS) Noise

    • 由单一截断频率 (c) 定义的低通/高通滤波器。低于 (c) 的频率受到更强的随机化(自由度更高),而高于 (c) 的频率则保持更接近原始幅度(刚性更强)。
    • 在扩散步骤中将 (c) 从低到高平滑滑动,模型即可逐步放宽结构约束,形成一个平滑的 “刚性‑vs‑创意” 调节旋钮。
  4. Training & Inference

    • 扩散 去噪网络(如 UNet、Video‑UNet)仍按原方式训练,只是前向过程改为 φ‑PD。
    • 推理时逆向扩散步骤保持不变;唯一的额外操作是可选地选择 FSS 截断频率,以满足期望的对齐程度。

由于改动仅发生在 前向 污损阶段,任何预训练的扩散模型都可以通过 φ‑PD 进行微调,甚至在作者提供兼容检查点的情况下直接使用。

Results & Findings

任务基线(标准扩散)φ‑PD(带 FSS)关键指标
真实感图像再渲染纹理错位、重影空间对齐完美,SSIM 更高SSIM ↑ 0.12
风格化图像翻译风格跨对象泄漏风格遵循对象边缘,笔触更清晰LPIPS ↓ 15 %
视频到视频翻译时间抖动、漂移运动稳定,几何跨帧一致FVD ↓ 18 %
仿真到真实(CARLA → Waymo)规划成功率 32 %规划成功率 48 %(≈ 50 % 相对提升)规划准确率 ↑

从定性结果来看,作者展示了并排视频,φ‑PD 能在保持车道线、车辆轮廓和光照线索的同时,注入目标域的纹理或风格。单参数 FSS 控制让用户无需重新训练即可在 “精确复制”(仅相位)和 “创意混合”(更多幅度噪声)之间自由切换。

Practical Implications

  • 几何感知的图像到图像流水线——开发用于照片编辑、虚拟试穿或医学图像翻译的工具时,可确保解剖或结构特征保持不变,而仅改变风格。
  • 机器人与自动驾驶的仿真到真实迁移——通过对齐仿真传感数据与真实几何,降低下游感知或规划模块的域偏移,提升安全性与可靠性。
  • 视频后处理与特效——电影工作室可在保持运动轨迹的前提下更换背景或应用艺术滤镜,减少昂贵的手工抠图工作。
  • 零成本升级现有扩散模型——φ‑PD 不增加参数或推理延迟,团队只需一次代码改动即可为现有的 DALL·E 类 API 添加结构保留生成能力。
  • 面向创意应用的细粒度控制——FSS 截断频率相当于一个 “刚性旋钮”,UI 设计者可以向终端用户暴露,让其交互式调节输出对输入布局的遵循程度。

Limitations & Future Work

  • 频率掩码设计是全局的——当前的 FSS 掩码在整幅图像上使用相同的截断频率,面对同时包含高频(细节)和低频(大结构)需求的场景可能不够理想。自适应、空间可变的掩码有望提升灵活性。
  • 依赖 Fourier 表示——FFT 虽快,但假设周期性边界条件;在图像边缘(尤其是非矩形输入)可能出现伪影。探索替代变换(如小波)或许能缓解此问题。
  • 从头训练 vs. 微调——论文展示了微调的强劲效果,但从零开始使用 φ‑PD 训练扩散模型可能需要更细致的调度设计;更多关于这方面的消融实验将帮助实践者。
  • 向 3‑D 数据的扩展——作者已在视频上验证,但对全 3‑D 体积或点云扩散(如 LiDAR)仍未探索。将相位保留思想迁移到这些领域是一个有前景的方向。

总体而言,φ‑PD 为需要 生成内容保持原位 的开发者提供了一条实用路径——它在艺术灵活性与几何保真之间架起了桥梁。

Authors

  • Yu Zeng
  • Charles Ochoa
  • Mingyuan Zhou
  • Vishal M. Patel
  • Vitor Guizilini
  • Rowan McAllister

Paper Information

  • arXiv ID: 2512.05106v1
  • Categories: cs.CV, cs.GR, cs.LG, cs.RO
  • Published: December 4, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »