[论文] Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

发布: (2026年2月19日 GMT+8 02:05)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16664v1

Overview

本文介绍了 Self‑Supervised Semantic Bridge (SSB),这是一种在不需要配对示例或在目标域上进行显式对抗训练的情况下,实现跨域图像翻译的新方法。通过将保持几何结构的语义表示注入基于扩散的模型,SSB 能够实现高保真、空间一致的翻译,即使在模型从未见过的数据上也能工作——这对于医学成像和文本引导的编辑尤为有价值。

关键贡献

  • Semantic bridge architecture 将自监督视觉编码器与扩散“bridge”模型耦合,创建一个对外观不变但对结构敏感的共享潜在空间。
  • Elimination of cross‑domain adversarial loss,使模型能够推广到未见的目标域,并降低对昂贵的特定域判别器的需求。
  • Improved inversion quality:语义潜在条件引导扩散过程,减轻扩散‑反演流水线常见的模糊和伪影。
  • Strong empirical results 在具有挑战性的医学图像合成任务(例如 MRI ↔ CT、病理切片)上显示出在域内和域外均优越的性能。
  • Straightforward extension to text‑guided editing,展示相同的桥接可以通过自然语言提示进行控制,无需重新训练。

方法论

  1. 自监督编码器 – 使用对比损失(例如 SimCLR、MoCo)在大量图像上训练卷积(或视觉 Transformer)编码器。该编码器学习将任意图像映射为 语义向量,该向量在颜色、纹理或光照变化时保持稳定,但能够捕捉底层的布局和形状。

  2. 扩散桥接 – 训练两个扩散模型:一个将源图像映射到潜在噪声空间,另一个从该噪声重建目标图像。与传统的扩散逆向不同,桥接过程 条件化 于步骤 1 中得到的语义向量。

  3. 无需目标域对抗训练 – 唯一需要的监督是自监督的语义损失;扩散模型在条件化语义码的情况下进行去噪训练。这消除了必须看到目标域样本的 GAN‑style 判别器的需求。

  4. 推理 – 为了翻译一幅图像,我们 (a) 对其进行编码以获取语义码,(b) 运行前向扩散得到噪声潜在表示,(c) 在相同的语义码(或修改后的码,例如来自文本提示)条件下运行逆向扩散,生成目标域图像。

整体流程可以视作一座“桥梁”,它在跨域传递源图像的几何信息,同时让扩散模型填充相应的外观。

结果与发现

任务指标(越高越好)SSB 与最佳先前
MRI → CT(域内)SSIM:0.92 对比 0.84(GAN)
组织病理学风格迁移(域外)FID:12.3 对比 23.7(Diffusion‑Inversion)
文本引导的面部编辑用户研究偏好:78 % 选择 SSB 输出
  • 空间保真度:边缘保留和器官形状一致性显著高于基线方法,已通过定量(SSIM、Dice)和放射科医生的视觉评估得到确认。
  • 泛化能力:当模型在全新成像模态(例如 PET 扫描)上进行测试且未进行任何微调时,性能仅出现轻微下降,展示了语义桥的鲁棒性。
  • 速度:由于语义编码器轻量且扩散步骤在各域之间共享,推理时间与最先进的扩散逆向方法相当(≈ 1 秒/256×256 图像,在 RTX 3090 上)。

Practical Implications

  • Medical imaging pipelines can now synthesize missing modalities (e.g., generate CT from MRI) without collecting paired datasets, reducing patient exposure and acquisition costs.
  • Developers building cross‑domain style transfer tools (e.g., turning sketches into realistic renders) can leverage SSB to avoid training a separate GAN for each target style.
  • Text‑to‑image editors gain a plug‑and‑play conditioning mechanism: swapping the semantic code with a text‑derived embedding yields controllable edits without retraining the diffusion model.
  • Deployment friendliness – Since the approach does not rely on adversarial training, it sidesteps stability issues and can be fine‑tuned on modest hardware, making it attractive for startups and research labs alike.

限制与未来工作

  • 语义桥的质量依赖于自监督编码器;如果预训练数据缺少某些结构(例如罕见的解剖异常),模型可能难以保留这些信息。
  • 虽然该方法降低了对目标域数据的依赖,但仍需要相当规模的源域图像语料库来进行编码器的预训练。
  • 当前的扩散骨干网络在中等分辨率(≤ 256 像素)下运行;要扩展到超高分辨率的医学扫描,需要采用内存高效的扩散变体。
  • 未来方向包括 jointly learning the encoder and diffusion bridge(而非两阶段流水线)以及 exploring multimodal semantic codes,将文本、分割掩码或临床元数据等结合,以实现更丰富的条件控制。

作者

  • Jiaming Liu
  • Felix Petersen
  • Yunhe Gao
  • Yabin Zhang
  • Hyojin Kim
  • Akshay S. Chaudhari
  • Yu Sun
  • Stefano Ermon
  • Sergios Gatidis

论文信息

  • arXiv ID: 2602.16664v1
  • 分类: cs.CV
  • 出版日期: 2026年2月18日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »