[Paper] HiFi-Inpaint:面向高保真基于参考的图像修复,以生成细节保留的人体‑产品图像
发布: (2026年3月3日 GMT+8 02:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.02210v1
Overview
本文介绍了 HiFi‑Inpaint,一种基于参考的图像修复系统,能够在保持产品细节的前提下,将产品无缝插入人物照片中。通过结合全新的注意力模块、面向细节的损失函数以及一个包含 40 K 张图像的数据集,作者提升了生成的人物‑产品图像的真实感——这对于广告、电商以及虚拟试穿体验等场景至关重要。
关键贡献
- Shared Enhancement Attention (SEA) – 一个轻量级注意力块,在修复过程中显式对齐并锐化参考图像中的产品特征。
- Detail‑Aware Loss (DAL) – 一种训练目标,对高频(边缘/纹理)成分的误差进行惩罚,迫使网络重现清晰的产品细节。
- HP‑Image‑40K 数据集 – 公开发布的 40 000 对人‑产品配对集合,通过自我合成流水线生成并自动过滤质量,填补了长期存在的数据空白。
- State‑of‑the‑art performance – 定量(更高的 PSNR/SSIM、更低的 LPIPS)和定性结果,在合成和真实世界基准上均优于以往的基于参考的修复方法。
方法论
- 参考引导管线 – 模型接收一个目标图像(其中包含产品应出现的遮罩区域)和一个参考产品图像。
- 共享增强注意力 – SEA 从两个输入中提取多尺度特征图,计算交叉注意力得分,并将最相关的产品细节注入遮罩区域。该共享注意力在多个解码器阶段应用,确保细腻纹理(例如织物纹理、徽标压印)在生成过程中得以保留。
- 细节感知损失 – DAL 并非仅在原始 RGB 像素上进行监督,而是先对生成图像和真实图像分别进行高通滤波(如拉普拉斯),得到高频图。损失在这些高频图上使用 L1 项,并结合常规的重建损失,促使网络在像素级别匹配边缘和纹理。
- 在 HP‑Image‑40K 上训练 – 数据集提供(遮罩目标、参考、真实)配对样本。自动过滤去除低质量合成,使模型能够从多样的姿态、光照和产品类别中学习。
整体架构仍然是带跳连的标准编码器‑解码器;创新点在于 SEA 模块和 DAL 监督,它们共同引导网络实现高保真细节的保留。
结果与发现
| 指标(数值越高越好) | HiFi‑Inpaint | Prior Ref‑Inpaint (e.g., RFR‑Inpaint) |
|---|---|---|
| PSNR | 31.8 dB | 29.4 dB |
| SSIM | 0.94 | 0.90 |
| LPIPS(数值越低越好) | 0.12 | 0.18 |
- 视觉质量:并排对比显示 HiFi‑Inpaint 能保留清晰的标志、拼接图案和反射表面,而其他方法会出现模糊或失真。
- 姿态与光照的鲁棒性:得益于 SEA 能够聚焦最相关的参考特征,模型能够在各种人体姿态和复杂背景下稳定地插入产品。
- 消融实验:去除 SEA 会导致 PSNR 下降约 1.2 dB,省略 DAL 会使 LPIPS 上升约 0.05,证实两者对细节保真度都至关重要。
实际影响
- E‑commerce catalog generation – 零售商可以自动为新产品生成模型图像,无需昂贵的拍摄,确保产品的纹理和品牌保持完整。
- Virtual try‑on & AR – 将服装、配饰或小工具叠加到用户实时摄像头画面上的应用可以利用 HiFi‑Inpaint 实时生成逼真的照片级效果,提高用户信心。
- Marketing automation – 机构可以快速制作高质量的广告创意,将网红或模特与产品图片库结合,缩短交付时间。
- Dataset creation – HP‑Image‑40K 数据集可作为参考引导生成未来研究的基准,鼓励更多面向行业的解决方案。
局限性与未来工作
- Domain shift – 模型在合成‑加‑过滤数据上训练;在极端光照或高度反射材料(在 HP‑Image‑40K 中未出现)上性能可能下降。
- Computation cost – SEA 引入额外的注意力计算,略微增加推理延迟,可能成为实时移动 AR 的瓶颈。
- Single‑reference dependence – 当前框架假设只有一个干净的产品参考;处理多个或部分遮挡的参考仍是未解决的挑战。
未来方向包括将注意力机制扩展到多参考场景,为边缘设备优化架构,并通过更丰富的真实世界捕获来充实数据集,以进一步缩小仿真到真实的差距。
作者
- 刘逸晨
- 周东浩
- 王杰
- 高鑫
- 刘贵生
- 李佳彤
- 张全伟
- 吕强
- 郭兰清
- 文世磊
- 王伟强
- 衡凤安
论文信息
- arXiv ID: 2603.02210v1
- 分类: cs.CV
- 出版日期: 2026年3月2日
- PDF: 下载 PDF