[Paper] 使用空间下采样各向同性网络的高效深度去马赛克

发布: 1个月前 (2026年1月2日 GMT+8 22:40)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.00703v1

请提供您希望翻译的具体文本内容，我将按照要求进行简体中文翻译并保留原有的格式。

概述

本文提出了一种针对移动摄影资源受限环境的深度学习图像去马赛克新方法。通过在各向同性（残差‑在‑残差）网络内部有意 下采样 特征图，作者实现了一个比传统“全分辨率”设计更快且更精确的模型——使得在智能手机和嵌入式相机上实现高质量去马赛克成为可能。

Baseline isotropic network – 作者从一种传统的残差‑在‑残差块堆叠（无下采样）开始，这种结构在去马赛克任务中很流行。
Downsampling strategy – 他们在前几个块之后插入步幅卷积（2× 下采样），用相同的各向同性块处理降分辨率特征图，然后通过像素‑shuffle 层上采样。这相当于经典的编码‑解码模式，但在整个网络中保留了各向同性残差连接。
Design calculus – 使用 DeepMAD 分析工具，他们对 FLOPs、内存和重建误差之间的权衡进行建模。由此得到一组“最佳点”配置（例如 1/4 空间分辨率、64 通道宽度），满足典型移动端约束（< 1 GFLOP 每帧）。
Training – 网络在 MIT‑Adobe FiveK 和 DIV2K 数据集上端到端训练，并使用模拟真实传感器噪声的数据增强。对于 JDD 实验，采用组合损失（L1 + 感知）同时作用于去马赛克后的 RGB 和去噪输出。
Evaluation – 报告了标准去马赛克指标（PSNR、SSIM）和视觉伪影分析，并在 Snapdragon 8‑Gen 2 SoC 上给出了运行时测量。

Model	Params (M)	FLOPs (G)	PSNR (dB) – Bayer	SSIM – Bayer	Runtime (ms) on Snapdragon 8‑Gen 2
Baseline isotropic (no downsample)	1.2	2.1	38.7	0.985	45
JD3Net (downsampled)	0.8	0.9	39.4	0.989	22
State‑of‑the‑art (e.g., DemosaicNet‑V2)	1.5	2.5	38.9	0.986	48

准确性提升：JD3Net 在非下采样基线之上提升了 +0.7 dB PSNR，并比之前的最佳结果高出 +0.5 dB。
加速：将 FLOP 数量减半相当于在现代移动 GPU 上实现 约 2× 更快 的推理，1080p 帧的延迟低于 30 ms。
联合去马赛克‑去噪：在进行 JDD 训练时，JD3Net 在噪声 Bayer 数据（σ=10）上提升了 0.4 dB PSNR，同时保持相同的运行时预算。
视觉质量：主观测试显示，纹理锯齿伪影更少，色彩保真度更高，尤其是在高频纹理（如树叶、织物图案）中。

下采样伪影：虽然整体质量有所提升，但极端下采样（例如 > 1/8 分辨率）可能在非常细腻的纹理中引入细微的振铃效应；当前的设计在这方面已经取得平衡，但在超高分辨率传感器上可能仍需调优。
对异构 CFA 的泛化：实验主要聚焦于 Bayer 和 X‑Trans 图案；要扩展到更新的多光谱或四像素阵列，需要额外的针对特定图案的训练数据。
动态资源缩放：本文提出的是静态架构；未来工作可以探索运行时自适应深度或通道剪枝，以匹配移动设备波动的功耗预算。
硬件感知优化：虽然作者在 Snapdragon SoC 上进行了基准测试，但通过与专用 NPU 内核共同设计网络或利用混合精度（FP16/INT8）量化，仍有可能获得进一步的性能提升。

总体而言，该研究为在最关键的设备——智能手机、可穿戴设备和边缘摄像头——上实现高质量深度去马赛克提供了一个有说服力的蓝图，关键在于重新思考各向同性网络中空间下采样的作用。