[Paper] PuriLight：一种轻量级 Shuffle 与 Purification 框架用于单目深度估计

发布: 3天前 (2026年2月12日 GMT+8 01:35)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.11066v1

Overview

本文介绍了 PuriLight，一种用于单目深度估计的全新自监督框架。该框架在保持 体积小、运行快 的同时，仍能输出高质量的深度图。通过融合三个新颖模块，作者证明在移动端计算机视觉应用（如 AR、机器人和自主导航）中，细节与效率并非不可兼得。

三阶段轻量化架构，在速度与结构精度之间取得平衡。
Shuffle‑Dilation Convolution (SDC)：一种紧凑的模块，利用膨胀卷积核和通道洗牌捕获局部上下文，相比标准卷积显著减少参数量。
Rotation‑Adaptive Kernel Attention (RAKA)：层次化注意力机制，基于学习到的旋转感知卷积核动态重新加权特征，在不增加大量计算的前提下提升表征能力。
Deep Frequency Signal Purification (DFSP)：全局频域滤波器，清理噪声特征图，改善深度连续性和边缘锐度。
在标准自监督深度基准（KITTI、Make3D）上实现 最先进的结果，参数量 减少约30 %，推理速度 提升约2倍，优于其他轻量模型。

Source: …

输入与自监督 – 网络接收单帧 RGB 图像，并通过最小化相邻视频帧之间的光度重投影损失来学习深度，这是一种标准的自监督信号，能够消除对真实深度图的需求。
阶段 1 – 局部特征提取 (SDC)
- 使用 shuffle operation 对通道信息进行混合，随后采用 dilated convolutions 在不增加额外参数的情况下扩大感受野。
- 结果：在轻量化的计算开销下捕获丰富的局部纹理和边缘线索。
阶段 2 – 分层特征增强 (RAKA)
- 构建多尺度特征图金字塔。
- 对每个尺度学习一个 rotation‑adaptive kernel；通过将这些卷积核与特征图进行相关计算得到注意力权重，使网络能够聚焦于方向一致的结构（例如道路边缘、建筑立面）。
阶段 3 – 全局净化 (DFSP)
- 将特征图转换到频域（通过快速傅里叶变换）。
- 通过学习得到的 frequency mask 抑制高频噪声，同时保留结构性频率，随后再将特征图逆变换回空间域。
- 此步骤能够强化深度不连续处的边缘，并降低轻量模型常见的斑点伪影。
深度解码器 – 轻量化的上采样解码器从净化后的特征中重建稠密深度图，随后使用常规的尺度不变损失和光滑正则化进行优化。

数据集	参数 (M)	FLOPs (G)	绝对相对误差 ↓	δ<1.25 ↑
KITTI（自监督）	1.8	2.1	0.098	0.89
Make3D	1.9	2.3	0.112	0.85

精度：PuriLight 的表现与已发表的轻量级方法（如 MobileDepth、FastDepth）相当或更佳，同时 参数量减少约30 %。
速度：在中端移动 GPU（Qualcomm Adreno 640）上，推理速度约为 ≈45 fps（全分辨率 640×192），实现了 AR/VR 的实时深度估计。
消融实验 证实了每个模块的贡献：去除 DFSP 会导致边缘锐度下降约 12 %；将 SDC 替换为标准卷积会增加约 0.5 M 参数，但提升甚微。

On‑device AR/VR – 实时深度图可以在智能手机或头戴显示器上生成，且不会耗尽电池或需要云端后端。
Robotics & Drones – 轻量级深度估计使得在计算受限平台（如 Raspberry Pi、Jetson Nano）上实现障碍规避和导航成为可能。
Autonomous Driving Edge Nodes – 低延迟管线可以通过在传感器覆盖稀疏的区域提供密集场景几何信息，来补充 LiDAR 或雷达。
Developer Friendly – 作者发布了干净的 PyTorch 代码和预训练模型，便于集成到现有感知系统或在特定领域视频数据上进行微调。

领域泛化 – 虽然自监督训练降低了数据集偏差，但模型仍在极端光照（夜景）和高度反射表面上表现不佳。
分辨率权衡 – 当前设计针对 640×192 输入；扩展到更高分辨率会导致 FLOPs 线性增长，可能需要额外的剪枝或量化。
作者提出的未来方向 包括探索 动态卷积核生成 用于 RAKA 以处理未见过的旋转，以及集成 可学习的频率掩码，使其能够根据场景自适应，从而实现更好的净化。