[Paper] DPM++:用于遮挡行人再识别的动态掩码度量学习
Source: arXiv - 2605.06637v1
请提供您希望翻译的具体文本内容,我将按照要求保留来源链接并进行简体中文翻译。
概述
人物再识别(ReID)系统在干净的全身图像上已经达到了惊人的准确率,但当人物被障碍物、包袋或人群部分遮挡时仍会出现困难。论文 “DPM++: Dynamic Masked Metric Learning for Occluded Person Re-identification” 提出了一个统一的框架,能够在运行时学习关注人物的可见部分,on the fly,无需依赖单独的姿态检测器或手工制作的遮挡模拟器。通过在匹配过程中动态屏蔽不可靠的区域,DPM++ 弥合了真实世界遮挡视频与大多数 ReID 模型所训练的整体身份表征之间的差距。
关键贡献
- Dynamic masked metric:学习一个针对输入的掩码,仅选择每张图像的身份嵌入中可信的子空间,确保匹配由可见线索驱动。
- CLIP‑based two‑stage supervision:利用语言‑图像模型 CLIP,将文本分支的身份级语义先验注入到分类器‑原型空间,指导掩码生成过程。
- Saliency‑guided patch transfer:一种新颖的数据增强流程,使用显著图将真实的遮挡补丁(如背包、汽车)粘贴到训练图像上,生成逼真的遮挡样本,其信息量优于随机擦除。
- Occlusion‑aware sample pairing & mask‑guided optimization:根据遮挡模式配对训练样本,并利用学习到的掩码对损失进行加权,从而在强遮挡下稳定训练。
- State‑of‑the‑art performance:在遮挡(如 Occluded‑Duke、Occluded‑Market)和整体 ReID 基准上均创下新的 top‑1 准确率记录,展示了方法的多样性。
方法论
-
Base representation – Images are first encoded by a standard CNN backbone (ResNet‑50 or similar) into a classifier‑prototype space, where each class (person ID) has a prototype vector.
基础表示 – 图像首先通过标准的 CNN 主干网络(如 ResNet‑50)进行编码,映射到 分类器‑原型 空间,其中每个类别(人物 ID)都有一个原型向量。 -
Dynamic mask generation – For a given query image, a lightweight mask network predicts a binary mask over the embedding dimensions. The mask is dynamic: it depends on the visual evidence of that specific image (e.g., which body parts are visible).
动态掩码生成 – 对于给定的查询图像,轻量级掩码网络在嵌入维度上预测二值掩码。该掩码是 动态 的:它取决于该图像的视觉证据(例如,哪些身体部位可见)。 -
Masked metric computation – The similarity between two images is computed only on the dimensions that both masks deem reliable, effectively ignoring occluded or noisy features.
掩码度量计算 – 两幅图像之间的相似度仅在两者掩码都认为可靠的维度上计算,从而有效忽略遮挡或噪声特征。 -
CLIP‑driven supervision – The text encoder of CLIP is fed the person ID label (as a word token). Its output serves as a semantic prior that regularizes the prototype vectors, encouraging them to align with high‑level identity concepts. This prior is transferred to the mask network in a second training stage, teaching it which embedding dimensions are semantically meaningful.
CLIP 驱动的监督 – 将人物 ID 标签(作为词 token)输入 CLIP 的文本编码器。其输出作为语义先验,对原型向量进行正则化,促使其与高级身份概念对齐。该先验在第二阶段的训练中转移到掩码网络,教会它哪些嵌入维度具有语义意义。 -
Saliency‑guided patch transfer – During training, salient foreground regions are identified, and realistic occluder patches (extracted from a separate “occluder” dataset) are pasted onto low‑saliency background areas. This creates controlled occlusions that preserve the underlying identity while challenging the model.
显著性引导的补丁转移 – 在训练期间,识别出显著的前景区域,并将真实的遮挡补丁(从独立的“遮挡物”数据集提取)粘贴到低显著性的背景区域。这样产生受控遮挡,既保留了底层身份信息,又对模型构成挑战。 -
Occlusion‑aware pairing – Pairs of images are formed such that at least one member is heavily occluded, forcing the network to learn robust cross‑visibility matching. The loss is weighted by the overlap of the two masks, so mismatched (highly dissimilar) regions contribute less.
遮挡感知配对 – 形成图像对时,确保至少有一张图像被严重遮挡,迫使网络学习鲁棒的跨视野匹配。损失根据两掩码的重叠程度加权,使得不匹配(高度不同)的区域贡献更小。
All components are end‑to‑end differentiable, so the system can be trained in a single pipeline without external pose or segmentation models.
所有组件均支持端到端可微分,因此系统可以在单一流水线中训练,无需外部姿态或分割模型。
结果与发现
| 数据集 | 指标 (mAP / Rank‑1) | 先前 SOTA | Δ (提升) |
|---|---|---|---|
| Occluded‑DukeMTMC | 71.3 % / 84.9 % | 66.1 % / 80.2 % | +5.2 % / +4.7 % |
| Occluded‑Market1501 | 68.7 % / 82.4 % | 63.5 % / 78.1 % | +5.2 % / +4.3 % |
| DukeMTMC (holistic) | 88.1 % / 95.2 % | 86.7 % / 94.0 % | +1.4 % / +1.2 % |
| Market1501 (holistic) | 93.4 % / 97.6 % | 92.0 % / 96.8 % | +1.4 % / +0.8 % |
关键要点
- 动态掩码本身就贡献了在遮挡基准上大部分提升(约 3–4 % 绝对值)。
- 添加基于 CLIP 的语义先验可再提升约 1 %,验证了语言层面的身份线索有助于模型聚焦于判别特征。
- 基于显著性的补丁迁移在对抗真实遮挡方面的鲁棒性远高于随机擦除;去除该步骤会导致性能下降约 2 %。
实际意义
- 可部署在边缘摄像头 – 掩码网络轻量(≈ 0.5 M 参数),可与主干网络一起在普通 GPU 或甚至高端移动 SoC 上运行,实现设备端具备遮挡感知的 ReID,用于监控或零售分析。
- 降低对辅助检测器的依赖 – 由于 DPM++ 直接从图像学习可见性,您无需额外的姿态估计器或分割模型,从而降低推理延迟并简化部署体系。
- 在人群密集场景中实现更好的跨摄像头匹配 – 零售店、机场或智慧城市摄像头常常捕捉到被行李或人群部分遮挡的顾客。DPM++ 能保持高识别准确率,提升流量分析、防损或个性化服务等下游任务。
- 可迁移到其他领域 – 动态掩码的思路可应用于任何部分观测常见的检索任务(例如遮挡下的车辆 ReID、带植被的野生动物监测)。
限制与未来工作
- 掩码粒度仍然是向量级别 – 当前方法对嵌入维度进行掩码,而不是空间区域,这可能会错过像素级掩码能够捕获的细粒度遮挡模式。
- 依赖 CLIP 预训练 – 语义先验取决于 CLIP 文本编码器的质量;对于具有高度专业化身份词汇的领域(例如军装),可能需要定制语言模型。
- 合成遮挡偏差 – 虽然基于显著性引导的补丁转移比随机擦除更真实,但仍依赖于精心策划的遮挡物库。真实世界的遮挡分布(例如动态人群)可能不同,进而限制泛化能力。
- 对大规模身份集合的可扩展性 – 基于原型的分类器随身份数量线性增长,这在城市规模部署时可能成为瓶颈。未来工作可以探索内存高效的原型压缩或层次匹配。
作者提出的未来方向 包括将动态掩码扩展为空间注意力图,整合视频级时间线索以实现更平滑的遮挡处理,以及探索自监督语言先验以消除对 CLIP 外部训练数据的依赖。
作者
- Lei Tan
- Yingshi Luan
- Pincong Zou
- Pingyang Dai
- Liujuan Cao
论文信息
- arXiv ID: 2605.06637v1
- 分类: cs.CV
- 出版日期: 2026年5月7日
- PDF: Download PDF