[Paper] S3-CLIP：视频超分辨率用于Person-ReID

发布: 3周前 (2026年1月14日 GMT+8 02:46)

6 分钟阅读

原文: arXiv

Source: arXiv - 2601.08807v1

概述

论文提出了 S3‑CLIP，一种将视频超分辨率（VSR）与基于 CLIP 的行人再识别（ReID）相融合的创新框架。通过首先提升低分辨率轨迹（尤其是来自空中平台的轨迹）的视觉质量，作者展示了下游 ReID 性能可以显著提升，这对于真实场景下的监控和搜救部署是关键一步。

首次系统性研究 VSR 在人物‑ReID 中的应用：展示在特征提取前提升原始视频质量可带来可衡量的提升。
任务驱动的超分辨率流水线：将最先进的 VSR 模型（如 EDVR、BasicVSR++）适配到 ReID 的特定需求，包括时间一致性和身份保持。
与 CLIP‑ReID 的集成：利用强大的视觉‑语言编码器 CLIP 作为骨干网络，从超分辨帧中提取鲁棒的、模态无关的嵌入。
在 VReID‑XFD 基准上取得竞争性结果：实现 37.52 % mAP（空中→地面）和 29.16 % mAP（地面→空中），在最难的跨视角场景中 Rank‑10 提升约 18 %（绝对值）。
开源流水线：作者发布代码和预训练模型，促进可复现性和后续研究。

视频超分辨率前端
- 输入：原始低分辨率视频轨迹（例如，来自 UAV 的 240×135）。
- 架构：采用现代 VSR 网络（EDVR‑style），处理短帧窗口（通常 5–7 帧）以利用时间冗余。
- 损失：像素级 L1/L2 损失、感知损失（基于 VGG）以及 保持身份的损失，该损失惩罚放大前后 CLIP 嵌入的变化。
基于 CLIP 的 ReID 主干
- 超分辨率帧输入冻结的 CLIP 视觉编码器（ViT‑B/32）。
- 轻量投影头将 CLIP 嵌入映射到 ReID‑specific 空间，使用标准的交叉熵 + 三元组损失在标注身份上进行训练。
训练策略
- 两阶段训练：
  1. 在通用视频 SR 数据集（如 REDS）上训练 VSR 模块，并加入身份损失。
  2. 在 VReID‑XFD 训练划分上微调 ReID 头，保持 VSR 权重冻结。
- 时间聚合：推理时，对轨迹内的帧级嵌入进行平均，生成每个人的单一鲁棒描述符。
评估协议
- 遵循 VReID‑XFD 基准的跨视角划分（空中到地面和地面到空中）。
- 报告标准指标：平均精度均值 (mAP) 和累计匹配特性 (Rank‑k)。

场景	mAP	Rank‑1	Rank‑5	Rank‑10
空中 → 地面	37.52 % (baseline ≈ 35 %)	45.1 %	58.3 %	68.9 %
地面 → 空中	29.16 % (baseline ≈ 22 %)	+11.24 %	+13.48 %	+17.98 %

监视与安全: 操作员可以将原始无人机视频输入现有基于 CLIP 的 ReID 流程，而无需昂贵的高分辨率摄像头；VSR 前端提升了画质，使跨摄像头匹配更可靠。
搜救: 在灾区，无人机常常捕获细节不足的视频；S3‑CLIP 能提升在异构摄像头网络中定位失踪人员的概率。
边缘部署: VSR 模块可在现代 AI 加速器（如 NVIDIA Jetson、Qualcomm Hexagon）上以约 15 fps 运行 720p 输出，使其在传输紧凑嵌入前进行设备端预处理成为可能。
通用流水线: 由于 ReID 头部使用冻结的 CLIP 编码器，同一超分辨率前端可以与其他下游任务（如动作识别、属性分类）配合使用，且只需极少的再训练。