[Paper] 自监督动物识别用于长视频

发布: (2026年1月15日 GMT+8 01:53)
7 min read
原文: arXiv

Source: arXiv - 2601.09663v1

概述

识别跨长时间视频记录的单个动物是野生动物研究、牲畜监测和行为研究的瓶颈。本文提出了一种自监督、内存高效的方法,将动物识别视为全局聚类问题,而不是逐帧跟踪任务。该方法仅需边界框检测和已知的个体数量,即可实现超过 97 % 的识别准确率,并且能够轻松运行在消费级 GPU 上。

关键贡献

  • 全局聚类公式 – 将逐帧跟踪重新表述为单一聚类问题,消除时间误差的累积。
  • 基于匈牙利分配的自举 – 使用最优匹配算法在运行时生成可靠的伪标签,使得在没有任何身份标注的情况下实现端到端学习。
  • 轻量化训练流水线 – 利用冻结的预训练主干网络和从视觉‑语言模型改编的二元交叉熵损失,每个批次占用 < 1 GB GPU 显存(约为典型对比方法的 1/10)。
  • 领先的性能 – 在两个具有挑战性的数据集(3D‑POP 鸽子视频和 8‑头小牛喂食视频)上实现 >97 % 的识别准确率,匹配或超越在 >1 k 标注帧上训练的监督基线。
  • 开源实现 – 代码和预训练模型已在 Hugging Face 上发布,可直接复用。

方法论

  1. 假设 – 每段视频包含固定、已知数量的动物(在受控实验或围栏监测中常见)。只需要边界框检测。
  2. 特征提取 – 使用冻结的主干网络(例如在 ImageNet 上预训练的 ResNet‑50)处理每个检测到的裁剪,生成紧凑的视觉描述符。
  3. 成对抽样 – 从同一视频中随机抽取帧对;将它们的描述符拼接后送入轻量投影头。
  4. 伪标签生成 – 在每个训练批次中,使用匈牙利算法在投影描述符与已知动物 ID 集之间求解最优匹配,生成软伪标签。
  5. 损失函数 – 二元交叉熵损失(受 CLIP 图像‑文本对齐启发)鼓励模型对正确匹配的对赋予高相似度,对错误匹配的对赋予低相似度。
  6. 推理时聚类 – 训练完成后,将所有帧的描述符进行聚类(例如 k‑means,k 等于已知动物数量),得到整段视频的最终身份标签。

整个流水线在每个批次只进行一次前向‑后向传播,避免存储长时间的时间历史。

结果与发现

数据集个体数量监督基线(1000+ 标记帧)自监督(本工作)
3D‑POP pigeons1295.3 %97.4 %
8‑calves feeding896.1 %97.2 %
  • 内存使用: 每批次 < 1 GB GPU RAM,相比典型的对比自监督跟踪器需要 8–12 GB。
  • 训练速度: 每个 epoch 大约快 2 倍,因为主干网络被冻结,仅更新一个小的投影头。
  • 鲁棒性: 尽管存在遮挡、光照变化和动物姿态变化,仍表现良好,这归功于利用整个视频上下文的全局聚类目标。

实际意义

  • 可部署在边缘设备上: 研究人员可以在笔记本或普通工作站上运行模型,而无需高端 GPU 集群。
  • 消除标注瓶颈: 无需手动标注数千帧;只需对个体数量和边界框进行简单计数(可从现成的检测器获取)即可。
  • 可扩展至长时录制: 由于该方法不维护每帧状态,可处理数小时的视频而不会耗尽内存。
  • 与现有流水线集成: 该方法可在任何目标检测器(YOLO、Faster‑RCNN 等)之后、下游行为分析工具之前插入,实现自动化的身份感知行为图谱。
  • 潜在跨领域应用: 相同的基于聚类的自监督方法可适用于实体数量已知的其他领域(例如,停车场车辆跟踪、工厂车间机器人监控)。

限制与未来工作

  • Fixed‑count assumption(固定计数假设): 该方法需要事先知道个体的精确数量;处理动物的动态进出仍是一个未解决的挑战。
  • Dependence on detection quality(依赖检测质量): 边界框精度差会降低特征质量;将检测置信度融入聚类步骤可能提升鲁棒性。
  • Limited to single‑camera setups(仅限单摄像头设置): 将框架扩展到多摄像头网络(例如大范围野生动物监测)需要跨视角关联机制。
  • Future directions(未来方向) 包括学习实时估计个体数量、加入时间线索以实现更平滑的身份转换,以及在更丰富的物种和户外环境中进行测试。

作者

  • Xuyang Fang
  • Sion Hannuna
  • Edwin Simpson
  • Neill Campbell

论文信息

  • arXiv ID: 2601.09663v1
  • 分类: cs.CV
  • 出版日期: 2026年1月14日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »