[Paper] 自监督动物识别用于长视频

发布: 3周前 (2026年1月15日 GMT+8 01:53)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.09663v1

概述

识别跨长时间视频记录的单个动物是野生动物研究、牲畜监测和行为研究的瓶颈。本文提出了一种自监督、内存高效的方法，将动物识别视为全局聚类问题，而不是逐帧跟踪任务。该方法仅需边界框检测和已知的个体数量，即可实现超过 97 % 的识别准确率，并且能够轻松运行在消费级 GPU 上。

关键贡献

全局聚类公式 – 将逐帧跟踪重新表述为单一聚类问题，消除时间误差的累积。
基于匈牙利分配的自举 – 使用最优匹配算法在运行时生成可靠的伪标签，使得在没有任何身份标注的情况下实现端到端学习。
轻量化训练流水线 – 利用冻结的预训练主干网络和从视觉‑语言模型改编的二元交叉熵损失，每个批次占用 < 1 GB GPU 显存（约为典型对比方法的 1/10）。
领先的性能 – 在两个具有挑战性的数据集（3D‑POP 鸽子视频和 8‑头小牛喂食视频）上实现 >97 % 的识别准确率，匹配或超越在 >1 k 标注帧上训练的监督基线。
开源实现 – 代码和预训练模型已在 Hugging Face 上发布，可直接复用。

方法论

假设 – 每段视频包含固定、已知数量的动物（在受控实验或围栏监测中常见）。只需要边界框检测。
特征提取 – 使用冻结的主干网络（例如在 ImageNet 上预训练的 ResNet‑50）处理每个检测到的裁剪，生成紧凑的视觉描述符。
成对抽样 – 从同一视频中随机抽取帧对；将它们的描述符拼接后送入轻量投影头。
伪标签生成 – 在每个训练批次中，使用匈牙利算法在投影描述符与已知动物 ID 集之间求解最优匹配，生成软伪标签。
损失函数 – 二元交叉熵损失（受 CLIP 图像‑文本对齐启发）鼓励模型对正确匹配的对赋予高相似度，对错误匹配的对赋予低相似度。
推理时聚类 – 训练完成后，将所有帧的描述符进行聚类（例如 k‑means，k 等于已知动物数量），得到整段视频的最终身份标签。

整个流水线在每个批次只进行一次前向‑后向传播，避免存储长时间的时间历史。

结果与发现

数据集	个体数量	监督基线（1000+ 标记帧）	自监督（本工作）
3D‑POP pigeons	12	95.3 %	97.4 %
8‑calves feeding	8	96.1 %	97.2 %

内存使用: 每批次 < 1 GB GPU RAM，相比典型的对比自监督跟踪器需要 8–12 GB。
训练速度: 每个 epoch 大约快 2 倍，因为主干网络被冻结，仅更新一个小的投影头。
鲁棒性: 尽管存在遮挡、光照变化和动物姿态变化，仍表现良好，这归功于利用整个视频上下文的全局聚类目标。

实际意义

可部署在边缘设备上： 研究人员可以在笔记本或普通工作站上运行模型，而无需高端 GPU 集群。
消除标注瓶颈： 无需手动标注数千帧；只需对个体数量和边界框进行简单计数（可从现成的检测器获取）即可。
可扩展至长时录制： 由于该方法不维护每帧状态，可处理数小时的视频而不会耗尽内存。
与现有流水线集成： 该方法可在任何目标检测器（YOLO、Faster‑RCNN 等）之后、下游行为分析工具之前插入，实现自动化的身份感知行为图谱。
潜在跨领域应用： 相同的基于聚类的自监督方法可适用于实体数量已知的其他领域（例如，停车场车辆跟踪、工厂车间机器人监控）。

限制与未来工作

Fixed‑count assumption（固定计数假设）: 该方法需要事先知道个体的精确数量；处理动物的动态进出仍是一个未解决的挑战。
Dependence on detection quality（依赖检测质量）: 边界框精度差会降低特征质量；将检测置信度融入聚类步骤可能提升鲁棒性。
Limited to single‑camera setups（仅限单摄像头设置）: 将框架扩展到多摄像头网络（例如大范围野生动物监测）需要跨视角关联机制。
Future directions（未来方向） 包括学习实时估计个体数量、加入时间线索以实现更平滑的身份转换，以及在更丰富的物种和户外环境中进行测试。

作者

Xuyang Fang
Sion Hannuna
Edwin Simpson
Neill Campbell

论文信息

arXiv ID: 2601.09663v1
分类: cs.CV
出版日期: 2026年1月14日
PDF: 下载 PDF

相关文章

阅读更多 »

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

尽管最近取得了进展，medical foundation models 仍然难以统一 visual understanding 和 generation，因为这些任务本质上目标冲突……

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

最近在3D形状生成方面的进展取得了令人印象深刻的成果，但大多数现有方法依赖于干净、未被遮挡且分割良好的输入。这种...

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

室内环境会随着物体的移动、出现或消失而演变。捕捉这些动态需要在整个过程保持时间上一致的实例身份……

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性

在 generative AI 时代，即使关键的医疗任务也日益实现自动化，radiology report generation (RRG) 仍然依赖于 suboptimal metric……