[Paper] WildLIFT：将单目无人机视频提升至3D用于物种无关的野生动物监测

发布: 1天前 (2026年4月28日 GMT+8 01:29)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24718v1

概述

本文介绍了 WildLIFT，一个将普通单目无人机视频转化为完整三维野生动物场景表示的软件流水线。通过将三维重建与开放词汇实例分割相融合，该系统能够在三维空间中检测、标记和追踪任何物种的动物——这在以前需要昂贵的多摄像头装置或手动三维标注。

Video‑to‑Structure‑from‑Motion (SfM)： 原始无人机影像使用现成的 SfM 工具（例如 COLMAP）进行处理，以恢复相机姿态并生成地形的稀疏点云。
Dense 3‑D reconstruction： 多视图立体算法对点云进行稠密化，生成近似地面和植被的网格。
2‑D open‑vocabulary segmentation： 将每帧输入基础模型（例如 Segment Anything Model），该模型会生成针对“动物”对象的像素级掩码，不受物种限制。
3‑D lifting： 使用已知的相机姿态将二维掩码反投影到三维空间，生成有方向的三维边界框。框的方向由相机指向对象的向量决定，从而标记为“前向面”。
Temporal association： 基于卡尔曼滤波的简易跟踪器将跨帧的边界框关联起来，即使动物交叉或部分遮挡，也能保持一致的 ID。
Keyframe refinement UI： 用户可以编辑部分帧（例如纠正误检的框）。系统通过跟踪器将这些编辑传播到相邻帧，大幅降低人工工作量。

可扩展的人口调查： 保护团队现在可以从一次无人机飞行中提取可靠的三维计数和移动路径，免去昂贵的多摄像头设置。
行为生态学： 研究人员可以在三维空间中研究姿态、动物间距和遮挡模式，为理解社会动态开辟新途径。
自动化监测流水线： 该框架可以集成到现有的无人机数据摄取系统（如 AirMap、DroneDeploy），自动生成用于下游 GIS 或统计分析的结构化元数据。
减少现场时间： 更快的数据处理和更低的标注开销意味着现场人员更少，数据收集到可操作洞察的周转时间更快。
跨领域复用： 由于分割骨干网络是开放词汇的，同一流水线可以重新用于其他航空监测任务——如牲畜管理、非法砍伐检测或灾害评估——无需重新训练。