[Paper] 视觉航向预测用于自主空中飞行器
发布: (2025年12月11日 GMT+8 02:27)
7 min read
原文: arXiv
Source: arXiv - 2512.09898v1
Overview
本文提出了一种仅使用视觉、数据驱动的流水线,使自主无人机(UAV)能够可靠地定位地面机器人(UGV)并计算其需要转向的精确航向——无需依赖 GPS 或外部运动捕捉系统。通过将微调的 YOLOv5 检测器与用于角度回归的轻量神经网络相结合,作者仅使用机载单目摄像头即可实现亚度级航向精度,为 UAV‑UGV 在 GPS 被拒绝或室内环境中的协作打开了可能性。
Key Contributions
- 实时 UGV 检测:使用 YOLOv5 模型在自建的 >13 k 标注图像数据集上达到 ≈95 % 的准确率。
- 轻量航向预测 ANN:利用边界框几何信息输出航向角,MAE = 0.1506°,RMSE = 0.1957°。
- 端到端、独立于基础设施的框架:仅使用单目摄像头,摆脱 GNSS、LiDAR 或外部运动捕捉装置的需求。
- 完整的数据集与训练流水线(VICON 地面真实值图像)已公开发布,便于复现和后续研究。
- 现场演示:展示在动态条件下 UAV‑UGV 对齐,验证该方法在真实任务中的可行性。
Methodology
- 数据采集 – 使用 VICON 运动捕捉系统记录 UAV 与 UGV 的精确位姿,同时向下的 RGB 摄像头捕获场景。共手动标注了超过 13 k 帧图像的 UGV 边界框及对应的真实航向角。
- 目标检测 – 作者在标注数据上微调 YOLOv5(流行的单阶段检测器)。该模型在普通 GPU 上可达 >30 fps,输出 UGV 的边界框(中心、宽度、高度)。
- 特征提取 – 对每个边界框计算简单的几何线索(相对尺寸、相对于图像中心的偏移),这些线索与 UAV 相对 UGV 的方向相关。
- 航向回归 – 一个浅层前馈 ANN(2 个隐藏层,约 200 个参数)接受这些线索并预测 UAV 面向 UGV 所需的偏航角。网络使用均方误差损失相对于 VICON 航向进行训练。
- 推理循环 – 部署时,UAV 捕获一帧图像,运行 YOLOv5,将边界框特征输入 ANN,随后立即指令偏航调整以对齐地面机器人。
Results & Findings
- 检测:YOLOv5 在保留测试集上实现 95 % 的精确率/召回率,平均推理时间为每帧 12 ms。
- 角度预测:ANN 的 MAE 为 0.1506°,RMSE 为 0.1957°,表明预测航向几乎与真实值无差别,即使 UGV 出现在不同距离和方向时亦如此。
- 鲁棒性:在移动 UGV 和光照变化的实验中,系统仍保持亚度级精度,证明对中等视觉干扰具有韧性。
- 实时性能:完整流水线(检测 + 回归)在 NVIDIA Jetson Xavier 上运行约 25 fps,满足典型 UAV 控制回路的需求。
Practical Implications
- GPS 被拒绝的操作 – 搜索救援、室内检查或地下任务现在可以仅依赖视觉实现 UAV‑UGV 协同,降低硬件成本和任务风险。
- 群体可扩展性 – 由于模型轻量,多个无人机可以在边缘设备上并行运行该流水线,实现更大规模的多机器人团队而无需集中处理。
- 即插即用集成 – 该方法适用于任何单目 RGB 摄像头,可轻松嵌入现有 UAV 飞行栈(如 PX4、ROS),改动代码极少。
- 快速原型 – 公开的数据集和训练脚本让开发者能够针对不同地面机器人形状、颜色或摄像头安装位置进行微调,加速定制部署。
- 安全与冗余 – 纯视觉航向估计在 GNSS 信号被干扰或欺骗时提供后备方案,提升整体系统的鲁棒性。
Limitations & Future Work
- 受控环境偏差 – 训练数据在实验室内采集,背景相对单一;在复杂的户外场景中的表现仍需验证。
- 单一 UGV 聚焦 – 当前模型假设每帧仅有一个目标;处理多机器人或遮挡情况需要额外的检测与数据关联逻辑。
- 深度歧义 – 仅使用单目摄像头限制了绝对距离估计;结合轻量深度线索(如立体或单目深度网络)可提升远程对齐能力。
- 动态光照与天气 – 未来工作应在强光、雨天或尘土等恶劣条件下测试鲁棒性,可能需要通过数据增强或领域适应技术来改进。
总体而言,本文提供了一种实用、低成本的 UAV‑UGV 航向对齐方案,开发者可直接用于构建在 GPS 受限环境下的自主多机器人系统。
Authors
- Reza Ahmari
- Ahmad Mohammadi
- Vahid Hemmati
- Mohammed Mynuddin
- Parham Kebria
- Mahmoud Nabil Mahmoud
- Xiaohong Yuan
- Abdollah Homaifar
Paper Information
- arXiv ID: 2512.09898v1
- Categories: cs.RO, cs.AI, cs.CV, cs.MA, eess.SY
- Published: December 10, 2025
- PDF: Download PDF