[论文] LongFly:长时程 UAV Vision-and-Language Navigation 与 Spatiotemporal Context Integration

发布: (2025年12月26日 GMT+8 20:09)
7 min read
原文: arXiv

Source: arXiv - 2512.22010v1

Overview

本文介绍了 LongFly,一个新框架,使无人机(UAV)能够在长距离上遵循自然语言导航指令,同时应对灾难现场环境的视觉复杂性。通过显式建模过去观测和飞行轨迹的时空上下文,LongFly 大幅提升了无人机视觉与语言导航(VLN)的可靠性,这一能力对于时间敏感的搜救任务至关重要。

关键贡献

  • 具备历史感知的时空建模,将原始的多视角 UAV 视频转换为紧凑且富有表现力的上下文向量。
  • 基于槽位的历史图像压缩模块,动态提炼冗余视觉数据为固定长度表示,降低内存和计算开销。
  • 时空轨迹编码,捕获访问路径点的顺序以及飞行路径的几何结构。
  • 提示引导的多模态融合,利用语言提示将过去的上下文与当前视觉帧融合,实现对路径点预测的时间感知推理。
  • 领先的性能提升:相较于现有 UAV VLN 基线,成功率提升 +7.89%,按路径长度加权的成功率提升 +6.33%,在已见和未见环境中均表现一致。

方法论

  1. 数据收集与预处理 – UAV 在执行由自然语言指令定义的导航任务时,记录来自多个机载摄像头的 RGB 图像。

  2. 基于槽的历史图像压缩

    • 将近期的视觉流划分为 (例如每 0.5 秒或每个航路点)。
    • 轻量级注意力编码器在每个槽中挑选信息量最大的帧,并将其聚合为固定大小的向量,去除冗余。
  3. 时空轨迹编码

    • 将 UAV 的三维姿态序列(位置 + 方向)输入到类似 Transformer 的编码器,学习时间动态(速度、转向率)和空间关系(相对距离)。
  4. 提示驱动的多模态融合

    • 语言模型生成描述当前指令步骤的 提示(例如 “飞向倒塌的建筑”)。
    • 该提示用于条件化跨模态注意力层,将压缩的视觉历史、轨迹嵌入以及实时摄像头视图融合,产生用于决策的上下文感知表示。
  5. 航路点预测与控制

    • 将融合后的表示传递给策略网络,输出下一个航路点或低层控制指令。
    • 循环重复,直至指令完成或超时。

整个流水线在典型的 UAV 边缘计算平台(如 NVIDIA Jetson)上实现近实时运行,得益于紧凑的表示和高效的注意力机制。

结果与发现

指标LongFly先前最佳Δ
成功率 (SR)78.4 %70.5 %+7.9 %
按路径长度加权的成功率 (SPL)62.1 %55.8 %+6.3 %
推理延迟(每步)45 ms62 ms–27 %
  • 对未见环境的鲁棒性:当无人机在全新的灾区进行导航时,LongFly 的提升仍然有效,表明其具有很强的泛化能力。
  • 消融研究显示,移除槽压缩或轨迹编码器任意一个都会导致成功率下降超过 3 %,证实视觉和运动历史两者都是必不可少的。
  • 定性分析表明,由于提示引导的集成实现的时间推理,飞行路径更平滑,回溯环路更少。

实际意义

  • 搜索与救援 (SAR):第一响应者可以发出高级口头或文本指令(“搜索倒塌桥梁的东侧”),并依赖无人机自主执行远程任务,而无需持续遥控。
  • 基础设施检查:LongFly 可以用于大型结构(桥梁、电力线)的常规检查,操作员只需指定“检查塔 3 的左侧”,让无人机自行导航。
  • 边缘部署:紧凑的上下文表示使得模型能够在现有无人机计算模块上运行,避免昂贵的云端转移并降低延迟——这对时间紧迫的灾害响应至关重要。
  • 开发者 API:模块化设计(压缩、轨迹编码器、集成)可作为可复用的 SDK 组件公开,允许机器人开发者将 LongFly 插入自定义飞行控制器或仿真环境。

限制与未来工作

  • 传感器依赖:当前系统假设 RGB 视觉可靠;在光线不足或浓烟弥漫、视觉线索稀缺的环境中,性能可能下降。
  • 提示设计的可扩展性:基于提示的集成依赖手工编写的指令模板;为任意自然语言自动生成提示仍是一个未解决的挑战。
  • 真实飞行测试:实验在模拟灾难环境中进行;需要大量现场试验,以验证系统在风力、GPS 漂移和通信中断等条件下的鲁棒性。
  • 未来方向:作者计划加入多模态传感器(LiDAR、热成像),以在恶劣条件下增强感知能力,并探索持续学习,使 UAV 在部署期间能够不断完善其时空模型。

作者

  • Wen Jiang
  • Li Wang
  • Kangyao Huang
  • Wei Fan
  • Jinyuan Liu
  • Shaoyu Liu
  • Hongwei Duan
  • Bin Xu
  • Xiangyang Ji

论文信息

  • arXiv ID: 2512.22010v1
  • 分类: cs.CV, cs.AI
  • 发表时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »