[Paper] LongFly: 장기 UAV Vision-and-Language Navigation with Spatiotemporal Context Integration
발행: (2025년 12월 26일 오후 09:09 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.22010v1
(번역할 텍스트가 제공되지 않았습니다. 번역이 필요한 내용을 추가로 알려주시면 도와드리겠습니다.)
개요
이 논문은 LongFly라는 새로운 프레임워크를 소개한다. 이 프레임워크는 무인 항공기(UAV)가 재난 현장의 시각적 복잡성을 처리하면서도 장거리에 걸친 자연어 탐색 지시를 따를 수 있게 한다. 과거 관찰 및 비행 궤적의 시공간 컨텍스트를 명시적으로 모델링함으로써, LongFly는 UAV용 시각‑언어 탐색(VLN)의 신뢰성을 크게 향상시킨다. 이는 시간에 민감한 수색‑구조 임무에 필수적인 능력이다.
주요 기여
- 역사 인식 시공간 모델링은 원시 다중 뷰 UAV 영상을 압축되고 표현력 있는 컨텍스트 벡터로 변환합니다.
- 슬롯 기반 과거 이미지 압축 모듈은 중복된 시각 데이터를 동적으로 정제하여 고정 길이 표현으로 만들고, 메모리와 연산 오버헤드를 감소시킵니다.
- 시공간 궤적 인코딩은 방문한 웨이포인트 순서와 비행 경로의 기하학적 구조를 모두 포착합니다.
- 프롬프트 기반 다중모달 통합은 언어 프롬프트를 사용해 과거 컨텍스트와 현재 시각 프레임을 결합하여, 시간 인식을 통한 웨이포인트 예측을 가능하게 합니다.
- 최첨단 성능 향상: 기존 UAV VLN 기준 대비 성공률 +7.89 % 및 경로 길이 가중 성공률 +6.33 %를 달성했으며, 본·미본 환경 모두에서 일관된 성과를 보입니다.
Source: …
Methodology
- Data Collection & Pre‑processing – UAV는 자연어 지시문으로 정의된 네비게이션 에피소드를 수행하면서 여러 탑재 카메라에서 RGB 이미지를 기록합니다.
- Slot‑Based Historical Image Compression
- 최근 시각 스트림을 슬롯으로 나눕니다(예: 0.5 초마다 또는 웨이포인트당).
- 경량 어텐션 인코더가 각 슬롯에서 가장 정보가 풍부한 프레임을 선택하고 이를 고정 크기 벡터로 집계하여 중복을 제거합니다.
- Spatiotemporal Trajectory Encoding
- UAV의 3‑D 자세 시퀀스(위치 + 방향)를 트랜스포머 스타일 인코더에 입력하여 시간적 동역학(속도, 회전율)과 공간적 관계(상대 거리)를 학습합니다.
- Prompt‑Guided Multimodal Integration
- 언어 모델이 현재 지시 단계(예: “무너진 건물을 향해 비행”)를 설명하는 프롬프트를 생성합니다.
- 이 프롬프트는 압축된 시각 히스토리, 트래젝터리 임베딩, 실시간 카메라 뷰를 결합하는 교차‑모달 어텐션 레이어를 조건화하여 의사결정을 위한 컨텍스트‑인식 표현을 생성합니다.
- Waypoint Prediction & Control
- 통합된 표현을 정책 네트워크에 전달하여 다음 웨이포인트 또는 저수준 제어 명령을 출력합니다.
- 지시가 만족되거나 타임아웃이 발생할 때까지 이 루프가 반복됩니다.
전체 파이프라인은 컴팩트한 표현과 효율적인 어텐션 메커니즘 덕분에 일반적인 UAV 엣지 컴퓨팅 플랫폼(예: NVIDIA Jetson)에서 거의 실시간으로 실행됩니다.
결과 및 발견
| 지표 | LongFly | 이전 최고 | Δ |
|---|---|---|---|
| 성공률 (SR) | 78.4 % | 70.5 % | +7.9 % |
| 경로 길이 가중 성공률 (SPL) | 62.1 % | 55.8 % | +6.3 % |
| 추론 지연 (단계당) | 45 ms | 62 ms | –27 % |
- 보지 못한 환경에 대한 견고성: LongFly의 향상은 UAV가 완전히 새로운 재난 지역을 탐색할 때도 유지되어 강력한 일반화를 나타냅니다.
- 절제 연구는 슬롯‑압축 또는 궤적 인코더 중 하나를 제거하면 성공률이 3 % 이상 감소함을 보여주며, 시각 및 움직임 이력이 모두 필수임을 확인합니다.
- 정성적 분석은 프롬프트‑기반 통합으로 활성화된 시간적 추론 덕분에 되돌아가는 루프가 적은 보다 부드러운 비행 경로를 보여줍니다.
실용적 함의
- Search‑and‑Rescue (SAR): 최초 대응자는 고수준의 음성 또는 텍스트 명령(예: “무너진 다리의 동쪽을 수색해라”)을 내릴 수 있으며, UAV가 지속적인 원격 조작 없이도 장거리 임무를 자율적으로 수행하도록 할 수 있다.
- Infrastructure Inspection: LongFly는 대형 구조물(다리, 전선) 정기 검사를 위해 적용될 수 있으며, 운영자는 “탑 3의 왼쪽을 검사해라”와 같이 지정하고 드론이 내비게이션을 담당한다.
- Edge Deployment: 컴팩트한 컨텍스트 표현 덕분에 기존 UAV 컴퓨트 모듈에서 모델을 실행할 수 있어 비용이 많이 드는 클라우드 오프로드를 피하고 지연 시간을 감소시킨다—시간이 중요한 재난 대응에 필수적이다.
- Developer APIs: 모듈식 설계(압축, 궤적 인코더, 통합)를 재사용 가능한 SDK 구성요소로 제공할 수 있어 로봇 개발자가 LongFly를 맞춤형 비행 컨트롤러나 시뮬레이션 환경에 쉽게 연결할 수 있다.
제한 사항 및 향후 작업
- 센서 의존성: 현재 시스템은 신뢰할 수 있는 RGB 비전을 가정합니다; 시각적 단서가 부족한 저조도 또는 짙은 연기 환경에서는 성능이 저하될 수 있습니다.
- 프롬프트 설계의 확장성: 프롬프트 기반 통합은 수동으로 만든 지시 템플릿에 의존합니다; 임의의 자연어에 대한 프롬프트 생성을 자동화하는 것은 아직 해결되지 않은 과제입니다.
- 실제 비행 테스트: 실험은 시뮬레이션 재난 환경에서 수행되었습니다; 풍동, GPS 드리프트 및 통신 손실에 대한 견고성을 검증하기 위해 광범위한 현장 시험이 필요합니다.
- 향후 방향: 저자들은 악조건에서 인식을 강화하기 위해 멀티모달 센서(LiDAR, 열영상)를 통합하고, UAV가 배치 중에 시공간 모델을 지속적으로 학습하도록 하는 지속 학습을 탐구할 계획입니다.
저자
- Wen Jiang
- Li Wang
- Kangyao Huang
- Wei Fan
- Jinyuan Liu
- Shaoyu Liu
- Hongwei Duan
- Bin Xu
- Xiangyang Ji
논문 정보
- arXiv ID: 2512.22010v1
- Categories: cs.CV, cs.AI
- Published: 2025년 12월 26일
- PDF: PDF 다운로드