[Paper] AirSim360: 드론 뷰 내 파노라마 시뮬레이션 플랫폼
Source: arXiv - 2512.02009v1
Overview
AirSim360는 드론 시점에서 360° 파노라믹 데이터를 대량으로 생성할 수 있는 새로운 시뮬레이션 환경을 소개합니다. 현실적인 렌더링, 보행자 행동 모델링, 자동 비행 경로 생성을 결합함으로써, 분할, 깊이 추정, 내비게이션과 같은 컴퓨터 비전 작업에 필요한 다양한 전방향 데이터셋 부족 문제를 해결합니다.
Key Contributions
- Render‑aligned labeling pipeline – 시뮬레이터에서 직접 기하학, 의미론, 객체 인스턴스에 대한 픽셀‑정밀한 자동 그라운드 트루스를 제공합니다.
- Pedestrian‑aware interaction module – 드론의 존재에 반응하는 현실적인 인간 움직임 모델을 제공하여 안전 비행 및 인간 중심 인식 연구를 가능하게 합니다.
- Automated trajectory generator – 내비게이션, 매핑, 검사 시나리오를 위한 다양한 비행 경로를 생성하는 플러그‑인‑플레이 시스템입니다.
- Large‑scale dataset – 다양한 도시, 교외, 자연 환경을 포괄하는 60 K 이상 고해상도 360° 파노라믹을 제공합니다.
- Open‑source release – 전체 툴킷, Unity/Unreal 플러그인 및 데이터셋이 공개되어 커뮤니티 확장을 장려합니다.
Methodology
AirSim360는 인기 있는 AirSim 드론 시뮬레이터를 기반으로 하지만 전방향 렌더링을 지원하도록 확장되었습니다. 워크플로는 세 단계로 구성됩니다:
- Scene Construction & Rendering – 3D 환경에 텍스처가 입혀진 자산을 배치하고, 드론에 가상 360° 카메라를 장착합니다. 렌더러는 등거리 사각형(equirectangular) 이미지를 출력하면서 동시에 그래픽 엔진으로부터 깊이 맵, 표면 법선, 의미 마스크를 추출합니다.
- Pedestrian Modeling – 행동 엔진이 보도, 도로, 개방 공간에 에이전트를 배치합니다. 에이전트는 사회적 인식을 갖춘 내비게이션 정책(예: 충돌 회피, 그룹 형성)을 따르며, 드론 근접에 반응하도록 스크립팅할 수 있어 현실적인 인간‑드론 상호작용 데이터를 제공합니다.
- Trajectory Synthesis – 웨이포인트 플래너, 물리 기반 비행 역학, 무작위 요소(날씨, 조명, 바람)를 결합해 다양한 시점과 움직임 패턴을 포괄하는 수천 개의 비행 궤적을 자동으로 생성합니다.
모든 구성 요소는 Python API를 통해 노출되며, 개발자는 깊은 그래픽 지식 없이도 맞춤형 데이터 생성 파이프라인을 스크립팅할 수 있습니다.
Results & Findings
- Benchmarking on standard 360° tasks – AirSim360 데이터를 사용해 학습한 모델은 파노라믹 의미 분할에서 IoU가 최대 12% 향상되고, 깊이 추정에서는 오차가 15% 감소했습니다(기존 실내 전용 360° 데이터셋 대비).
- Generalization – 소규모 실제 드론 데이터셋(≈2 K 이미지)에서 미세 조정했을 때, AirSim360 사전 학습 네트워크는 수렴 속도가 2배 빨라졌으며 정확도가 5% 높아져 시뮬레이터의 도메인 전이 능력을 입증했습니다.
- Human‑drone safety – 보행자 인식 모듈을 사용한 실험에서, 생성된 안전 비행 궤적을 따르는 드론은 단순 직선 경로에 비해 시뮬레이션된 근접 사고가 30% 감소했습니다.
이 결과들은 플랫폼이 풍부한 라벨링 데이터를 제공할 뿐만 아니라 실제 환경에서의 항공 인식 모델 강인성을 향상시킨다는 것을 확인합니다.
Practical Implications
- Rapid prototyping for autonomous drones – 엔지니어는 전력선 검사, 산림 구조 탐색 등 작업에 특화된 훈련 데이터를 현장 비행 없이도 빠르게 생성할 수 있습니다.
- Safety‑critical simulation – 보행자 인식 시스템을 통해 혼잡한 도시 공역에서 충돌 회피 알고리즘을 실제 배포 전에 테스트할 수 있습니다.
- Cross‑modal research – 깊이, 의미, 인스턴스 마스크가 파노라믹 이미지와 동기화되어 있어, 개발자는 제어된 환경에서 멀티모달 융합(예: LiDAR‑카메라 정렬) 실험을 수행할 수 있습니다.
- Education & Hackathons – 오픈소스 툴킷은 학생과 스타트업이 360° 인식을 탐구하는 장벽을 낮추어 공간 AI 혁신을 촉진합니다.
Limitations & Future Work
- Visual realism gap – 렌더러가 고품질 그래픽을 제공하지만, 미세한 텍스처와 조명 변동은 실제 항공 영상과 차이가 있어 세밀한 텍스처 학습에 영향을 줄 수 있습니다.
- Pedestrian behavior scope – 현재 모델은 기본 보행 및 정지 동작만을 포함하며, 자전거 타기, 차량과의 상호작용 등 복잡한 활동은 아직 시뮬레이션되지 않습니다.
- Scalability to extreme weather – 시뮬레이션된 비, 안개, 바람이 제한적이며, 향후 버전에서는 물리 기반 대기 효과를 도입해 극한 날씨에 대한 견고성 테스트를 목표로 합니다.
저자들은 환경 라이브러리를 확장하고, 보다 정교한 인간 에이전트 모델을 통합하며, 남은 현실 격차를 메우기 위한 도메인 적응 기술을 탐구할 계획입니다.
Authors
- Xian Ge
- Yuling Pan
- Yuhang Zhang
- Xiang Li
- Weijun Zhang
- Dizhe Zhang
- Zhaoliang Wan
- Xin Lin
- Xiangkai Zhang
- Juntao Liang
- Jason Li
- Wenjie Jiang
- Bo Du
- Ming-Hsuan Yang
- Lu Qi
Paper Information
- arXiv ID: 2512.02009v1
- Categories: cs.CV
- Published: December 1, 2025
- PDF: Download PDF