원격 감시 시각적 질문 답변을 위한 효율적인 통합 프레임워크: 듀얼·하이브리드·인코더‑디코더 아키텍처 활용

발행: 1일 전 (2026년 6월 18일 AM 01:52 GMT+9)

3 분 소요

원문: arXiv

소스: arXiv - 2606.19277v1

개요

시각 질문 답변(VQA)이 원격 감지(RS) 도메인에서 독특한 과제를 안고 있습니다. 이는 고해상도, 다중 규모 객체 분포, 항공 사진의 의미적 복잡성 때문입니다. 일반 영역 Foundation 모델은 뛰어난 성공을 거두었지만, RSVQA에 직접 적용하는 것은 대규모 도메인 이동과 전체 미세 조정에 따른 계산 비용이 proibitive하여 제한됩니다.

본 연구는 RS Adapter라는 파라미터 효율적 미세 조정(PEFT) 전략을 세 가지 다른 비전 언어 모델(VLM) 아키텍처(Dual Encoder CLIP, Encoder Decoder BLIP, Hybrid FLAVA)에 적용하여 비교 분석합니다. 우리는 freeze된 백본의 attention과 MLP 레이어에 경량 병목 어댑터를 삽입하는 통합 아키텍처 수술 파이프라인을 소개합니다. 이를 통해 5% 미만의 학습 가능한 매개변자로 빠른 적응이 가능해집니다.

고해상도 RSVQA x 데이터셋에 대한 실험 결과는 모든 적응 모델이 수렴함을 보여주지만, Hybrid FLAVA 아키텍처는 단일 모달 대비 멀티모달 추론 및 검색 능력을 보다 우수한 균형을 제공한다는 것을 확인했습니다.

본 연구 결과는 재난 평가 및 도시 모니터링에서 자원 효율적인 VQA에 새로운 기준을 제시합니다.

주요 공헌

cs.CV

방법론

자세한 방법은 논문 전체를 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전을 기여합니다.

저자

Timothy Agboada
Shikha Chandel
Yadav Raj Ghimire
Leila Hashemi‑Beni

논문 정보

arXiv ID: 2606.19277v1
분야: cs.CV
게시일: 2026년 6월 17일
PDF: 다운로드 PDF

원격 감시 시각적 질문 답변을 위한 효율적인 통합 프레임워크: 듀얼·하이브리드·인코더‑디코더 아키텍처 활용

개요

주요 공헌

방법론

실용적 함의

저자

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

[논문] 참조 기반 다중 스피커 오디오 씬 생성