[Paper] 오디오를 통한 시각 어포던스 학습
발행: (2025년 12월 2일 오전 03:58 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.02005v1
Overview
이 논문은 Audio‑Visual Affordance Grounding (AV‑AG) 라는 새로운 과제를 소개한다. 이 과제는 행동의 소리만을 이용해 모델이 객체에서 상호작용이 일어나는 정확한 영역을 찾아내도록 한다. 오디오를 단서로 활용함으로써 텍스트 지시문의 모호함과 비디오 기반 방법에서 흔히 발생하는 가림 현상을 피할 수 있어, 실시간 멀티모달 인식의 새로운 길을 연다.
Key Contributions
- 새로운 과제 정의: 텍스트나 비디오가 아니라 행동 소리로부터 상호작용 영역을 세그멘테이션하는 AV‑AG.
- 최초 데이터셋: 10 K 이상의 객체 이미지와 고품질 행동‑소리 녹음, 픽셀 수준 어포던스 마스크가 짝을 이룬 데이터셋과, 제로‑샷 평가를 위한 unseen split 제공.
- AVAGFormer 모델: semantic‑conditioned cross‑modal mixer와 dual‑head decoder를 갖춘 트랜스포머 기반 아키텍처로, 오디오와 비주얼 스트림을 효율적으로 융합.
- 최첨단 성능: AVAGFormer는 관련 audio‑visual segmentation (AVS) 및 멀티모달 그라운딩 작업의 강력한 베이스라인을 능가한다.
- 오픈소스 공개: 코드, 사전 학습 가중치, 데이터셋을 모두 공개하여 재현성과 후속 연구를 장려한다.
Methodology
- 데이터 전처리 – 오디오 클립을 log‑mel 스펙트로그램으로 변환하고, 이미지는 리사이즈 및 정규화한다.
- 특징 추출 – 별도의 인코더(이미지는 CNN, 스펙트로그램은 경량 오디오 트랜스포머)를 사용해 모달리티별 임베딩을 만든다.
- Semantic‑conditioned cross‑modal mixer – 오디오 임베딩이 쿼리 벡터 집합을 생성하고, 이 쿼리가 비주얼 토큰에 어텐션을 적용해 “소리의 의미에 따라 시각 스트림이 어디를 봐야 하는지” 알려준다.
- Dual‑head decoder
- Mask head: 원본 이미지 해상도에서 이진 어포던스 마스크를 예측한다.
- Classification head: 대략적인 어포던스 카테고리(예: “grasp”, “cut”)를 출력해 마스크 정제를 돕는다.
- 학습 – 마스크에 대한 binary cross‑entropy 손실과 카테고리에 대한 cross‑entropy 손실을 결합하고, 오디오‑비주얼 쌍을 정렬하는 보조 contrastive 손실을 추가해 end‑to‑end로 최적화한다.
전체 파이프라인은 단일 포워드 패스로 동작하므로 실시간 응용에 적합하다.
Results & Findings
| 모델 | mIoU (Seen) | mIoU (Unseen) |
|---|---|---|
| Baseline (AVS‑ResNet) | 42.3% | 35.1% |
| AVAGFormer (full) | 58.7% | 49.4% |
| AVAGFormer (no semantic mixer) | 53.2% | 44.0% |
| AVAGFormer (single‑head) | 55.1% | 46.3% |
- 기존 audio‑visual segmentation 베이스라인 대비 약 16 % mIoU 상승이라는 큰 향상을 보였다.
- semantic‑conditioned mixer가 가장 큰 성능 향상을 가져와, 오디오 의미가 정밀한 그라운딩에 핵심임을 확인했다.
- 제로‑샷 결과는 모델이 보지 못한 객체‑소리 쌍에도 일반화할 수 있음을 보여준다(공유된 오디오 임베딩 공간 덕분).
- Ablation 연구에서는 end‑to‑end 학습이 두 단계 파이프라인(특징 추출 → 마스크 예측)보다 약 3–4 % mIoU 높았다.
Practical Implications
- 로봇공학 & HRI: 로봇이 인간의 행동 소리만 듣고(예: “cutting”) 도구나 객체의 어디를 잡아야 할지 추론할 수 있다.
- AR/VR 인터랙션: 음성 명령(예: “grab”)에 따라 손 추적 없이도 컨텍스트‑aware 오버레이를 트리거해 핸들을 강조할 수 있다.
- 보조 기술: 시각 장애인을 위한 디바이스가 주변 소리를 이용해 착용형 디스플레이에 행동 가능한 영역을 강조한다.
- 스마트 제조: 조립 라인의 음향을 모니터링해 부품이 잘못 맞춰졌을 때 어포던스 영역이 일치하지 않음을 자동으로 감지한다.
- 콘텐츠 제작: 영상 편집자는 사운드트랙을 기반으로 상호작용 구역을 자동 마스크 처리해 효과나 자막을 적용할 수 있어 로토스코핑 작업을 크게 줄일 수 있다.
모델은 단일 포워드 패스로 약 30 FPS(최신 GPU 기준)에서 실행되므로 실시간 파이프라인에 쉽게 통합할 수 있다.
Limitations & Future Work
- 오디오 품질 의존성: 소음이 많은 환경에서는 성능이 저하되며, 현재 데이터셋은 비교적 깨끗한 녹음을 전제로 한다.
- 제한된 어포던스 분류 체계: 현재는 몇 가지 상호작용 유형만 포함하고 있어, “twist”, “press”와 같은 더 세분화된 행동을 추가해야 한다.
- 정적 이미지만 사용: 움직이는 객체와 같은 시간적 동역학을 모델링하지 않으며, AVAGFormer를 비디오 스트림에 확장하면 변화하는 어포던스를 포착할 수 있다.
- 크로스‑모달 편향: 모델이 강한 오디오 단서에 과도하게 의존해 미묘한 시각적 힌트를 무시할 가능성이 있다. 향후에는 균형 잡힌 어텐션 메커니즘을 탐구할 계획이다.
저자들은 데이터셋에 잡음이 섞인 실제 환경 녹음을 추가하고, 어포던스 라벨을 확대하며, 비디오와 오디오를 동시에 처리하는 멀티모달 트랜스포머를 실험할 예정이다.
Authors
- Lidong Lu
- Guo Chen
- Zhu Wei
- Yicheng Liu
- Tong Lu
Paper Information
- arXiv ID: 2512.02005v1
- Categories: cs.CV
- Published: December 1, 2025
- PDF: Download PDF