[Paper] OmniRet: 효율적이고 고충실도 전모달리티 검색
Source: arXiv - 2603.02098v1
Overview
OmniRet는 텍스트, 이미지, 오디오를 한 번에 이해하고 검색할 수 있는 최초의 검색 시스템입니다. 멀티모달 데이터를 압축할 때 발생하는 계산 비용과 세부 정보 손실이라는 두 문제를 해결함으로써, 저자들은 보편적 검색을 “무엇이든 무엇으로든 검색”이라는 비전에 한 걸음 더 가까이 다가가게 했습니다.
핵심 기여
- True omni‑modal retrieval: 텍스트, 비전, 그리고 오디오를 동시에 결합한 복합 쿼리를 지원합니다.
- Efficient token reduction: 긴 모달리티별 토큰 스트림을 압축된 고정 크기 임베딩으로 변환하는 어텐션 기반 재샘플링 레이어를 도입하여 추론 비용을 크게 줄입니다.
- Fine‑grained pooling: 일반적인 풀링 방법이 놓치는 미묘한 교차 모달리티 신호를 보존하기 위해 Attention Sliced Wasserstein Pooling을 제안합니다.
- Large‑scale training: 30개의 공개 데이터셋에서 추출한 약 6 백만 개의 쿼리‑타깃 쌍으로 학습하여 다양한 검색 시나리오를 포괄합니다.
- New benchmark (ACM): 기존 벤치마크에 없던 복합 오디오 및 오디오‑비주얼 검색 과제를 추가한 Audio‑Centric Multimodal Benchmark를 공개합니다.
방법론
- 모달리티 인코더 – 별도의 사전학습된 인코더(예: 시각을 위한 CLIP, 오디오를 위한 Whisper, 텍스트를 위한 BERT‑스타일)가 먼저 각 입력을 토큰 임베딩 시퀀스로 변환합니다.
- Attention 기반 재샘플링 – 전체 토큰 시퀀스를 대형 언어 모델(LLM)에 입력하는 대신, 가벼운 어텐션 모듈이 가장 정보가 풍부한 토큰을 선택하고 이를 고정 크기 표현(예: 256‑dim)으로 집계합니다. 이렇게 하면 하위 LLM을 저비용으로 실행할 수 있습니다.
- Attention Sliced Wasserstein Pooling (ASWP) – 각 모달리티에서 나온 압축된 벡터들을 Wasserstein 거리에서 영감을 받은 손실을 사용해 함께 풀링합니다. 이는 최종 임베딩이 원래 토큰 집합의 분포 특성을 유지하도록 장려합니다. 실제로 ASWP는 특정 새 울음소리나 미묘한 시각 텍스처와 같은 세밀한 패턴을 보존하는 스마트 평균화 역할을 합니다.
- 공동 학습 – 모든 구성 요소가 대조 손실을 사용해 엔드‑투‑엔드로 학습됩니다. 이 손실은 일치하는 쿼리‑타깃 쌍을 서로 가깝게 끌어당기고, 일치하지 않는 쌍은 멀리 떨어뜨립니다. 방대한 이질적인 학습 데이터셋은 모델이 범용 임베딩 공간을 학습하도록 강제합니다.
결과 및 발견
| 작업군 | OmniRet vs. SOTA | 눈에 띄는 향상 |
|---|---|---|
| 구성된 텍스트‑비전‑오디오 쿼리 | +12 % Recall@10 | “공원에서 짖는 개”와 같은 스타일의 쿼리를 처리 |
| 순수 오디오 검색 | +9 % Recall@5 | 시간적 단서를 더 잘 포착 |
| 비디오 검색 (오디오‑비주얼) | +7 % Recall@10 | 소리와 프레임을 모두 활용 |
| 표준 텍스트‑이미지 검색 | 동등 (±0.3 % Recall) | 추가 용량에도 불구하고 성능 저하 없음 |
새로운 ACM 벤치마크는 OmniRet가 이전에 지원되지 않던 구성된 오디오 및 오디오‑비주얼 검색 작업을 독자적으로 해결하며, 모든 베이스라인 중 가장 높은 점수를 달성한다는 것을 확인한다.
실용적 함의
- 검색 엔진 및 디지털 어시스턴트: 개발자는 사용자가 사진을 업로드하고, 문구를 말하고, 추가 제약을 입력하는 “예시 기반 검색” 기능을 하나의 쿼리로 구축할 수 있습니다.
- 콘텐츠 추천: 플랫폼(예: 팟캐스트, 동영상 스트리밍)은 사용자가 만든 다중모달 스니펫을 카탈로그 항목과 매칭하여 발견 가능성을 높일 수 있습니다.
- 자산 관리: 미디어 팀은 다양한 모달리티를 결합하여 자산을 찾을 수 있습니다(예: “경찰 사이렌 소리가 나고 빨간 차가 지나가는 클립 찾기”).
- 인프라 비용 절감: 어텐션 기반 재샘플링은 토큰 길이를 70‑90 % 줄여, 기존 LLM 기반 파이프라인이 대규모 GPU 업그레이드 없이 OmniRet를 도입할 수 있게 합니다.
제한 사항 및 향후 연구
- 학습 데이터의 확장성: 6 M 쌍이 많지만, 데이터가 부족한 특수 분야(예: 의료 영상 + 청진 오디오)에서는 모델이 여전히 어려움을 겪는다.
- 엣지 디바이스에서의 지연: 재샘플링 단계는 가볍지만, 전체 인코더 스택(비전 + 오디오 + LLM)은 추가 양자화 없이는 디바이스 내 추론에 여전히 무거울 수 있다.
- 삼중 모달리티를 넘어선 확장: 현재 설계는 세 가지 모달리티를 전제로 하며, 촉각, 3‑D 포인트 클라우드, 센서 스트림 등으로 확장하려면 아키텍처 조정이 필요하다.
- 해석 가능성: 재샘플링에 사용되는 어텐션 맵은 아직 최종 사용자에게 제공되지 않는다; 향후 작업에서는 “왜 이 결과가 검색되었는가”를 보여줘 디버깅을 돕는 기능을 추가할 수 있다.
OmniRet는 진정한 범용 검색 시스템의 문을 열었으며, 효율적인 설계 덕분에 차세대 검색 및 추천 플랫폼에 통합될 현실적인 후보가 된다. 다가오는 ACM 벤치마크 발표를 주목하라—이는 아마도 omni‑modal 이해를 측정하는 새로운 표준이 될 것이다.
저자
- Chuong Huynh
- Manh Luong
- Abhinav Shrivastava
논문 정보
- arXiv ID: 2603.02098v1
- 분류: cs.IR, cs.CL, cs.CV
- 출판일: 2026년 3월 2일
- PDF: PDF 다운로드