[Paper] USAD 2.0: 스케일링 표현 증류를 통한 범용 오디오 이해

발행: 6일 전 (2026년 6월 5일 AM 02:42 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06444v1

개요

오디오 인코더는 현대 오디오 애플리케이션에서 핵심적이며, 대형 언어 모델(LLM)이 다양한 입력에 대해 단일 인코더에 점점 더 의존하고 있습니다. 자기지도학습(SSL)은 음성이나 음악 전문가와 같은 강력한 도메인‑특화 인코더를 만들어냈지만, USAD와 SPEAR와 같은 다중 도메인 접근법은 커버리지와 평가에서 여전히 제한적입니다. 최근 연구들은 감독 학습 인코더가 오디오 LLM과 더 잘 정렬된다는 것을 시사합니다.

우리는 USAD 2.0을 제시합니다. 이는 SSL과 감독 기반 기초 모델의 지식을 통합한 범용 인코더입니다. USAD 2.0은 교사 불일치를 해결하기 위해 도메인 인식 증류를 도입하고, 음악 도메인으로 커버리지를 확장하며, 다운스트림 사용을 위해 2단계 감독 증류를 추가합니다. 또한 깊이 스케일링을 통해 모델을 10억 파라미터로 확장합니다. 실험 결과 USAD 2.0은 탐색 및 LLM 기반 평가에서 강력하거나 최첨단 성능을 달성합니다.

주요 기여

eess.AS
cs.CL
cs.SD

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 eess.AS 분야의 발전에 기여합니다.

저자

Heng‑Jui Chang
Alexander H. Liu
Saurabhchand Bhati
Mrudula Athi
Anton Ratnarajah
Amit Chhetri
James Glass

논문 정보

arXiv ID: 2606.06444v1
Categories: eess.AS, cs.CL, cs.SD
발행일: 2026년 6월 4일
PDF: PDF 다운로드

[Paper] USAD 2.0: 스케일링 표현 증류를 통한 범용 오디오 이해

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] 에이전토피아: 에이전트 사회에서의 장기 생활 시뮬레이션 및 학습

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 언임베딩 매트릭스가 텍스트 임베딩의 비밀 렌즈입니다