[Paper] USAD 2.0: 스케일링 표현 증류를 통한 범용 오디오 이해
Source: arXiv - 2606.06444v1
개요
오디오 인코더는 현대 오디오 애플리케이션에서 핵심적이며, 대형 언어 모델(LLM)이 다양한 입력에 대해 단일 인코더에 점점 더 의존하고 있습니다. 자기지도학습(SSL)은 음성이나 음악 전문가와 같은 강력한 도메인‑특화 인코더를 만들어냈지만, USAD와 SPEAR와 같은 다중 도메인 접근법은 커버리지와 평가에서 여전히 제한적입니다. 최근 연구들은 감독 학습 인코더가 오디오 LLM과 더 잘 정렬된다는 것을 시사합니다.
우리는 USAD 2.0을 제시합니다. 이는 SSL과 감독 기반 기초 모델의 지식을 통합한 범용 인코더입니다. USAD 2.0은 교사 불일치를 해결하기 위해 도메인 인식 증류를 도입하고, 음악 도메인으로 커버리지를 확장하며, 다운스트림 사용을 위해 2단계 감독 증류를 추가합니다. 또한 깊이 스케일링을 통해 모델을 10억 파라미터로 확장합니다. 실험 결과 USAD 2.0은 탐색 및 LLM 기반 평가에서 강력하거나 최첨단 성능을 달성합니다.
주요 기여
- eess.AS
- cs.CL
- cs.SD
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 eess.AS 분야의 발전에 기여합니다.
저자
- Heng‑Jui Chang
- Alexander H. Liu
- Saurabhchand Bhati
- Mrudula Athi
- Anton Ratnarajah
- Amit Chhetri
- James Glass
논문 정보
- arXiv ID: 2606.06444v1
- Categories: eess.AS, cs.CL, cs.SD
- 발행일: 2026년 6월 4일
- PDF: PDF 다운로드