[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화
개요
최근 대형 언어 모델(LLM)을 음성 입력에 확장하려는 시도는 주로 연쇄형 ASR‑LLM 파이프라인, 종단형 음성‑언어 모델, 혹은 브리지/증류 기반 적응 방법에 의존합니다. 이러한 접근 방식은 각각 강력한 사전 학습된 구성 요소를 재사용하거나, 자연스러운 음성‑언어 상호작용을 가능하게 하거나, 경량화된 적응을 제공하지만, 전사‑인터페이스 지연, 비용이 많이 드는 다중모달 학습, 혹은 순차적인 음성‑언어 결합과 같은 문제에 직면합니다. 이러한 한계를 극복하기 위해 우리는 AuRA라는 방법을 제안합니다. AuRA는 동일한 음성 입력을 ASR 인코더(교사)와 LoRA‑적응된 LLM(학생)에게 경량 오디오 임베딩 레이어를 통해 전달하고, 층별 증류를 사용해 학생의 은닉 상태를 교사의 대응 표현과 정렬함으로써 음성 표현을 경량 LLM 측 적응에 내재화합니다. 연쇄형 및 직렬 브리지 방식에 비해 AuRA는 보다 긴밀한 음성‑언어 공동 모델링과 효율적인 병렬 종단‑종단 추론을 가능하게 하며, 대규모 다중모달 학습을 요구하지 않고 사전 학습된 음성 및 언어 모델을 재사용합니다. 여러 음성‑언어 벤치마크에서 AuRA는 연쇄 시스템, 음성‑to‑LLM 적응 베이스라인, 대규모 음성‑언어 및 다중모달 모델을 효과성 및 효율성 모두에서 지속적으로 능가합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.LG
- cs.AI
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Bo Cheng
- Lei Shi
- Zhanyu Ma
- Yuan Wu
- Jun Xu
- Jiuchong Gao
- Jinghua Hao
- Renqing He
논문 정보
- arXiv ID: 2606.11033v1
- 분류: cs.LG, cs.AI, cs.CL
- 발표일: 2026년 6월 9일
- PDF: PDF 다운로드