[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

발행: 3일 전 (2026년 6월 10일 AM 01:05 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.11033v1

개요

최근 대형 언어 모델(LLM)을 음성 입력에 확장하려는 시도는 주로 연쇄형 ASR‑LLM 파이프라인, 종단형 음성‑언어 모델, 혹은 브리지/증류 기반 적응 방법에 의존합니다. 이러한 접근 방식은 각각 강력한 사전 학습된 구성 요소를 재사용하거나, 자연스러운 음성‑언어 상호작용을 가능하게 하거나, 경량화된 적응을 제공하지만, 전사‑인터페이스 지연, 비용이 많이 드는 다중모달 학습, 혹은 순차적인 음성‑언어 결합과 같은 문제에 직면합니다. 이러한 한계를 극복하기 위해 우리는 AuRA라는 방법을 제안합니다. AuRA는 동일한 음성 입력을 ASR 인코더(교사)와 LoRA‑적응된 LLM(학생)에게 경량 오디오 임베딩 레이어를 통해 전달하고, 층별 증류를 사용해 학생의 은닉 상태를 교사의 대응 표현과 정렬함으로써 음성 표현을 경량 LLM 측 적응에 내재화합니다. 연쇄형 및 직렬 브리지 방식에 비해 AuRA는 보다 긴밀한 음성‑언어 공동 모델링과 효율적인 병렬 종단‑종단 추론을 가능하게 하며, 대규모 다중모달 학습을 요구하지 않고 사전 학습된 음성 및 언어 모델을 재사용합니다. 여러 음성‑언어 벤치마크에서 AuRA는 연쇄 시스템, 음성‑to‑LLM 적응 베이스라인, 대규모 음성‑언어 및 다중모달 모델을 효과성 및 효율성 모두에서 지속적으로 능가합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

cs.LG
cs.AI
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여합니다.

저자

Bo Cheng
Lei Shi
Zhanyu Ma
Yuan Wu
Jun Xu
Jiuchong Gao
Jinghua Hao
Renqing He

논문 정보

arXiv ID: 2606.11033v1
분류: cs.LG, cs.AI, cs.CL
발표일: 2026년 6월 9일
PDF: PDF 다운로드

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?

[논문] UniIntervene: 효율적인 실세계 강화학습을 위한 에이전트 기반 개입