[Paper] 대형 오디오 언어 모델에서 오디오 토큰 압축을 향하여

발행: (2025년 11월 26일 오전 11:00 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.20973v1

개요

Large Audio Language Models (LALMs) 은 음성 및 일반 오디오 이해를 결합한 작업—예를 들어 전사, 번역, 오디오 기반 어시스턴트—에 있어 기본 아키텍처가 되었습니다. 문제는? 이들의 어텐션 메커니즘은 오디오 토큰 수에 대해 제곱적으로 확장되며, 원시 오디오 스트림은 매우 높은 비율로 토큰을 생성합니다. 이 논문은 언어 모델에 도달하기 오디오 토큰 스트림을 압축함으로써 이 병목 현상을 해결하고, 정확도에 큰 영향을 주지 않으면서 토큰 수를 최대 3배까지 줄일 수 있음을 보여줍니다.

주요 기여

  • 토큰 수준 압축 파이프라인: 비지도 세분화와 균일 평균 풀링을 도입해 인코더가 생성하는 오디오 토큰 수를 감소시킵니다.
  • 어댑터 기반 파인튜닝: 압축 과정에서 손실된 성능을 회복하기 위해 저‑랭크 어댑터를 사용하고, 사전 학습된 LALM의 대부분을 고정합니다.
  • 두 하위 작업에 대한 실증 검증: 자동 음성 인식(ASR)과 Speech‑to‑Speech Translation(S2ST)에서 접근법을 입증했으며, 두 작업 모두 어휘 충실도에 매우 민감합니다.
  • 확장성 향상: 토큰 수를 최대 3배 감소시켜 메모리 사용량과 엣지 하드웨어에서의 추론 속도를 크게 개선합니다.

방법론

  1. 오디오 인코딩 → 토큰 생성
    • 사전 학습된 오디오 인코더(예: wav2vec‑2.0 또는 HuBERT)가 원시 파형을 처리하고 밀집된 프레임‑별 표현을 출력합니다.
  2. 압축 단계 (LLM 전)
    • 비지도 세분화: 자연스러운 경계(무음, 화자 전환, 음향 이벤트)를 감지하고 연속 프레임을 세그먼트로 그룹화합니다.
    • 균일 평균 풀링: 각 세그먼트 내에서 프레임을 평균해 하나의 “압축 토큰”을 생성합니다. 이렇게 하면 전체 시퀀스 길이가 줄어들면서도 주요 음향 의미는 유지됩니다.
  3. 어댑터 파인튜닝
    • 전체 LALM을 재학습하는 대신, 인코더 출력과 LLM 입력 사이에 가벼운 저‑랭크 어댑터(작은 선형 레이어)를 삽입합니다.
    • 어댑터는 작업‑특정 데이터(ASR 또는 S2ST)로 학습되어 압축 토큰 분포를 LLM이 기대하는 형태로 다시 맞춥니다.
  4. LLM 디코딩
    • 어댑터로 보강된 압축 토큰 스트림이 대형 언어 모델(예: GPT‑스타일 트랜스포머)로 전달되어 텍스트 또는 번역된 음성 토큰을 생성합니다.

이 파이프라인은 의도적으로 모듈식으로 설계되어, 인코더, 세분화 휴리스틱, 풀링 전략을 LLM 백본을 건드리지 않고 자유롭게 교체할 수 있습니다.

결과 및 발견

작업기준 (프레임 수준)압축 (토큰 3배 감소)상대 WER / BLEU 손실
ASR7.8 % WER8.4 % WER+0.6 % (≈ 8 % relative)
S2ST23.1 BLEU22.5 BLEU–0.6 BLEU (≈ 3 % relative)
  • 토큰 감소: LLM 전 단계에서 최대 3배 적은 토큰을 사용해 어텐션 관련 메모리와 연산량을 대략 절반 수준으로 감소시켰습니다.
  • 성능 트레이드오프: 어댑터‑파인튜닝된 압축 모델은 ASR에서 절대 WER 1 % 이내, 번역에서 BLEU 0.6점 이내의 차이만 보이며, 실제 서비스에서 허용 가능한 수준입니다.
  • 속도 향상: 단일 GPU 환경에서 추론 지연 시간이 약 30 % 감소했으며, 저전력 엣지 가속기에서는 메모리 대역폭 감소 덕분에 더 큰 이득을 확인했습니다.

실용적 함의

  • 엣지 배포: 개발자는 이제 스마트폰, 웨어러블, IoT 디바이스에서도 LALM 스타일의 음성 인터페이스를 전체 GPU 없이 실행할 수 있습니다.
  • 장시간 오디오 처리: 팟캐스트 전사, 회의 요약, 연속 청취 에이전트 등 분 단위 입력에서도 제곱형 어텐션 비용이 폭발하지 않아 실현 가능해졌습니다.
  • 비용 효율적인 확장: 클라우드 제공자는 GPU당 더 많은 동시 오디오 스트림을 처리할 수 있어 실시간 번역이나 음성 어시스턴트 서비스의 운영 비용을 절감할 수 있습니다.
  • 플러그 앤 플레이 어댑터: 어댑터 파라미터만 소량 파인튜닝하면 의료 기록, 법률 절차 등 새로운 도메인에 빠르게 적용할 수 있어 데이터와 컴퓨팅 요구가 최소화됩니다.

제한 사항 및 향후 연구

  • 세분화 품질: 비지도 경계 탐지는 빠른 발화나 겹치는 화자를 잘못 그룹화할 수 있어 가끔 토큰 수준 정보 손실이 발생합니다.
  • 어댑터 용량: 저‑랭크 어댑터가 대부분의 성능 격차를 회복하지만, 완전 복구는 못합니다. 더 큰 어댑터는 정확도를 높이지만 메모리 절감 효과를 감소시킵니다.
  • 작업 범위: 실험은 ASR과 S2ST에 국한되었으며, 사운드 이벤트 감지, 음악 전사 등 다른 오디오‑중심 작업에서는 압축 효과가 다를 수 있습니다.
  • 향후 방향: 저자들은 학습 가능한 풀링(예: 어텐션 기반 다운샘플링), 계층적 토큰 압축, 인코더‑어댑터‑LLM의 공동 학습 등을 탐색해 성능 격차를 더욱 줄이고 토큰 감소를 3배 이상으로 확장하는 방안을 제시합니다.

저자

  • Saurabhchand Bhati
  • Samuel Thomas
  • Hilde Kuehne
  • Rogerio Feris
  • James Glass

논문 정보

  • arXiv ID: 2511.20973v1
  • Categories: eess.AS, cs.AI, cs.CL
  • Published: 2025년 11월 26일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.