[논문] 텍스트 기반 추론에 더 적합한 음성 표현은? 프레임 레이트와 표현을 통한 음성‑텍스트 정렬 연구

발행: (2026년 6월 11일 AM 12:19 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.12199v1

개요

음성 대화 모델은 일반적으로 텍스트 LLM 백본을 기반으로 시작하지만, 텍스트 대신 음성에 조건을 걸면 추론 성능이 종종 저하됩니다. 우리는 이러한 모달리티 격차의 일부를 시간‑Granularity 불일치 때문이라고 봅니다. 동일한 의미를 전달할 때 음성 토큰은 시간적으로 중복되고 텍스트보다 훨씬 길어, 토큰당 의미 밀도가 낮아지고 텍스트 기반 추론 역학이 약화됩니다. 우리는 음성 토큰 설계를 표현 선택 문제로 보고, 고정된 정보량을 가진 동결된 LLM 백본 아래에서 프레임 레이트를 다양하게 실험했습니다. 낮은 프레임 레이트를 가능하게 하기 위해 factorized FSQ와 경량 비자동 회귀 오디오 LM 헤드를 도입해, 효율적인 예측을 희생하지 않으면서 용량을 거의 300 bits/프레임까지 확장했습니다. 병목 현상이 사라진 상태에서 프레임 레이트(50 → 2.08 Hz)와 정렬 깊이를 탐색한 결과, 중간 층 표현 정렬을 적용했을 때 4.17 Hz에서 음성 질문‑응답에 가장 일관된 최적 영역이 나타났습니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • eess.AS
  • cs.CL
  • cs.SD

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 eess.AS 분야의 발전에 기여합니다.

저자

  • Zhen Ye
  • Xu Tan
  • Yiming Li
  • Guangyan Zhang
  • Chimin Chan
  • Haohe Liu
  • Zhengxi Liu
  • Hongzhan Lin
  • Zheqi Dai
  • Xinshen Zhang
  • Peiwen Sun
  • Qiuqiang Kong
  • Wei Xue

논문 정보

  • arXiv ID: 2606.12199v1
  • Categories: eess.AS, cs.CL, cs.SD
  • Published: 2026년 6월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »