[논문] 텍스트 기반 추론에 더 적합한 음성 표현은? 프레임 레이트와 표현을 통한 음성‑텍스트 정렬 연구

발행: 3일 전 (2026년 6월 11일 AM 12:19 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.12199v1

개요

음성 대화 모델은 일반적으로 텍스트 LLM 백본을 기반으로 시작하지만, 텍스트 대신 음성에 조건을 걸면 추론 성능이 종종 저하됩니다. 우리는 이러한 모달리티 격차의 일부를 시간‑Granularity 불일치 때문이라고 봅니다. 동일한 의미를 전달할 때 음성 토큰은 시간적으로 중복되고 텍스트보다 훨씬 길어, 토큰당 의미 밀도가 낮아지고 텍스트 기반 추론 역학이 약화됩니다. 우리는 음성 토큰 설계를 표현 선택 문제로 보고, 고정된 정보량을 가진 동결된 LLM 백본 아래에서 프레임 레이트를 다양하게 실험했습니다. 낮은 프레임 레이트를 가능하게 하기 위해 factorized FSQ와 경량 비자동 회귀 오디오 LM 헤드를 도입해, 효율적인 예측을 희생하지 않으면서 용량을 거의 300 bits/프레임까지 확장했습니다. 병목 현상이 사라진 상태에서 프레임 레이트(50 → 2.08 Hz)와 정렬 깊이를 탐색한 결과, 중간 층 표현 정렬을 적용했을 때 4.17 Hz에서 음성 질문‑응답에 가장 일관된 최적 영역이 나타났습니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

eess.AS
cs.CL
cs.SD

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 eess.AS 분야의 발전에 기여합니다.

저자

Zhen Ye
Xu Tan
Yiming Li
Guangyan Zhang
Chimin Chan
Haohe Liu
Zhengxi Liu
Hongzhan Lin
Zheqi Dai
Xinshen Zhang
Peiwen Sun
Qiuqiang Kong
Wei Xue

논문 정보

arXiv ID: 2606.12199v1
Categories: eess.AS, cs.CL, cs.SD
Published: 2026년 6월 10일
PDF: PDF 다운로드

[논문] 텍스트 기반 추론에 더 적합한 음성 표현은? 프레임 레이트와 표현을 통한 음성‑텍스트 정렬 연구

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.

[논문] 폴란드 의학 시험에서 고성능 LLM 재평가: 진정한 실력인가, 편향에 의한 성과인가?

[논문] 제3자 감사를 넘어: 사용자 중심 LLM 편향 연구를 위한 상황적 상호작용 감사

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증