[Paper] Interleaved Semantic, Acoustic, and Text Tokens를 이용한 Open Discrete Audio Foundation Models 스케일링
Source: arXiv - 2602.16687v1
개요
새로운 연구가 오디오 AI에서 오랫동안 존재해 온 병목 현상을 해결한다. 대부분의 “오디오‑언어” 모델은 사운드를 텍스트에 부수적인 요소로 취급하는데, 이는 텍스트 전용 LLM을 오디오 특징에 접목시키거나 순수하게 의미론적 오디오 토큰만을 사용하는 방식이다. 저자들은 SODA(Scaling Open Discrete Audio)를 제시한다. 이는 native 오디오 기반 모델을 체계적으로 탐색한 최초의 연구로, semantic, acoustic, and textual tokens 스트림에서 다음 토큰을 동시에 예측한다. 이들의 작업은 이러한 모델을 효율적으로 확장하는 방법을 밝혀내며, 실제 사례로 음성 보존이 가능한 음성‑대‑음성 번역을 시연한다.
Key Contributions
- Unified tokenization scheme that interleaves three modalities (semantic audio, raw acoustic, and text) into a single discrete sequence.
통합 토크나이제이션 스키마는 세 가지 모달리티(시맨틱 오디오, 원시 음향, 텍스트)를 하나의 이산 시퀀스로 교차 배치합니다. - Comprehensive design‑space study covering data sources, text‑to‑audio mixing ratios, and token‑type compositions, yielding a reproducible training recipe.
포괄적인 디자인 스페이스 연구는 데이터 소스, 텍스트‑오디오 혼합 비율, 토큰 유형 구성을 다루며 재현 가능한 학습 레시피를 제공합니다. - First scaling‑law analysis for discrete audio models (IsoFLOP study) across 64 model‑size / data‑size combinations (≈ 3×10¹⁸ – 3×10²⁰ FLOPs).
이산 오디오 모델에 대한 최초의 스케일링 법칙 분석(IsoFLOP 연구)으로 64개의 모델 크기/데이터 크기 조합(≈ 3×10¹⁸ – 3×10²⁰ FLOPs)을 다룹니다. - Empirical rule: optimal training data volume should grow ~1.6× faster than model size for best performance.
경험적 규칙: 최적의 학습 데이터 양은 모델 크기보다 약 1.6배 빠르게 증가해야 최고의 성능을 얻을 수 있습니다. - SODA model suite (135 M – 4 B parameters, 500 B tokens) that matches or exceeds prior state‑of‑the‑art audio models on generation and cross‑modal tasks.
SODA 모델 스위트(135 M – 4 B 파라미터, 500 B 토큰)는 생성 및 교차 모달 작업에서 기존 최첨단 오디오 모델과 동등하거나 능가합니다. - Proof‑of‑concept fine‑tuning for voice‑preserving speech‑to‑speech translation, showing the same backbone can handle both generation and downstream tasks without architectural changes.
음성 보존 스피치‑투‑스피치 번역에 대한 개념 증명 파인튜닝으로, 동일한 백본이 구조적 변형 없이 생성 및 다운스트림 작업을 모두 처리할 수 있음을 보여줍니다.
방법론
-
Tokenization – 오디오는 먼저 사전 학습된 음향 인코더(예: EnCodec)를 통해 전달되어 이산 음향 토큰을 얻는다. 별도의 의미 인코더(예: HuBERT)는 고수준 “의미” 토큰을 추출한다. 텍스트는 표준 바이트‑페어 인코딩으로 토큰화된다. 세 스트림은 interleaved(예: acoustic‑semantic‑text‑acoustic‑…) 형태로 섞여 트랜스포머가 입력할 수 있는 단일 시퀀스를 만든다.
-
Model Architecture – 순수 디코더‑전용 트랜스포머(예: GPT와 유사)가 이 혼합 시퀀스에서 다음 토큰을 예측한다. 모달리티‑특정 헤드가 필요하지 않으며, 모델이 자동으로 토큰 유형 간 어텐션을 학습한다.
-
Training Recipe Exploration – 저자들은 다음을 변형한다:
- Data sources (음성 코퍼스, 환경 소리, 음악, 다국어 텍스트).
- Text‑audio mixing ratios (예: 텍스트 30 %, 오디오 70 %).
- Token composition (시간 단계당 음향 토큰과 의미 토큰의 비율).
각 구성은 오디오 생성 품질(FAD, KL‑divergence)과 교차‑모달 검색 메트릭을 위한 별도 검증 세트에서 평가한다.
-
Scaling Law Study – “IsoFLOP” 방법을 사용해 전체 FLOP 수를 일정하게 유지하면서 모델 크기와 데이터 양을 변동시킨 뒤, 파워‑법 곡선을 피팅하여 최적의 데이터‑모델 균형을 예측한다.
-
Fine‑tuning – 사전 학습 후, 동일한 백본을 병렬 음성‑번역 데이터셋에 미세 조정한다. 이때 경량 어댑터를 사용해 언어는 바꾸면서도 화자 정체성을 유지하도록 모델을 강제한다.
결과 및 발견
| 모델 | 파라미터 | 훈련 토큰 | FLOPs (≈) | 오디오 생성 (FAD ↓) | 텍스트‑오디오 검색 (Recall@1 ↑) |
|---|---|---|---|---|---|
| SODA‑135M | 135 M | 50 B | 3×10¹⁸ | 4.2 | 31 % |
| SODA‑1B | 1 B | 200 B | 1×10¹⁹ | 2.8 | 38 % |
| SODA‑4B | 4 B | 500 B | 3×10²⁰ | 2.1 | 45 % |
- 경험적 스케일링 곡선이 이론적 IsoFLOP 예측과 5 % 오차 이내로 일치하여 1.6× 데이터‑대‑모델 성장 규칙을 확인한다.
- 시맨틱 토큰을 추가하면 원시 오디오 충실도를 해치지 않으면서 다운스트림 작업(예: 오디오 캡션)에서 약 12 %의 상대적 향상이 있다.
- Fine‑tuned SODA‑4B는 MOS(Mean Opinion Score) 4.3/5를 기록한 음성 보존 음성‑대‑음성 번역을 달성했으며, ASR → MT → TTS 기반 베이스라인(MOS 3.9)보다 우수하다.
Practical Implications
- One‑size‑fits‑all audio backbone: 개발자는 SODA를 사운드와 관련된 모든 작업(음악 생성, 팟캐스트 편집, 환경 오디오 합성, 멀티모달 어시스턴트 등)에 대해 별도의 파이프라인을 구축하지 않고도 바로 사용할 수 있습니다.
- Reduced engineering overhead: 모델이 단일 토큰 스트림을 소비하기 때문에 별도의 음성 인식, 언어 모델, 보코더 컴포넌트를 연결할 필요가 없습니다. 이는 엣지 디바이스나 클라우드 서비스에 배포할 때 복잡성을 크게 줄여줍니다.
- Scalable recipe: 논문의 스케일링 법칙은 컴퓨팅 비용과 데이터 양을 예산화할 수 있는 구체적인 공식을 제공합니다. 팀은 더 큰 모델을 정당화하기 위해 얼마나 많은 시간의 오디오를 수집해야 하는지 추정할 수 있어 과도하거나 부족한 학습을 방지할 수 있습니다.
- Voice preservation: 파인튜닝 실험에서 SODA가 화자 특성을 유지할 수 있음을 보여주어, 화상 회의 실시간 번역, 더빙, 접근성 도구 등에서 활용 가능성을 열어줍니다.
- Open‑source potential: 저자들은 토크나이저, 학습 스크립트, 여러 사전학습 체크포인트를 공개하여 빠른 프로토타이핑과 커뮤니티 주도의 확장(예: 새로운 언어 또는 사운드 카테고리 추가)을 가능하게 합니다.
제한 사항 및 향후 연구
- Compute‑heavy pretraining: “작은” 135 M 모델조차도 수백 GPU‑년이 필요합니다; 작은 연구실은 공개된 체크포인트에 의존해야 할 수 있습니다.
- Token granularity trade‑off: 세 종류의 토큰을 교차 배치하면 시퀀스 길이가 늘어나 매우 긴 오디오 클립에서 메모리 부담이 커질 수 있습니다. 향후 연구에서는 계층적 또는 청크 기반 어텐션 메커니즘을 탐색할 수 있습니다.
- Domain bias: 학습 데이터는 음성과 음악에 크게 편중되어 있어, 산업 기계음이나 야생동물 소리와 같은 특수 오디오에 대한 성능이 추가 데이터 없이는 저하될 수 있습니다.
- Evaluation breadth: 논문이 생성 및 번역을 다루지만, 사운드 이벤트 감지나 로봇 제어를 위한 오디오 기반 작업은 아직 테스트되지 않았습니다. SODA를 이러한 분야로 확장하는 것이 자연스러운 다음 단계입니다.
핵심 요약: SODA는 단일, 확장 가능한 트랜스포머가 음향 및 의미 수준 모두에서 오디오를 자연스럽게 이해하고 생성할 수 있으며, 텍스트도 처리할 수 있음을 보여줍니다. 차세대 음성 중심 제품을 개발하는 개발자에게 이 연구는 실제적이고 데이터 기반의 로드맵을 제공하여 진정한 다중모달 오디오 모델을 활용할 수 있게 합니다.
저자
- Potsawee Manakul
- Woody Haosheng Gan
- Martijn Bartelds
- Guangzhi Sun
- William Held
- Diyi Yang
논문 정보
- arXiv ID: 2602.16687v1
- 분류: cs.SD, cs.CL, eess.AS
- 출판일: 2026년 2월 18일
- PDF: Download PDF