[Paper] 扩展 Open Discrete Audio Foundation Models 的规模:交错的语义、声学和文本标记
Source: arXiv - 2602.16687v1
概述
一项新研究解决了音频 AI 中长期存在的瓶颈:大多数“audio‑language”模型将声音视为文本的配角,要么通过将仅文本的 LLM 接入音频特征,要么仅使用语义音频标记。作者提出了 SODA(Scaling Open Discrete Audio),这是首次系统性探索 原生 音频基础模型,这类模型能够同时预测 语义、声学和文本标记 流中的下一个标记。他们的工作揭示了如何高效扩展此类模型,并展示了一个真实场景的用例——保持声音特征的语音到语音翻译。
关键贡献
- 统一的标记化方案,将三种模态(语义音频、原始声学和文本)交错合并为单一离散序列。
- 全面的设计空间研究,涵盖数据来源、文本到音频的混合比例以及标记类型组合,提供可复现的训练配方。
- 首次针对离散音频模型的尺度定律分析(IsoFLOP 研究),覆盖 64 种模型规模/数据规模组合(≈ 3×10¹⁸ – 3×10²⁰ FLOPs)。
- 经验法则:最佳训练数据量应以约 1.6 倍的速度快于模型规模增长,以获得最佳性能。
- SODA 模型套件(135 M – 4 B 参数,500 B 标记),在生成和跨模态任务上匹配或超越先前的最先进音频模型。
- 概念验证的微调,用于保持声音的语音到语音翻译,表明相同的骨干网络在无需架构更改的情况下即可同时处理生成和下游任务。
方法论
-
Tokenization – 音频首先通过预训练的声学编码器(例如 EnCodec)获取离散声学标记。另一个语义编码器(例如 HuBERT)提取更高层次的“意义”标记。文本使用标准的字节对编码进行标记化。这三种流 交错(例如 声学‑语义‑文本‑声学‑…)形成单一序列,供 transformer 读取。
-
Model Architecture – 一个普通的仅解码器 transformer(类似 GPT)预测该混合序列中的下一个标记。无需特定模态的头部;模型会自动在不同标记类型之间进行注意力。
-
Training Recipe Exploration – 作者变动:
- Data sources(语音语料库、环境声音、音乐、多语言文本)。
- Text‑audio mixing ratios(例如 30 % 文本,70 % 音频)。
- Token composition(每个时间步的声学标记与语义标记数量)。
他们在保留的验证集上评估每种配置的音频生成质量(FAD、KL‑divergence)以及跨模态检索指标。
-
Scaling Law Study – 使用 “IsoFLOP” 方法,在保持总 FLOPs 不变的前提下,变化模型规模与数据规模,拟合幂律曲线以预测最佳的数据‑模型平衡。
-
Fine‑tuning – 预训练完成后,使用相同的骨干网络在平行的语音翻译数据集上进行微调,并加入轻量级适配器,使模型在改变语言的同时保持说话人身份。
结果与发现
| Model | Params | Training Tokens | FLOPs (≈) | Audio Generation (FAD ↓) | Text‑Audio Retrieval (Recall@1 ↑) |
|---|---|---|---|---|---|
| SODA‑135M | 135 M | 50 B | 3×10¹⁸ | 4.2 | 31 % |
| SODA‑1B | 1 B | 200 B | 1×10¹⁹ | 2.8 | 38 % |
| SODA‑4B | 4 B | 500 B | 3×10²⁰ | 2.1 | 45 % |
- 实证的尺度曲线在 5 % 误差范围内吻合理论 IsoFLOP 预测,验证了 1.6× 数据‑相对于模型增长规则。
- 添加 语义标记 能在不影响原始音频保真度的前提下,使下游任务(例如音频字幕)提升约 12 % 的相对增益。
- 微调后的 SODA‑4B 实现了 保持声音特征的语音‑到‑语音翻译,其 MOS(平均意见得分)为 4.3/5,优于基线的 ASR → MT → TTS 串联方案(MOS 3.9)。
实际意义
- 一刀切的音频骨干: 开发者可以将 SODA 直接作为任何涉及声音的任务的即插即用模型——音乐生成、播客编辑、环境音频合成或多模态助手——无需为声学和语义处理构建独立的流水线。
- 降低工程开销: 由于模型只接受单一的 token 流,你不再需要把语音识别、语言模型和声码器等组件拼接在一起。这简化了在边缘设备或云服务上的部署。
- 可扩展的配方: 论文的 scaling law 提供了一个具体的计算与数据预算公式。团队可以估算需要收集多少小时的音频来支撑更大的模型,避免过度或不足训练。
- 声音保真: 微调实验表明 SODA 能保持说话者特征不变,为视频会议实时翻译、配音或辅助工具打开了大门。
- 开源潜力: 作者发布了分词器、训练脚本以及多个预训练检查点,支持快速原型开发和社区驱动的扩展(例如添加新语言或声音类别)。
限制与未来工作
- 计算密集型预训练: 即使是“small” 135 M模型也需要数百GPU年;较小的实验室可能需要依赖已发布的检查点。
- 标记粒度权衡: 交错使用三种标记类型会导致序列长度膨胀,在超长音频片段上可能会对内存造成压力。未来工作可以探索层次化或块状注意力机制。
- 领域偏差: 训练数据集偏向语音和音乐;在小众音频(例如工业机械、野生动物)上的表现可能在缺乏额外数据的情况下下降。
- 评估广度: 虽然论文涵盖了生成和翻译,但诸如声音事件检测或用于机器人控制的音频驱动任务仍未测试。将SODA扩展到这些领域是自然的下一步。
结论: SODA展示了一个单一、可扩展的Transformer能够原生地在声学和语义层面上理解并生成音频,同时仍然能够处理文本。对于构建下一代以语音为先的产品的开发者而言,这项工作提供了一条实用的、数据驱动的路线图,以利用真正的多模态音频模型。
作者
- Potsawee Manakul
- Woody Haosheng Gan
- Martijn Bartelds
- Guangzhi Sun
- William Held
- Diyi Yang
论文信息
- arXiv ID: 2602.16687v1
- 分类: cs.SD, cs.CL, eess.AS
- 发布日期: 2026年2月18日
- PDF: 下载 PDF