[Paper] 面向大型音频语言模型的音频令牌压缩

发布: 2个月前 (2025年11月26日 GMT+8 10:00)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.20973v1

概览

大型音频语言模型（LALM）已成为处理语音与通用音频理解任务的首选架构——比如转录、翻译以及基于音频的助手。问题在于，它们的注意力机制随音频 token 数量呈二次方增长，而原始音频流会以极高的速率生成 token。本文通过在 token 进入语言模型之前对音频 token 流进行压缩，解决了这一瓶颈，展示了在仅有轻微精度下降的情况下，能够将 token 数量削减至原来的 1/3 。

主要贡献

Token 级别压缩流水线：引入无监督分段和均匀平均池化，以减少编码器输出的音频 token 数量。
基于 Adapter 的微调：使用低秩 Adapter 恢复压缩过程中损失的性能，同时保持大部分预训练 LALM 冻结。
在两个下游任务上的实证验证：在自动语音识别（ASR）和语音到语音翻译（S2ST）上展示了该方法，这两个任务对词汇保真度高度敏感。
可扩展性提升：实现了最高 3× 的 token 数量减少，直接转化为更低的内存占用和更快的边缘硬件推理速度。

方法论

音频编码 → Token 生成
- 预训练音频编码器（如 wav2vec‑2.0 或 HuBERT）处理原始波形并输出密集的帧级表示。
压缩阶段（在 LLM 之前）
- 无监督分段：检测自然边界（静音、说话人切换、声学事件），并将连续帧归为一个段落。
- 均匀平均池化：在每个段落内部，对帧进行平均，生成单个“压缩 token”。此操作在保留整体声学要点的同时，缩短序列长度。
Adapter 微调
- 作者并未重新训练整个 LALM，而是在编码器输出与 LLM 输入之间插入轻量的低秩 Adapter（小型线性层）。
- 这些 Adapter 在任务特定数据（ASR 或 S2ST）上进行训练，以将压缩后的 token 分布调回 LLM 的期望。
LLM 解码
- 经过 Adapter 增强的压缩 token 流被送入大型语言模型（如 GPT‑style Transformer），生成文本或翻译后的语音 token。

该流水线刻意保持模块化：可以在不触及庞大 LLM 主干的情况下，替换不同的编码器、分段启发式或池化策略。

结果与发现

任务	基线（帧级）	压缩后（减少 3× token）	相对 WER / BLEU 损失
ASR	7.8 % WER	8.4 % WER	+0.6 %（≈ 8 % 相对）
S2ST	23.1 BLEU	22.5 BLEU	–0.6 BLEU（≈ 3 % 相对）

Token 减少：在进入 LLM 前最多可减少 3× token，注意力相关的内存和计算量约减半。
性能权衡：经过 Adapter 微调的压缩模型在 ASR 上保持在 1 % 绝对 WER 以内，在翻译上损失 0.6 BLEU——均在典型生产容差范围内。
加速效果：单 GPU 环境下推理延迟下降约 30 %；在低功耗边缘加速器上，由于内存带宽需求降低，收益更为显著。

实际意义

边缘部署：开发者现在可以在智能手机、可穿戴设备或物联网终端上运行 LALM 风格的语音交互，而无需完整 GPU。
长时音频处理：播客转录、会议摘要或持续监听代理变得可行，因为二次方注意力成本不再随分钟级输入爆炸。
成本效益扩展：云服务提供商能够在同一 GPU 上并发处理更多音频流，降低实时翻译或语音助手等服务的运营成本。
即插即用的 Adapter：仅需微调少量 Adapter 参数，团队即可快速将压缩 LALM 适配到新领域（医学口述、法律记录），所需数据和算力都很少。

局限性与未来工作

分段质量：无监督边界检测可能会误将快速语速或重叠说话人归为同一段，导致偶发的 token 级信息丢失。
Adapter 容量：低秩 Adapter 能恢复大部分性能——但并非全部；增大 Adapter 能提升精度，却会削弱内存节省效果。
任务范围：实验仅覆盖 ASR 与 S2ST；其他音频相关任务（声事件检测、音乐转录）对 token 压缩的响应可能不同。
未来方向：作者建议探索可学习的池化（如基于注意力的下采样）、层次化 token 压缩，以及 encoder‑adapter‑LLM 的联合训练，以进一步缩小性能差距并将 token 减少率突破 3×。

作者

Saurabhchand Bhati
Samuel Thomas
Hilde Kuehne
Rogerio Feris
James Glass

论文信息

arXiv ID: 2511.20973v1
分类: eess.AS, cs.AI, cs.CL
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] 面向大型音频语言模型的音频令牌压缩

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] MegaChat：合成波斯语问答数据集用于高质量销售聊天机器人评估

[Paper] 通过结构化知识发现方法提升语言模型生成的可解释性

[Paper] 每个 Token 都很重要：在大型语言模型中推广 16M 超长上下文