[Paper] 面向大型音频语言模型的音频令牌压缩

发布: (2025年11月26日 GMT+8 10:00)
6 min read
原文: arXiv

Source: arXiv - 2511.20973v1

概览

大型音频语言模型(LALM)已成为处理语音与通用音频理解任务的首选架构——比如转录、翻译以及基于音频的助手。问题在于,它们的注意力机制随音频 token 数量呈二次方增长,而原始音频流会以极高的速率生成 token。本文通过在 token 进入语言模型之前对音频 token 流进行压缩,解决了这一瓶颈,展示了在仅有轻微精度下降的情况下,能够将 token 数量削减至原来的 1/3 。

主要贡献

  • Token 级别压缩流水线:引入无监督分段和均匀平均池化,以减少编码器输出的音频 token 数量。
  • 基于 Adapter 的微调:使用低秩 Adapter 恢复压缩过程中损失的性能,同时保持大部分预训练 LALM 冻结。
  • 在两个下游任务上的实证验证:在自动语音识别(ASR)和语音到语音翻译(S2ST)上展示了该方法,这两个任务对词汇保真度高度敏感。
  • 可扩展性提升:实现了最高 3× 的 token 数量减少,直接转化为更低的内存占用和更快的边缘硬件推理速度。

方法论

  1. 音频编码 → Token 生成
    • 预训练音频编码器(如 wav2vec‑2.0 或 HuBERT)处理原始波形并输出密集的帧级表示。
  2. 压缩阶段(在 LLM 之前)
    • 无监督分段:检测自然边界(静音、说话人切换、声学事件),并将连续帧归为一个段落。
    • 均匀平均池化:在每个段落内部,对帧进行平均,生成单个“压缩 token”。此操作在保留整体声学要点的同时,缩短序列长度。
  3. Adapter 微调
    • 作者并未重新训练整个 LALM,而是在编码器输出与 LLM 输入之间插入轻量的低秩 Adapter(小型线性层)。
    • 这些 Adapter 在任务特定数据(ASR 或 S2ST)上进行训练,以将压缩后的 token 分布调回 LLM 的期望。
  4. LLM 解码
    • 经过 Adapter 增强的压缩 token 流被送入大型语言模型(如 GPT‑style Transformer),生成文本或翻译后的语音 token。

该流水线刻意保持模块化:可以在不触及庞大 LLM 主干的情况下,替换不同的编码器、分段启发式或池化策略。

结果与发现

任务基线(帧级)压缩后(减少 3× token)相对 WER / BLEU 损失
ASR7.8 % WER8.4 % WER+0.6 %(≈ 8 % 相对)
S2ST23.1 BLEU22.5 BLEU–0.6 BLEU(≈ 3 % 相对)
  • Token 减少:在进入 LLM 前最多可减少 3× token,注意力相关的内存和计算量约减半。
  • 性能权衡:经过 Adapter 微调的压缩模型在 ASR 上保持在 1 % 绝对 WER 以内,在翻译上损失 0.6 BLEU——均在典型生产容差范围内。
  • 加速效果:单 GPU 环境下推理延迟下降约 30 %;在低功耗边缘加速器上,由于内存带宽需求降低,收益更为显著。

实际意义

  • 边缘部署:开发者现在可以在智能手机、可穿戴设备或物联网终端上运行 LALM 风格的语音交互,而无需完整 GPU。
  • 长时音频处理:播客转录、会议摘要或持续监听代理变得可行,因为二次方注意力成本不再随分钟级输入爆炸。
  • 成本效益扩展:云服务提供商能够在同一 GPU 上并发处理更多音频流,降低实时翻译或语音助手等服务的运营成本。
  • 即插即用的 Adapter:仅需微调少量 Adapter 参数,团队即可快速将压缩 LALM 适配到新领域(医学口述、法律记录),所需数据和算力都很少。

局限性与未来工作

  • 分段质量:无监督边界检测可能会误将快速语速或重叠说话人归为同一段,导致偶发的 token 级信息丢失。
  • Adapter 容量:低秩 Adapter 能恢复大部分性能——但并非全部;增大 Adapter 能提升精度,却会削弱内存节省效果。
  • 任务范围:实验仅覆盖 ASR 与 S2ST;其他音频相关任务(声事件检测、音乐转录)对 token 压缩的响应可能不同。
  • 未来方向:作者建议探索可学习的池化(如基于注意力的下采样)、层次化 token 压缩,以及 encoder‑adapter‑LLM 的联合训练,以进一步缩小性能差距并将 token 减少率突破 3×。

作者

  • Saurabhchand Bhati
  • Samuel Thomas
  • Hilde Kuehne
  • Rogerio Feris
  • James Glass

论文信息

  • arXiv ID: 2511.20973v1
  • 分类: eess.AS, cs.AI, cs.CL
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »