[Paper] 使用生成式大型语言模型评估自动语音识别

发布: (2026年4月24日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.21928v1

概述

论文 Evaluation of Automatic Speech Recognition Using Generative Large Language Models 探讨了现代生成式大语言模型是否能够成为更智能的自动语音识别(ASR)质量评估者——超越仅统计字面不匹配的传统词错误率(WER)。通过在 HATS 基准上测试三种基于 LLM 的策略,作者展示了解码器驱动的 LLM 能够比 WER 或现有语义指标更好地与人工判断保持一致,为更有意义、可解释的 ASR 评估打开了大门。

关键贡献

  • 基于 LLM 的假设选择: 证明生成式 LLM 能在两段 ASR 输出中挑选出更准确的转录,其与人工标注者的一致率约为 92–94 %,而基于词错误率(WER)的匹配度约为 63 %。
  • 通过解码器嵌入衡量语义距离: 表明从大型生成模型的解码器侧提取的嵌入能够捕捉语义,效果与(甚至有时优于)专用的仅编码器句子嵌入模型相当。
  • 错误类型分类: 提出一种定性框架,让 LLM 为 ASR 错误(如词汇、句法、语义错误)打标签,从而提供可解释的反馈。
  • 在 HATS 上进行基准测试: 首次在真实的语音转文本数据集上进行大规模、与人类对齐的 LLM 驱动 ASR 指标评估。

方法论

  1. 数据与任务: 作者使用了 HATS 数据集,其中包含音频片段、每个片段的两个竞争性 ASR 假设,以及人工标注指明哪个假设“更好”。
  2. 三种以 LLM 为中心的方法:
    • 假设选择: 将两个转录(以及可选的音频转录)输入生成式 LLM,并要求它选择更准确的那一个。
    • 语义距离: 使用 LLM 的解码器隐藏状态对每个假设进行编码,计算余弦相似度,并将距离更小的配对视为更接近参考的更好匹配。
    • 错误分类: 提示 LLM 标记错误类型(例如缺词、时态错误、语义漂移),生成可读的错误报告。
  3. 基线: 经典的词错误率(WER),近期基于嵌入的语义相似度指标(如 Sentence‑BERT),以及一些较小的 LLM 用于对比。
  4. 评估: 与人工标注者的一致性(正确选择的百分比)以及与人工评估的错误严重程度的相关性。

该流水线刻意保持轻量:只需向现成的 LLM(例如 GPT‑3.5‑Turbo、LLaMA‑2‑70B)发送文本提示,并提取最终隐藏层用于相似度打分。

结果与发现

指标人类一致性(选择)与人工错误分数的相关性
WER (baseline)63 %0.42
Sentence‑BERT similarity78 %0.58
Top‑performing LLM (GPT‑4‑Turbo)92–94 %0.81
Decoder embeddings (LLaMA‑2‑70B)89 %0.77
  • 选择任务: 最佳 LLM 的表现远超所有基线,几乎与人类共识持平。
  • 嵌入相似度: 解码器侧嵌入与专用编码器模型相当,证实生成式 LLM 能保留丰富的语义信息。
  • 错误分类: LLM 能在 >85 % 的案例中正确标记主要错误类型,提供了 WER 无法提供的可读诊断。

总体而言,研究表明 LLM 可以同时作为 ASR 输出的定量评分器和定性分析器。

Practical Implications

  • 更有意义的 ASR 基准测试: 企业可以用基于 LLM 的评分取代或补充 WER,以反映用户感知的质量,从而实现对终端用户真正重要的产品改进。
  • 自动化错误诊断: 开发流水线可以集成错误分类提示,自动揭示系统性失效模式(例如,特定领域术语、同音词),无需人工检查。
  • 快速模型迭代: 由于该方法仅需文本提示,可适用于任何架构的 ASR 系统,帮助快速进行新声学或语言模型的 “A/B” 测试。
  • 跨语言潜力: 生成式 LLM 已支持多种语言,同一评估框架可扩展至多语言 ASR,而无需构建特定语言的度量指标。
  • 成本效益高的评估: 使用托管的 LLM API 往往比大规模人工标注更便宜,尤其适用于持续集成测试。

限制与未来工作

  • 对 LLM 规模和 API 访问的依赖: 最高的一致性得分来自最大的商业模型;较小的开源 LLM 表现落后,这可能限制预算受限团队的可复现性。
  • 提示敏感性: 结果随提示措辞而变化;仍需系统研究用于评估的提示工程。
  • 领域偏差: HATS 数据集相对干净;在嘈杂、代码混合或高度专业化的语音上的表现尚未测试。
  • 嵌入的可解释性: 虽然解码器嵌入效果良好,论文并未剖析哪些层或注意力头对语义对齐贡献最大。

未来的研究方向包括将该方法扩展到实时 ASR 监控,探索对 LLM 进行少量样本微调以进行领域特定评估,以及整合多模态线索(例如音频嵌入),进一步缩小自动指标与人类感知之间的差距。

作者

  • Thibault Bañeras-Roux
  • Shashi Kumar
  • Driss Khalil
  • Sergio Burdisso
  • Petr Motlicek
  • Shiran Liu
  • Mickael Rouvier
  • Jane Wottawa
  • Richard Dufour

论文信息

  • arXiv ID: 2604.21928v1
  • 类别: cs.CL
  • 出版日期: 2026年4月23日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »