[Paper] 使用生成式大型语言模型评估自动语音识别
发布: (2026年4月24日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.21928v1
概述
论文 Evaluation of Automatic Speech Recognition Using Generative Large Language Models 探讨了现代生成式大语言模型是否能够成为更智能的自动语音识别(ASR)质量评估者——超越仅统计字面不匹配的传统词错误率(WER)。通过在 HATS 基准上测试三种基于 LLM 的策略,作者展示了解码器驱动的 LLM 能够比 WER 或现有语义指标更好地与人工判断保持一致,为更有意义、可解释的 ASR 评估打开了大门。
关键贡献
- 基于 LLM 的假设选择: 证明生成式 LLM 能在两段 ASR 输出中挑选出更准确的转录,其与人工标注者的一致率约为 92–94 %,而基于词错误率(WER)的匹配度约为 63 %。
- 通过解码器嵌入衡量语义距离: 表明从大型生成模型的解码器侧提取的嵌入能够捕捉语义,效果与(甚至有时优于)专用的仅编码器句子嵌入模型相当。
- 错误类型分类: 提出一种定性框架,让 LLM 为 ASR 错误(如词汇、句法、语义错误)打标签,从而提供可解释的反馈。
- 在 HATS 上进行基准测试: 首次在真实的语音转文本数据集上进行大规模、与人类对齐的 LLM 驱动 ASR 指标评估。
方法论
- 数据与任务: 作者使用了 HATS 数据集,其中包含音频片段、每个片段的两个竞争性 ASR 假设,以及人工标注指明哪个假设“更好”。
- 三种以 LLM 为中心的方法:
- 假设选择: 将两个转录(以及可选的音频转录)输入生成式 LLM,并要求它选择更准确的那一个。
- 语义距离: 使用 LLM 的解码器隐藏状态对每个假设进行编码,计算余弦相似度,并将距离更小的配对视为更接近参考的更好匹配。
- 错误分类: 提示 LLM 标记错误类型(例如缺词、时态错误、语义漂移),生成可读的错误报告。
- 基线: 经典的词错误率(WER),近期基于嵌入的语义相似度指标(如 Sentence‑BERT),以及一些较小的 LLM 用于对比。
- 评估: 与人工标注者的一致性(正确选择的百分比)以及与人工评估的错误严重程度的相关性。
该流水线刻意保持轻量:只需向现成的 LLM(例如 GPT‑3.5‑Turbo、LLaMA‑2‑70B)发送文本提示,并提取最终隐藏层用于相似度打分。
结果与发现
| 指标 | 人类一致性(选择) | 与人工错误分数的相关性 |
|---|---|---|
| WER (baseline) | 63 % | 0.42 |
| Sentence‑BERT similarity | 78 % | 0.58 |
| Top‑performing LLM (GPT‑4‑Turbo) | 92–94 % | 0.81 |
| Decoder embeddings (LLaMA‑2‑70B) | 89 % | 0.77 |
- 选择任务: 最佳 LLM 的表现远超所有基线,几乎与人类共识持平。
- 嵌入相似度: 解码器侧嵌入与专用编码器模型相当,证实生成式 LLM 能保留丰富的语义信息。
- 错误分类: LLM 能在 >85 % 的案例中正确标记主要错误类型,提供了 WER 无法提供的可读诊断。
总体而言,研究表明 LLM 可以同时作为 ASR 输出的定量评分器和定性分析器。
Practical Implications
- 更有意义的 ASR 基准测试: 企业可以用基于 LLM 的评分取代或补充 WER,以反映用户感知的质量,从而实现对终端用户真正重要的产品改进。
- 自动化错误诊断: 开发流水线可以集成错误分类提示,自动揭示系统性失效模式(例如,特定领域术语、同音词),无需人工检查。
- 快速模型迭代: 由于该方法仅需文本提示,可适用于任何架构的 ASR 系统,帮助快速进行新声学或语言模型的 “A/B” 测试。
- 跨语言潜力: 生成式 LLM 已支持多种语言,同一评估框架可扩展至多语言 ASR,而无需构建特定语言的度量指标。
- 成本效益高的评估: 使用托管的 LLM API 往往比大规模人工标注更便宜,尤其适用于持续集成测试。
限制与未来工作
- 对 LLM 规模和 API 访问的依赖: 最高的一致性得分来自最大的商业模型;较小的开源 LLM 表现落后,这可能限制预算受限团队的可复现性。
- 提示敏感性: 结果随提示措辞而变化;仍需系统研究用于评估的提示工程。
- 领域偏差: HATS 数据集相对干净;在嘈杂、代码混合或高度专业化的语音上的表现尚未测试。
- 嵌入的可解释性: 虽然解码器嵌入效果良好,论文并未剖析哪些层或注意力头对语义对齐贡献最大。
未来的研究方向包括将该方法扩展到实时 ASR 监控,探索对 LLM 进行少量样本微调以进行领域特定评估,以及整合多模态线索(例如音频嵌入),进一步缩小自动指标与人类感知之间的差距。
作者
- Thibault Bañeras-Roux
- Shashi Kumar
- Driss Khalil
- Sergio Burdisso
- Petr Motlicek
- Shiran Liu
- Mickael Rouvier
- Jane Wottawa
- Richard Dufour
论文信息
- arXiv ID: 2604.21928v1
- 类别: cs.CL
- 出版日期: 2026年4月23日
- PDF: 下载 PDF