[Paper] 使用生成式大型语言模型评估自动语音识别

发布: 22小时前 (2026年4月24日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21928v1

概述

论文 Evaluation of Automatic Speech Recognition Using Generative Large Language Models 探讨了现代生成式大语言模型是否能够成为更智能的自动语音识别（ASR）质量评估者——超越仅统计字面不匹配的传统词错误率（WER）。通过在 HATS 基准上测试三种基于 LLM 的策略，作者展示了解码器驱动的 LLM 能够比 WER 或现有语义指标更好地与人工判断保持一致，为更有意义、可解释的 ASR 评估打开了大门。

关键贡献

基于 LLM 的假设选择： 证明生成式 LLM 能在两段 ASR 输出中挑选出更准确的转录，其与人工标注者的一致率约为 92–94 %，而基于词错误率（WER）的匹配度约为 63 %。
通过解码器嵌入衡量语义距离： 表明从大型生成模型的解码器侧提取的嵌入能够捕捉语义，效果与（甚至有时优于）专用的仅编码器句子嵌入模型相当。
错误类型分类： 提出一种定性框架，让 LLM 为 ASR 错误（如词汇、句法、语义错误）打标签，从而提供可解释的反馈。
在 HATS 上进行基准测试： 首次在真实的语音转文本数据集上进行大规模、与人类对齐的 LLM 驱动 ASR 指标评估。

方法论

数据与任务： 作者使用了 HATS 数据集，其中包含音频片段、每个片段的两个竞争性 ASR 假设，以及人工标注指明哪个假设“更好”。
三种以 LLM 为中心的方法：
- 假设选择： 将两个转录（以及可选的音频转录）输入生成式 LLM，并要求它选择更准确的那一个。
- 语义距离： 使用 LLM 的解码器隐藏状态对每个假设进行编码，计算余弦相似度，并将距离更小的配对视为更接近参考的更好匹配。
- 错误分类： 提示 LLM 标记错误类型（例如缺词、时态错误、语义漂移），生成可读的错误报告。
基线： 经典的词错误率（WER），近期基于嵌入的语义相似度指标（如 Sentence‑BERT），以及一些较小的 LLM 用于对比。
评估： 与人工标注者的一致性（正确选择的百分比）以及与人工评估的错误严重程度的相关性。

该流水线刻意保持轻量：只需向现成的 LLM（例如 GPT‑3.5‑Turbo、LLaMA‑2‑70B）发送文本提示，并提取最终隐藏层用于相似度打分。

结果与发现

指标	人类一致性（选择）	与人工错误分数的相关性
WER (baseline)	63 %	0.42
Sentence‑BERT similarity	78 %	0.58
Top‑performing LLM (GPT‑4‑Turbo)	92–94 %	0.81
Decoder embeddings (LLaMA‑2‑70B)	89 %	0.77

选择任务： 最佳 LLM 的表现远超所有基线，几乎与人类共识持平。
嵌入相似度： 解码器侧嵌入与专用编码器模型相当，证实生成式 LLM 能保留丰富的语义信息。
错误分类： LLM 能在 >85 % 的案例中正确标记主要错误类型，提供了 WER 无法提供的可读诊断。

总体而言，研究表明 LLM 可以同时作为 ASR 输出的定量评分器和定性分析器。

Practical Implications

更有意义的 ASR 基准测试： 企业可以用基于 LLM 的评分取代或补充 WER，以反映用户感知的质量，从而实现对终端用户真正重要的产品改进。
自动化错误诊断： 开发流水线可以集成错误分类提示，自动揭示系统性失效模式（例如，特定领域术语、同音词），无需人工检查。
快速模型迭代： 由于该方法仅需文本提示，可适用于任何架构的 ASR 系统，帮助快速进行新声学或语言模型的 “A/B” 测试。
跨语言潜力： 生成式 LLM 已支持多种语言，同一评估框架可扩展至多语言 ASR，而无需构建特定语言的度量指标。
成本效益高的评估： 使用托管的 LLM API 往往比大规模人工标注更便宜，尤其适用于持续集成测试。

限制与未来工作

对 LLM 规模和 API 访问的依赖： 最高的一致性得分来自最大的商业模型；较小的开源 LLM 表现落后，这可能限制预算受限团队的可复现性。
提示敏感性： 结果随提示措辞而变化；仍需系统研究用于评估的提示工程。
领域偏差： HATS 数据集相对干净；在嘈杂、代码混合或高度专业化的语音上的表现尚未测试。
嵌入的可解释性： 虽然解码器嵌入效果良好，论文并未剖析哪些层或注意力头对语义对齐贡献最大。

未来的研究方向包括将该方法扩展到实时 ASR 监控，探索对 LLM 进行少量样本微调以进行领域特定评估，以及整合多模态线索（例如音频嵌入），进一步缩小自动指标与人类感知之间的差距。

作者

Thibault Bañeras-Roux
Shashi Kumar
Driss Khalil
Sergio Burdisso
Petr Motlicek
Shiran Liu
Mickael Rouvier
Jane Wottawa
Richard Dufour

论文信息

arXiv ID: 2604.21928v1
类别: cs.CL
出版日期: 2026年4月23日
PDF: 下载 PDF

[Paper] 使用生成式大型语言模型评估自动语音识别

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] MathDuels：评估 LLM 作为出题者和求解者

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] GiVA：梯度感知基用于基于向量的适应

[Paper] 映射巴西众议院的政治话语：多方面的计算方法