[Paper] PROFASR-BENCH：针对高风险专业语音的上下文条件化 ASR 基准

发布: 1周前 (2025年12月30日 GMT+8 02:43)

7 min read

原文: arXiv

Source: arXiv - 2512.23686v1

概览

Deepak Babu Piskala 的新论文介绍了 ProfASR‑Bench，这是一套基准，用于评估在金融、医学、法律和科技等高风险专业领域的自动语音识别（ASR）系统。通过为每段音频配上一段简短的文本提示，描述说话者的个人资料或领域背景，该基准能够衡量现代 ASR 模型在实际部署中对常常可用的侧信息的实际使用效果。

关键贡献

领域特定基准：约 10 k 条专业风格的语句，涵盖金融、医疗、法律和技术词汇，每条都标注了实体（例如药品名称、股票代码）。
上下文层级：四种提示级别 – 无上下文、仅个人资料、领域 + 个人资料、以及oracle（提示的完美转录）——再加一个对抗条件，用于探测鲁棒性。
实体感知评估：除传统的词错误率（WER）外，套件还报告实体错误率（EER）以及基于置信区间的切片指标（口音、性别）。
参考实现：在所有提示条件下使用 Whisper（编码器‑解码器 ASR）和 Qwen‑Omni（音频‑语言模型）作为基线。
开源发布：数据集已放在 Hugging Face，评估代码在 GitHub 上，便于可重复比较上下文融合策略。

方法论

数据收集 – 专业配音员朗读嵌入密集、领域特定术语的脚本。录音在口音、性别和说话风格上保持平衡。
提示设计 – 对每个语句生成一个简短的自然语言提示（例如 “你是一名心脏科医生，讨论患者特定的药物”。）提示可以省略、部分提供，或替换为完全对应目标内容的 “oracle” 版本。
模型评估 – 在每种提示条件下运行两个代表性的 ASR 系列。输出使用以下指标评分：
- WER – 整体转录准确率。
- EER – 关键实体（股票代码、药品编码、法律引用）误识别的比例。
- 切片指标 – 按说话人口音和性别划分的 WER/EER，并给出自助抽样置信区间。
“上下文利用差距”分析 – 作者比较不同提示层级之间的性能差异，以量化模型实际利用的侧信息量。

结果与发现

Prompt condition	Whisper WER ↓	Qwen‑Omni WER ↓	Entity Error Rate (EER)
No‑context	12.4 %	10.8 %	7.9 %
Profile only	12.2 %	10.7 %	7.7 %
Domain + profile	12.1 %	10.6 %	7.6 %
Oracle	11.9 %	10.5 %	7.5 %
Adversarial	12.5 %	11.0 %	8.2 %

提示的影响极小 – 即使是完美的 oracle 提示，平均 WER 也仅提升不到 0.5 %（绝对值），EER 也仅略有下降。
对抗性提示并非灾难性 – 注入误导性上下文并未持续降低性能，表明当前模型倾向于忽略提示，而非被误导。
一致的“上下文利用差距”(CUG) – 在两类模型中，无上下文与 oracle 表现之间的差距极小，说明这些架构在名义上是可提示的，但很少真正利用额外信息。

切片分析显示，非母语口音的错误率略高，但 CUG 在这些切片中保持一致。

实际意义

部署不能依赖简单提示 – 在 API 调用中添加简短的“说话人画像”或“领域提示”并不能显著提升关键实体的转录质量。
需要显式的融合机制 – 为金融或医疗等领域构建 ASR 流水线的工程师应考虑更紧密地整合领域知识（例如，用自定义词表对语言模型进行偏置，或使用浅层融合（shallow‑fusion）结合领域语言模型），而不是仅仅传递文本提示。
基准作为测试工具 – ProfASR‑Bench 为产品团队提供了一套现成的套件，可对模型的实体保真度进行压力测试，这在受监管行业中是关键的合规要求。
置信区间报告 – 面向切片的度量帮助量化特定用户群体（例如非母语使用者）的风险，从而支持更透明的服务水平协议（SLA）定义。

简而言之，论文警示“可提示”ASR 仍是一个流行词；要在实际中获得收益，需要进行架构层面的改动。

限制与未来工作

领域范围 – 仅覆盖了四个专业部门；其他高风险领域（例如航空、国防）仍未进行测试。
提示丰富度 – 提示语简短且模板化；更丰富的上下文线索（完整会议纪要、知识图谱嵌入）可能会产生更大的效果。
模型多样性 – 基线仅限于 Whisper 和 Qwen‑Omni；更新的多模态或检索增强的 ASR 系统可能表现不同。
对抗性设计 – 对抗提示是合成生成的，可能未能捕捉到复杂的真实世界错误信息攻击。

未来工作建议包括将基准扩展到多语言专业语音，探索检索增强的解码方式，以及衡量下游任务的影响（例如自动合规性检查）。

作者

Deepak Babu Piskala

论文信息

arXiv ID: 2512.23686v1
分类: cs.CL, cs.SD
出版时间: 2025年12月29日
PDF: 下载 PDF

[Paper] PROFASR-BENCH：针对高风险专业语音的上下文条件化 ASR 基准

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 光鲜不一定是金子：Reference-Free Counterfactual Financial Misinformation Detection 基准

[Paper] FLEx：语言建模与少样本语言解释

[Paper] LLMberjack：用于多方对话创建的辩论树引导裁剪

[Paper] ContextFocus：激活引导实现大语言模型的上下文忠实性