[Paper] 说话者感知仿真提升对话语音识别

发布: 4天前 (2026年2月5日 GMT+8 01:12)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.04776v1

概述

本文探讨了通过将单说话人录音转化为真实的多说话人对话来提升日常会话的自动语音识别（ASR）性能。作者将 Speaker‑Aware Simulation (SASC) 技术适配到匈牙利语，并通过引入一种新的 C‑SASC 变体（更好地模拟停顿）进行扩展，展示了合成对话数据能够在资源相对匮乏的语言中显著提升 ASR 表现。

关键贡献

Adaptation of SASC to Hungarian – 证明了先前仅在英语上验证的说话者感知仿真流水线，同样适用于在类型学上差异显著、资源较少的匈牙利语。
Introduction of C‑SASC – 引入了一个基于时长条件的停顿模型，能够捕捉自然轮流交谈中的细粒度时序模式。
Large‑scale synthetic dialogue generation – 利用来自三个真实对话语料库（CallHome、BEA‑Dialogue、GRASS）的统计信息，从 BEA‑Large 单说话人语料库生成数千条匈牙利语对话句子。
Comprehensive evaluation – 在多种仿真设置下，将 SASC 与 C‑SASC 与朴素拼接方法进行基准比较，并报告了词错误率和字符错误率的一致提升。
Insight into statistical matching – 表明 C‑SASC 的优势取决于模拟的轮流交谈统计数据与目标领域的匹配程度。

方法论

基础语料库 – 作者从 BEA‑Large 数据集开始，该数据集包含干净、单说话人的匈牙利语音录音和转录。
说话人感知模拟 (SASC)
- 随机为每个语句分配一个合成说话人 ID。
- 根据 轮流分布（例如，在给定词数后说话人切换的概率）将不同说话人的语句拼接在一起。
- 在轮换之间插入短暂停顿，以模拟自然的停顿。
C‑SASC 扩展
- 在步骤 2 的基础上 将停顿长度条件化为前一语句的时长。
- 使用从真实匈牙利对话中得到的经验停顿时长曲线，因此较长的语句往往会后跟较长的间隔，体现人类对话节奏。
统计来源 – 轮流和停顿统计从三个语料库中提取：
- CallHome（电话对话）
- BEA‑Dialogue（内部匈牙利对话）
- GRASS（自发语音）
训练流水线 – 将合成对话与有限的真实会话数据混合。使用标准的端到端基于 transformer 的 ASR 模型在合并数据上进行训练。
评估 – 在保留的匈牙利会话测试集上测试模型，报告 词错误率 (WER) 和 字符错误率 (CER)。

结果与发现

System	WER ↓	CER ↓
Baseline (real data only)	23.5 %	12.8 %
Baseline + naive concatenation	22.9 %	12.4 %
Baseline + SASC (best config)	21.7 %	11.6 %
Baseline + C‑SASC (matched stats)	21.4 %	11.3 %

SASC 始终优于简单拼接，验证了说话人感知的轮次建模能够提供有用的声学变异性。
C‑SASC 带来适度但系统性的提升，尤其在 CER 上表现更佳，表明其对细粒度时序线索的处理更为有效。
当模拟的轮次统计与测试域高度匹配时（例如使用 CallHome 统计进行电话风格评估），提升幅度最大。
这些改进在不同模型规模上均保持，说明该方法是 模型无关 的。

实际意义

Data‑efficient ASR development – 为语言对话语料有限的团队可以利用已有的单说话人录音生成高质量的合成对话，从而降低昂贵的多说话人标注需求。
Rapid prototyping for voice assistants – 通过接入特定语言的单说话人数据集，开发者可以快速生成适用于聊天机器人、呼叫中心自动化或智能家居设备的对话式 ASR 模型。
Domain adaptation – 调整轮流和停顿统计以匹配目标使用场景（例如呼叫中心 vs. 日常聊天），可以在无需收集新录音的情况下定制合成数据，从而提升性能。
Open‑source pipeline potential – SASC/C‑SASC 工作流轻量（无需复杂的 TTS 或说话人转换模型），可集成到任何端到端 ASR 工具包（如 ESPnet、Kaldi、Whisper‑style 模型）的现有数据增强脚本中。

限制与未来工作

Statistical dependency – 当模拟统计与目标领域出现偏差时，C‑SASC 的收益会下降，凸显对准确 turn‑taking 数据的依赖。
Synthetic realism ceiling – 虽然 SASC 提升了声学多样性，但它未能捕捉更高层次的话语现象（例如 back‑channeling、overlapping speech）。
Language‑specific tuning – pause‑conditioning 模型是为 Hungarian 手工设计的；将其扩展到具有不同韵律模式的语言可能需要额外研究。
Future directions suggested by the authors include:
- 将 overlap modeling 与 speaker emotion cues 融入仿真。
- 探索在合成对话上进行 self‑supervised pre‑training，进一步降低对真实对话数据的依赖。
- 将该方法扩展到 multilingual settings，使单一源语料库能够用于多个 low‑resource 语言。

作者

Máté Gedeon
Péter Mihajlik

论文信息

arXiv ID: 2602.04776v1
分类: cs.SD, cs.CL, eess.AS
发布日期: 2026年2月4日
PDF: 下载 PDF

[Paper] 说话者感知仿真提升对话语音识别

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] DFlash：块扩散用于 Flash 投机解码

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

[论文] 通过自蒸馏的多标记预测

[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用