[Paper] ViSpeechFormer:一种用于越南语自动语音识别的音位方法
发布: (2026年2月11日 GMT+8 01:26)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10003v1
概述
本文介绍了 ViSpeechFormer,一种新的越南语自动语音识别(ASR)系统,它在 音素层面 工作,而不是更常见的字符或词层面的建模。由于越南语正字法高度音素化——每个书写字母几乎一一对应一个声音——作者认为,以音素为中心的方法可以提升准确率,尤其是对词汇表外(OOV)词汇和噪声训练数据。
关键贡献
- 首个基于音素的越南语ASR框架,能够显式学习音素表示。
- Transformer 风格的架构(ViSpeechFormer),将声学特征提取与音素解码器结合,桥接语音与音系学。
- 在两个公开的越南语语料库上进行实证验证,显示出相较于强基线更优的词错误率(WER)。
- 展示了对未登录词的鲁棒性,并因语言无关的音素建模而降低了对训练集偏差的敏感性。
- 可推广的设计,可适用于其他正写透明的语言(例如韩语、芬兰语)。
方法论
- Data preprocessing – 音频记录被转换为对数梅尔滤波器组特征。使用现有的发音词典构建越南语的 grapheme‑to‑phoneme (G2P) 词典,为每个转录生成音素序列。
- Model architecture –
- Encoder: 由一系列 Conformer 模块(卷积增强的 Transformers)组成,处理声学特征,捕获局部和全局的时间模式。
- Decoder: 标准的 Transformer 解码器对编码器输出进行注意,并自回归地预测音素标记。
- CTC auxiliary loss 在编码器输出上应用,以稳定训练。
- Training objective – 最小化交叉熵损失(解码器)与 CTC 损失(编码器)的加权和。
- Inference – 使用束搜索并结合音素到字形 (P2G) 转换步骤生成最终的越南语文本。由于几乎是一对一的映射,P2G 步骤是确定性的,使后处理既简单又快速。
该流水线特意保持模块化:可以替换编码器(例如,用 CNN 替代 Conformer)或解码器(例如,使用轻量级 LSTM),而不会破坏以音素为中心的逻辑。
结果与发现
| 数据集 | 基线(Char‑level Transformer) | ViSpeechFormer(Phoneme) | 相对 WER ↓ |
|---|---|---|---|
| VCTK‑VI (≈100 h) | 12.8 % | 10.3 % | 19 % |
| VLSP‑ASR (≈200 h) | 9.5 % | 7.9 % | 17 % |
- OOV 鲁棒性:当测试集包含大量罕见词(例如专有名词)时,ViSpeechFormer 的错误率相较字符基线下降约 25 %。
- 训练偏差:在训练数据人为倾向于某些说话人子集的实验中,音素模型的性能下降远小于字符模型,表明其在说话人变化上的泛化能力更好。
- 消融实验:移除 CTC 辅助损失会使 WER 上升约 1.5 %,验证了其正则化作用。
总体而言,音素优先的范式在声学信号与语言单元之间实现了更清晰的对齐,从而带来了可衡量的准确率提升。
实际意义
- 更快的部署:确定性的 P2G 转换消除了推理时对大型语言模型的需求,降低了实时应用(例如语音助理、转录服务)的延迟。
- 更好地处理新词汇:企业可以在不重新训练整个声学模型的情况下推出更新(新产品名称、俚语)——只需扩展音素词典。
- 跨语言可移植性:相同的架构可以在任何具有透明正字法的语言上重新训练,为多语言产品提供可重复使用的 ASR 解决方案。
- 更低的数据需求:由于音素抽象了拼写的特殊性,模型能够更高效地从有限的标注音频中学习,这对资源匮乏的越南语领域(例如地区方言)非常有价值。
因此,构建越南语语音接口的开发者可以期待相比传统的基于字符的 ASR 流程,拥有更高的准确率、更低的延迟以及更简便的维护。
Limitations & Future Work
- Dialectal variation:当前 G2P 词典假设标准越南语发音;地区口音仍可能导致不匹配。
- Lexicon dependence:音素词典中的错误会直接传播到最终转录;构建高质量、完整的词典仍是瓶颈。
- Scalability to truly low‑resource settings:虽然音素建模降低了数据需求,但实验仍依赖数百小时的标注语音。
- Future directions suggested by the authors include:
- 集成可学习的 G2P 模块以处理词典外音素。
- 将框架扩展到代码切换场景(越南语‑英语)。
- 探索在大规模未标注越南语音频上进行自监督预训练,以进一步缩小代表性不足方言的差距。
作者
- Khoa Anh Nguyen
- Long Minh Hoang
- Nghia Hieu Nguyen
- Luan Thanh Nguyen
- Ngan Luu-Thuy Nguyen
论文信息
- arXiv ID: 2602.10003v1
- 分类: cs.CL
- 发表时间: 2026年2月10日
- PDF: 下载 PDF