[Paper] ViSpeechFormer：一种用于越南语自动语音识别的音位方法

发布: 2天前 (2026年2月11日 GMT+8 01:26)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10003v1

概述

本文介绍了 ViSpeechFormer，一种新的越南语自动语音识别（ASR）系统，它在 音素层面 工作，而不是更常见的字符或词层面的建模。由于越南语正字法高度音素化——每个书写字母几乎一一对应一个声音——作者认为，以音素为中心的方法可以提升准确率，尤其是对词汇表外（OOV）词汇和噪声训练数据。

关键贡献

首个基于音素的越南语ASR框架，能够显式学习音素表示。
Transformer 风格的架构（ViSpeechFormer），将声学特征提取与音素解码器结合，桥接语音与音系学。
在两个公开的越南语语料库上进行实证验证，显示出相较于强基线更优的词错误率（WER）。
展示了对未登录词的鲁棒性，并因语言无关的音素建模而降低了对训练集偏差的敏感性。
可推广的设计，可适用于其他正写透明的语言（例如韩语、芬兰语）。

方法论

Data preprocessing – 音频记录被转换为对数梅尔滤波器组特征。使用现有的发音词典构建越南语的 grapheme‑to‑phoneme (G2P) 词典，为每个转录生成音素序列。
Model architecture –
- Encoder: 由一系列 Conformer 模块（卷积增强的 Transformers）组成，处理声学特征，捕获局部和全局的时间模式。
- Decoder: 标准的 Transformer 解码器对编码器输出进行注意，并自回归地预测音素标记。
- CTC auxiliary loss 在编码器输出上应用，以稳定训练。
Training objective – 最小化交叉熵损失（解码器）与 CTC 损失（编码器）的加权和。
Inference – 使用束搜索并结合音素到字形 (P2G) 转换步骤生成最终的越南语文本。由于几乎是一对一的映射，P2G 步骤是确定性的，使后处理既简单又快速。

该流水线特意保持模块化：可以替换编码器（例如，用 CNN 替代 Conformer）或解码器（例如，使用轻量级 LSTM），而不会破坏以音素为中心的逻辑。

结果与发现

数据集	基线（Char‑level Transformer）	ViSpeechFormer（Phoneme）	相对 WER ↓
VCTK‑VI (≈100 h)	12.8 %	10.3 %	19 %
VLSP‑ASR (≈200 h)	9.5 %	7.9 %	17 %

OOV 鲁棒性：当测试集包含大量罕见词（例如专有名词）时，ViSpeechFormer 的错误率相较字符基线下降约 25 %。
训练偏差：在训练数据人为倾向于某些说话人子集的实验中，音素模型的性能下降远小于字符模型，表明其在说话人变化上的泛化能力更好。
消融实验：移除 CTC 辅助损失会使 WER 上升约 1.5 %，验证了其正则化作用。

总体而言，音素优先的范式在声学信号与语言单元之间实现了更清晰的对齐，从而带来了可衡量的准确率提升。

实际意义

更快的部署：确定性的 P2G 转换消除了推理时对大型语言模型的需求，降低了实时应用（例如语音助理、转录服务）的延迟。
更好地处理新词汇：企业可以在不重新训练整个声学模型的情况下推出更新（新产品名称、俚语）——只需扩展音素词典。
跨语言可移植性：相同的架构可以在任何具有透明正字法的语言上重新训练，为多语言产品提供可重复使用的 ASR 解决方案。
更低的数据需求：由于音素抽象了拼写的特殊性，模型能够更高效地从有限的标注音频中学习，这对资源匮乏的越南语领域（例如地区方言）非常有价值。

因此，构建越南语语音接口的开发者可以期待相比传统的基于字符的 ASR 流程，拥有更高的准确率、更低的延迟以及更简便的维护。

Limitations & Future Work

Dialectal variation：当前 G2P 词典假设标准越南语发音；地区口音仍可能导致不匹配。
Lexicon dependence：音素词典中的错误会直接传播到最终转录；构建高质量、完整的词典仍是瓶颈。
Scalability to truly low‑resource settings：虽然音素建模降低了数据需求，但实验仍依赖数百小时的标注语音。
Future directions suggested by the authors include：
1. 集成可学习的 G2P 模块以处理词典外音素。
2. 将框架扩展到代码切换场景（越南语‑英语）。
3. 探索在大规模未标注越南语音频上进行自监督预训练，以进一步缩小代表性不足方言的差距。

作者

Khoa Anh Nguyen
Long Minh Hoang
Nghia Hieu Nguyen
Luan Thanh Nguyen
Ngan Luu-Thuy Nguyen

论文信息

arXiv ID: 2602.10003v1
分类: cs.CL
发表时间: 2026年2月10日
PDF: 下载 PDF

[Paper] ViSpeechFormer：一种用于越南语自动语音识别的音位方法

概述

关键贡献

方法论

结果与发现

实际意义

Limitations & Future Work

作者

论文信息

相关文章

[论文] 基于策略的上下文蒸馏用于语言模型

[Paper] T3D：通过轨迹自蒸馏与直接判别优化实现少步 Diffusion 语言模型

[Paper] “抱歉，我没听清”：语音模型如何错过最重要的内容

[Paper] Moonshine v2：Ergodic Streaming Encoder ASR 用于对延迟敏感的语音应用