ASR(自动语音识别)
发布: (2025年12月19日 GMT+8 06:30)
2 min read
原文: Dev.to
Source: Dev.to
概览

昨天我分享了完整的 Voice AI 流程。
今天我们深入探讨 第 1 阶段:ASR(自动语音识别)——将口语转化为文本。

特征提取
原始音频 → 数字表示
- MFCCs(梅尔频率倒谱系数)
- 谱图
- 滤波器组
声学建模
将音频特征映射到音素
- 传统:HMM‑GMM、DNN‑HMM
- 现代:Transformer、Conformer
解码与语言建模
音素 → 单词,使用概率
- Beam Search(束搜索)
- CTC(连接时序分类)
- 注意力机制
后处理
清理输出
- 拼写检查
- 标点符号
- 大小写
ASR 的演进
传统(1980s‑2010s)
- HMM + GMM
- 需要音素对齐
- 各组件独立后再拼接
最先进(现在)
- Whisper:680 K 小时训练,支持 50 多种语言
- Wav2Vec 2.0:自监督学习,适用于数据有限的情况
ASR 出错会导致整个语音流水线失败;它是任何 Voice AI 系统的基石。
你在使用哪种 ASR 模型?在准确率或延迟方面有惊喜吗?