ASR(自动语音识别)

发布: (2025年12月19日 GMT+8 06:30)
2 min read
原文: Dev.to

Source: Dev.to

概览

Cover image for ASR (Automatic Speech Recognition)

昨天我分享了完整的 Voice AI 流程。
今天我们深入探讨 第 1 阶段:ASR(自动语音识别)——将口语转化为文本。

ASR diagram

特征提取

原始音频 → 数字表示

  • MFCCs(梅尔频率倒谱系数)
  • 谱图
  • 滤波器组

声学建模

将音频特征映射到音素

  • 传统:HMM‑GMM、DNN‑HMM
  • 现代:Transformer、Conformer

解码与语言建模

音素 → 单词,使用概率

  • Beam Search(束搜索)
  • CTC(连接时序分类)
  • 注意力机制

后处理

清理输出

  • 拼写检查
  • 标点符号
  • 大小写

ASR 的演进

传统(1980s‑2010s)

  • HMM + GMM
  • 需要音素对齐
  • 各组件独立后再拼接

最先进(现在)

  • Whisper:680 K 小时训练,支持 50 多种语言
  • Wav2Vec 2.0:自监督学习,适用于数据有限的情况

ASR 出错会导致整个语音流水线失败;它是任何 Voice AI 系统的基石。

你在使用哪种 ASR 模型?在准确率或延迟方面有惊喜吗?

Back to Blog

相关文章

阅读更多 »