ASR (자동 음성 인식)
Source: Dev.to
Overview

어제 저는 전체 Voice AI 파이프라인을 공유했습니다.
오늘은 Stage 1: ASR (Automatic Speech Recognition), 즉 음성을 텍스트로 변환하는 단계에 대해 깊이 파고들어 보겠습니다.

Feature Extraction
Raw audio → 디지털 표현
- MFCCs (Mel‑Frequency Cepstral Coefficients)
- Spectrograms
- Filter Banks
Acoustic Modeling
오디오 특징을 음소에 매핑
- Traditional: HMM‑GMM, DNN‑HMM
- Modern: Transformers, Conformers
Decoding & Language Modeling
음소 → 확률을 이용해 단어로 변환
- Beam Search
- CTC (Connectionist Temporal Classification)
- Attention mechanisms
Post‑Processing
출력 정리
- Spell checking
- Punctuation
- Capitalization
Evolution of ASR
Traditional (1980s‑2010s)
- HMM + GMM
- 음성 정렬 필요
- 별도 구성 요소들을 결합
State‑of‑the‑art (Now)
- Whisper: 680 K 시간의 학습, 50개 이상의 언어 지원
- Wav2Vec 2.0: 자체 지도 학습, 제한된 데이터로도 작동
ASR을 잘못 구현하면 전체 음성 파이프라인이 실패할 수 있습니다; 이는 모든 Voice AI 시스템의 기반입니다.
사용 중인 ASR 모델은 무엇인가요? 정확도나 지연 시간에 놀라운 점이 있었나요?