ASR (자동 음성 인식)

발행: (2025년 12월 19일 오전 07:30 GMT+9)
2 분 소요
원문: Dev.to

Source: Dev.to

Overview

Cover image for ASR (Automatic Speech Recognition)

어제 저는 전체 Voice AI 파이프라인을 공유했습니다.
오늘은 Stage 1: ASR (Automatic Speech Recognition), 즉 음성을 텍스트로 변환하는 단계에 대해 깊이 파고들어 보겠습니다.

ASR diagram

Feature Extraction

Raw audio → 디지털 표현

  • MFCCs (Mel‑Frequency Cepstral Coefficients)
  • Spectrograms
  • Filter Banks

Acoustic Modeling

오디오 특징을 음소에 매핑

  • Traditional: HMM‑GMM, DNN‑HMM
  • Modern: Transformers, Conformers

Decoding & Language Modeling

음소 → 확률을 이용해 단어로 변환

  • Beam Search
  • CTC (Connectionist Temporal Classification)
  • Attention mechanisms

Post‑Processing

출력 정리

  • Spell checking
  • Punctuation
  • Capitalization

Evolution of ASR

Traditional (1980s‑2010s)

  • HMM + GMM
  • 음성 정렬 필요
  • 별도 구성 요소들을 결합

State‑of‑the‑art (Now)

  • Whisper: 680 K 시간의 학습, 50개 이상의 언어 지원
  • Wav2Vec 2.0: 자체 지도 학습, 제한된 데이터로도 작동

ASR을 잘못 구현하면 전체 음성 파이프라인이 실패할 수 있습니다; 이는 모든 Voice AI 시스템의 기반입니다.

사용 중인 ASR 모델은 무엇인가요? 정확도나 지연 시간에 놀라운 점이 있었나요?

Back to Blog

관련 글

더 보기 »