ASR (자동 음성 인식)

발행: 1개월 전 (2025년 12월 19일 오전 07:30 GMT+9)

2 분 소요

원문: Dev.to

Source: Dev.to

Overview

Cover image for ASR (Automatic Speech Recognition)

어제 저는 전체 Voice AI 파이프라인을 공유했습니다.
오늘은 Stage 1: ASR (Automatic Speech Recognition), 즉 음성을 텍스트로 변환하는 단계에 대해 깊이 파고들어 보겠습니다.

ASR diagram

Feature Extraction

Raw audio → 디지털 표현

MFCCs (Mel‑Frequency Cepstral Coefficients)
Spectrograms
Filter Banks

Acoustic Modeling

오디오 특징을 음소에 매핑

Traditional: HMM‑GMM, DNN‑HMM
Modern: Transformers, Conformers

Decoding & Language Modeling

음소 → 확률을 이용해 단어로 변환

Beam Search
CTC (Connectionist Temporal Classification)
Attention mechanisms

Post‑Processing

출력 정리

Spell checking
Punctuation
Capitalization

Evolution of ASR

Traditional (1980s‑2010s)

HMM + GMM
음성 정렬 필요
별도 구성 요소들을 결합

State‑of‑the‑art (Now)

Whisper: 680 K 시간의 학습, 50개 이상의 언어 지원
Wav2Vec 2.0: 자체 지도 학습, 제한된 데이터로도 작동

ASR을 잘못 구현하면 전체 음성 파이프라인이 실패할 수 있습니다; 이는 모든 Voice AI 시스템의 기반입니다.

사용 중인 ASR 모델은 무엇인가요? 정확도나 지연 시간에 놀라운 점이 있었나요?

관련 글

AI 드로잉 게임을 위한 스트로크 캡처 시스템을 어떻게 만들었는가

왜 Capture Strokes인가? 대부분의 드로잉 앱은 최종 이미지만 저장하지만, Paint Your Partner에서는 모든 brush stroke—위치, 타이밍, 프리…—를 기록해야 했습니다.

가장 흔한 보안 오류는 “Admin 줘버려, 끝”

표지 이미지: 가장 흔한 보안 실수는 “admin 권한을 주고 끝”입니다. https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=aut...

ethers.js와 kzg-wasm을 사용한 EIP-4844 블롭 트랜잭션 전송

EIP‑4844는 Proto‑Danksharding의 일환으로 Type 3 블롭 트랜잭션을 도입합니다. 실제로 블롭 트랜잭션을 전송할 때는 도구와 RPC 지원 등에 대한 제약이 따릅니다.

n8n으로 생활을 자동화하기 (초보자 친화 가이드)

소개: 여러분은 앱이 여러분을 위해 자동으로 작업을 수행해 주길 원했나요? 예시: - GitHub 이슈가 열릴 때 Slack 메시지 보내기 - Google Sheet를 자동으로 업데이트하기