Polly – Amazon Polly AWS를 사용하여 텍스트를 자연스러운 음성으로 변환
Source: Dev.to
Overview
Amazon Polly는 Amazon Web Services(AWS)에서 제공하는 텍스트‑투‑스피치(TTS) 서비스입니다. 고급 머신러닝 및 딥러닝 기술을 활용해 현실감 있는 인간의 목소리를 생성하므로, 개발자는 최소한의 노력으로 애플리케이션에 음성 기능을 추가할 수 있습니다.
Key Benefits
- 음성 녹음이 필요 없음 – 시간 소모가 크고 업데이트가 어려운 녹음을 없애줍니다.
- 확장 가능하고 빠름 – 실시간 및 배치 처리 모두 어떤 규모에서도 처리합니다.
- 사용량 기반 요금 – 처리된 문자 수에 대해서만 비용을 지불합니다.
- 다양한 언어 및 음성 – 30개 이상의 언어와 남성·여성 음성을 지원하며, Neural Text‑to‑Speech(NTTS) 옵션도 포함됩니다.
- 쉬운 통합 – AWS SDK, Lambda, S3, Transcribe, Lex 등 다양한 서비스와 연동됩니다.
- 인프라 관리 불필요 – 완전 관리형이며 높은 신뢰성을 제공합니다.
How Amazon Polly Works
- Input – 합성하고자 하는 텍스트를 제공합니다.
- Select language and voice – 사용 가능한 언어, 음성, NTTS 옵션 중에서 선택합니다.
- Conversion – Polly가 텍스트를 음성으로 변환합니다.
- Output – 결과물은 스트리밍하거나 저장할 수 있는 오디오 파일(MP3, WAV 등)입니다.
Polly는 **SSML(Speech Synthesis Markup Language)**도 지원하여 발음, 말 속도, 볼륨 등을 세밀하게 제어할 수 있습니다.
Common Use Cases
- 음성 비서
- e‑learning 플랫폼
- 접근성 애플리케이션(예: 화면 읽기 프로그램)
- 뉴스 리더
- 인터랙티브 보이스 응답(IVR) 시스템
Integration with AWS Services
- AWS Lambda – 서버리스 워크플로우에서 음성 합성을 트리거합니다.
- Amazon S3 – 생성된 오디오 파일을 저장합니다.
- Amazon Transcribe – 음성‑텍스트와 텍스트‑음성 파이프라인을 결합합니다.
- Amazon Lex – 자연스러운 음성 출력을 통해 대화형 봇을 강화합니다.
Pricing Highlights
- Standard voices – 처리된 문자 백만 개당 요금이 부과됩니다.
- Neural (NTTS) voices – 고품질을 제공하므로 약간 높은 요금이 적용됩니다.
- 초기 비용이 없으며 사용량에 따라 청구됩니다.
Getting Started
Amazon Polly 사용을 시작하려면:
# Example using AWS CLI
aws polly synthesize-speech \
--output-format mp3 \
--voice-id Joanna \
--text "Hello, welcome to Amazon Polly!" \
output.mp3
보다 자세한 가이드는 공식 문서를 참고하세요: