Polly – Amazon Polly 使用 AWS 将文本转换为自然语音
发布: (2025年12月19日 GMT+8 00:42)
3 分钟阅读
原文: Dev.to
Source: Dev.to
概览
Amazon Polly 是由 Amazon Web Services(AWS)提供的文本转语音(TTS)服务。它利用先进的机器学习和深度学习技术生成逼真的人声,使开发者能够以最小的工作量为其应用添加语音功能。
主要优势
- 无需手动录音 – 消除耗时且难以更新的录音工作。
- 可扩展且快速 – 能够在任何规模下处理实时和批量任务。
- 按使用付费 – 只为处理的字符数付费。
- 多语言与多语音 – 支持 30 多种语言,提供多种男女声,包括神经文本转语音(NTTS)。
- 易于集成 – 与 AWS SDK、Lambda、S3、Transcribe、Lex 等服务配合使用。
- 无需管理基础设施 – 完全托管,高度可靠。
Amazon Polly 工作原理
- 输入 – 提供要合成的文本。
- 选择语言和语音 – 从可用的语言、语音以及 NTTS 选项中挑选。
- 转换 – Polly 将文本转换为语音。
- 输出 – 生成的音频文件(如 MP3、WAV)可进行流式传输或存储。
Polly 还支持 SSML(语音合成标记语言),可对发音、语速、音量等进行细粒度控制。
常见使用场景
- 语音助理
- 在线学习平台
- 辅助功能应用(如屏幕阅读器)
- 新闻阅读器
- 交互式语音应答(IVR)系统
与 AWS 服务的集成
- AWS Lambda – 在无服务器工作流中触发语音合成。
- Amazon S3 – 存储生成的音频文件。
- Amazon Transcribe – 组合语音转文字和文字转语音的流水线。
- Amazon Lex – 为对话机器人提供自然语音输出。
定价要点
- 标准语音 – 按处理的每百万字符计费。
- 神经(NTTS)语音 – 由于质量更高,费率略高。
- 无前期费用,仅按实际使用量计费。
入门指南
开始使用 Amazon Polly:
# Example using AWS CLI
aws polly synthesize-speech \
--output-format mp3 \
--voice-id Joanna \
--text "Hello, welcome to Amazon Polly!" \
output.mp3
欲获取更详细的指导,请参阅官方文档: