Polly – Amazon Polly 使用 AWS 将文本转换为自然语音

发布: (2025年12月19日 GMT+8 00:42)
3 分钟阅读
原文: Dev.to

Source: Dev.to

概览

Amazon Polly 是由 Amazon Web Services(AWS)提供的文本转语音(TTS)服务。它利用先进的机器学习和深度学习技术生成逼真的人声,使开发者能够以最小的工作量为其应用添加语音功能。

主要优势

  • 无需手动录音 – 消除耗时且难以更新的录音工作。
  • 可扩展且快速 – 能够在任何规模下处理实时和批量任务。
  • 按使用付费 – 只为处理的字符数付费。
  • 多语言与多语音 – 支持 30 多种语言,提供多种男女声,包括神经文本转语音(NTTS)。
  • 易于集成 – 与 AWS SDK、Lambda、S3、Transcribe、Lex 等服务配合使用。
  • 无需管理基础设施 – 完全托管,高度可靠。

Amazon Polly 工作原理

  1. 输入 – 提供要合成的文本。
  2. 选择语言和语音 – 从可用的语言、语音以及 NTTS 选项中挑选。
  3. 转换 – Polly 将文本转换为语音。
  4. 输出 – 生成的音频文件(如 MP3、WAV)可进行流式传输或存储。

Polly 还支持 SSML(语音合成标记语言),可对发音、语速、音量等进行细粒度控制。

常见使用场景

  • 语音助理
  • 在线学习平台
  • 辅助功能应用(如屏幕阅读器)
  • 新闻阅读器
  • 交互式语音应答(IVR)系统

与 AWS 服务的集成

  • AWS Lambda – 在无服务器工作流中触发语音合成。
  • Amazon S3 – 存储生成的音频文件。
  • Amazon Transcribe – 组合语音转文字和文字转语音的流水线。
  • Amazon Lex – 为对话机器人提供自然语音输出。

定价要点

  • 标准语音 – 按处理的每百万字符计费。
  • 神经(NTTS)语音 – 由于质量更高,费率略高。
  • 无前期费用,仅按实际使用量计费。

入门指南

开始使用 Amazon Polly:

# Example using AWS CLI
aws polly synthesize-speech \
    --output-format mp3 \
    --voice-id Joanna \
    --text "Hello, welcome to Amazon Polly!" \
    output.mp3

欲获取更详细的指导,请参阅官方文档:

Amazon Polly – Official AWS Documentation

Back to Blog

相关文章

阅读更多 »