描述用于构建生成式 AI 应用的 AWS 基础设施和技术
发布: (2026年1月18日 GMT+8 14:37)
8 min read
原文: Dev.to
I’m happy to translate the article for you, but I need the text you’d like translated. Could you please paste the content (or the portion you want translated) here? I’ll keep the source line, formatting, and any code blocks unchanged as requested.
🎯 目标 – 本任务关注:
- AWS 为您提供的 构建 GenAI 解决方案的服务与工具
- 为何使用 AWS 托管的 GenAI 产品
- 您将面临的 权衡——尤其是成本、性能和治理方面
🤖 考试指南:AI 从业者
领域 2 – 生成式 AI 基础
📘 任务陈述 2.3
1️⃣ 用于开发生成式 AI 应用的 AWS 服务和功能
| # | Service | Description |
|---|---|---|
| 1.1 | Amazon Bedrock | 全托管服务,通过 API 使用 基础模型 (FMs) 构建生成式 AI 应用。常见用例: 文本生成、聊天、摘要、嵌入、图像生成。使用 FMs 而无需管理基础设施的主要入口点。 |
| 1.2 | PartyRock (Amazon Bedrock Playground) | 低代码/无代码的实验场,用于 尝试提示词和生成式 AI 应用概念。适用于原型设计: 快速测试提示词模式、输入/输出格式以及简单工作流。 |
| 1.3 | Amazon SageMaker JumpStart | 帮助您 发现、部署并基于预训练模型以及解决方案模板快速起步。适用于希望使用 SageMaker 工作流(训练、调优、托管)但需要更快起始点的场景。 |
| 1.4 | Amazon Q | AWS 为工作场景提供的生成式 AI 助手,面向开发者和企业。帮助包括: 回答问题、生成内容,以及协助 AWS/开发工作流(功能取决于具体的 Q 产品)。 |
| 1.5 | Amazon Bedrock Data Automation | 简化/自动化生成式 AI 工作流中的数据准备或价值提取环节。Bedrock 生态系统的一部分,支持构建生成式 AI 解决方案。 |
2️⃣ 使用 AWS GenAI 服务构建应用的优势
| # | 优势 | 为什么重要 |
|---|---|---|
| 2.1 | 可访问性 / 降低准入门槛 | 团队可以通过 API 开始构建,而无需从头配置模型基础设施。 |
| 2.2 | 效率 | 托管服务降低运营开销(扩展性、可用性、集成)。 |
| 2.3 | 成本效益 | 按需付费可能比维护始终在线的自托管推理更便宜(取决于工作负载)。 |
| 2.4 | 快速上市 | 使用托管服务、预构建模型和模板,可更快进行原型设计和部署。 |
| 2.5 | 与业务目标对齐 | 更容易迭代提示、检索、守护规则等,以在不进行大量机器学习工程投入的情况下实现产品 KPI。 |
3️⃣ AWS 基础设施对生成式 AI 应用的优势
| # | 优势 | 关键要点 |
|---|---|---|
| 3.1 | 安全性 | 强大的身份与访问控制、网络隔离、加密、审计/日志(考试级概念)。 |
| 3.2 | 合规性 | 支持众多合规计划;在正确配置时帮助满足监管要求。 |
| 3.3 | 责任与安全 | AWS 提供负责任的 AI 工具(策略控制、治理实践、监控)。 |
| 3.4 | 运营可靠性 | 成熟的全球基础设施(区域/可用区)实现高可用性设计和灾难恢复模式。共享责任理念:AWS 提供平台,客户负责配置。 |
4️⃣ AWS GenAI 服务的成本权衡
GenAI 的成本不仅仅是“模型价格”。它受到架构选择的影响:
| # | 权衡 | 典型影响 |
|---|---|---|
| 4.1 | 响应性(Latency) vs. 成本 | 更低的延迟通常需要更多资源或更高端的部署模式。交互式聊天体验的每位用户成本通常高于离线/批处理任务。 |
| 4.2 | 可用性 / 冗余 vs. 成本 | 多可用区(Multi‑AZ)或多区域(Multi‑Region)设计提升弹性,但会增加支出。 |
| 4.3 | 性能 vs. 成本 | 更大/更强的模型每次请求费用更高,且可能更慢。较小的模型更便宜/更快,但可能降低质量。 |
| 4.4 | 区域覆盖 vs. 成本 / 可用性 | 并非所有模型/服务都在每个 Region 中可用。部署到更多 Region 会增加运维复杂度和成本。 |
| 4.5 | 基于 Token 的计费 | 费用基于 输入 & 输出 token。成本驱动因素: 长提示/大上下文、检索到的上下文(RAG)塞入提示、冗长的输出、高请求量。 |
| 4.6 | 预置吞吐量 vs. 按需 | 预置吞吐量 提供可预测的性能/容量,但若未充分利用会造成浪费。按需 灵活,但每单位成本可能更高且有波动。 |
| 4.7 | 自定义模型(微调/定制) vs. 现成模型 | 定制化可以提升质量并降低提示复杂度,但会增加训练/微调成本、评估与治理开销,以及持续的维护/再训练成本。最佳实践: 选择满足质量、延迟和合规需求的最小/最便宜方案;使用 token、流量和部署模型来衡量成本。 |
💡 快速提问
- 哪个 AWS 服务是通过 API 访问基础模型的主要托管方式?
- PartyRock 用于什么?
- 列举使用 AWS‑托管 GenAI 服务而非自行托管模型的一个优势。
- 给出导致基于 token 的 GenAI 成本的两个常见因素。
- 在预置吞吐量和按需使用之间的典型权衡是什么?
资源
- Amazon Bedrock Data Automation
- How AWS Partners are Driving Innovation and Efficiency with Amazon Bedrock and Amazon Q
- Optimizing costs of generative AI applications on AWS
- Build AI apps with PartyRock and Amazon Bedrock
- AWS GenAI: The Next Frontier in Cloud‑Based Artificial Intelligence
✅ 快速问题的答案
- 通过 API 访问基础模型的主要托管方式: Amazon Bedrock
- PartyRock 的用途: 在 Amazon Bedrock Playground 中进行原型设计和实验(提示和简单应用工作流),实现低代码/无代码开发。
- AWS 托管的 GenAI 服务相较于自行托管的优势之一: 更快的上市时间——使用托管 API,无需自行构建和运营模型基础设施。(同样有效的答案包括:降低运维开销、更易扩展、提升可访问性。)
- 导致基于 token 成本的两个因素:
- 更长的提示 / 更多输入上下文(例如在 RAG 中检索的大块文本)
- 更长的模型输出(生成的 token 更多)
- 预置吞吐量 vs. 按需使用的权衡:
- 预置吞吐量 提供可预测的容量/性能,但如果利用率不足,成本可能更高。
- 按需 灵活且按使用付费,虽然可预测性较低,且在某些工作负载下每单位成本可能更高。