2025 年在 AWS 上构建 AI 代理:面向实践者的 Bedrock、AgentCore 与其他指南
Source: Dev.to
Source: …
1. 转变:从“使用 AI”到“编排代理”
在深入具体服务之前,先了解一下 AWS 正在走的概念方向会更有帮助。
从 2024 到 2025
| 年份 | 典型工作流 |
|---|---|
| 2024 | 调用 LLM → 获取响应 → 向用户展示(通常会加入一些 RAG 以提供上下文) |
| 2025 | 构建能够自主规划、执行、学习并独立运行的智能体 |
这对架构意味着什么
-
2024 风格
用户请求 → LLM → 响应 -
2025 风格
用户目标 → 代理网络 → 协调行动 → 结果
为什么重要
- AgentCore、Nova Act 和 Q Developer 现在已经提供了体现这一转变的代理能力。
- 真正的考验在于这些模型在大规模生产工作负载下的表现——这是我仍在评估的领域。
2. AWS 生成式 AI 生态概览
以下是 AWS 生成式 AI 生态系统的简要概览。
基础层
- Amazon Bedrock – 多模型访问与编排。
- Amazon SageMaker AI – 定制训练与部署。
代理基础设施
- Amazon Bedrock AgentCore – 用于构建、部署和运行代理的全栈平台。
- Nova Act – 专用的浏览器自动化代理。
模型
- Amazon Nova 2 系列 – AWS 自研的前沿模型。
- 第三方模型 – 通过 Bedrock 提供的 Claude、Llama、Mistral 等 100 多种模型。
开发工具
- Amazon Q Developer – 在 IDE 中直接使用 AI 辅助编码。
- Kiro – 具备规范驱动开发的代理式 IDE。
- PartyRock – 无代码 Bedrock 试玩平台。
支持服务
- S3 Vectors – 原生向量存储,用于检索增强生成(RAG)。
- CloudWatch – 代理可观测性与监控。
我们将在后续章节深入探讨每个组件。
3. Amazon Bedrock:多模型基础模型
Bedrock 是在 AWS 上访问基础模型的中心枢纽。如果您已经有一段时间没有关注,这里是 2025 年的最新变化:
模型扩展
Bedrock 现在提供 近 100 种无服务器基础模型,并通过 Bedrock Marketplace 再提供 100+ 种额外模型。2025 年 12 月的扩展新增了 18 种开源权重模型,包括:
| 提供商 | 模型 |
|---|---|
| Gemma 3 | |
| MiniMax AI | MiniMax M2 |
| Mistral | Mistral Large 3,Ministral 系列 |
| Moonshot AI | Kimi K2 |
| NVIDIA | Nemotron Nano 2 |
| Anthropic | Claude 4.5(2025 年 11 月)– 迄今为止最强大的 Claude |
强化微调
不再使用传统的带标签数据集进行微调,而是提供 反馈信号,让模型通过强化学习自行学习。AWS 声称相较于基础模型可实现 66 % 的准确率提升,且无需深度机器学习专业知识。
实际收益 – 使用您已有的评估标准来自定义模型行为,而无需创建庞大的训练数据集。
跨区域推理
Bedrock 现在支持 跨区域智能路由,用于高可用场景。如果您的主区域负载过高,请求会自动路由到次要区域。您可以在 模型访问设置 中进行配置。
4. Amazon Bedrock AgentCore:深度解析
AgentCore 是我今年投入最多时间的组件。它经历了 预览(7 月) → GA(10 月) → 大幅扩展(12 月)。下面按组件逐一概述,并给出何时使用的指引。
4.1 AgentCore Runtime
Runtime 为代理提供执行环境。
会话隔离
- 每个代理会话在 完全隔离 的环境中运行,且延迟低。
- 适用于处理 敏感数据 或需要 资源分配保证 的代理。
# Sessions are isolated automatically.
# Each invocation gets its own execution context.
from bedrock_agentcore import AgentRuntime
runtime = AgentRuntime()
session = runtime.create_session(
agent_id="my-agent",
session_config={
"isolation_level": "full",
"timeout_seconds": 28_800 # 8 hours max
}
)
长时运行工作负载
- 会话最长可运行 8 小时。
- 适用于需要等待外部事件、轮询系统,或编排跨越数小时而非数秒的多步骤工作流的代理。
双向流式 (2025 年 12 月新增)
- 支持 自然语音交互,代理可以同时监听并回应。
- 支持对话中途的中断——对语音优先的体验至关重要。
提示: 构建语音代理时使用此功能;它相较于传统的请求‑响应模型是一次重大改进。
4.2 AgentCore Memory
Memory 让代理在交互之间保留上下文。
情景记忆
- 在 12 月更新中引入。
- 代理 从经验中学习,随时间积累知识,超越将每个会话视为独立的做法。
from bedrock_agentcore import AgentMemory
memory = AgentMemory(
memory_type="episodic",
retention_policy={
"max_episodes": 1_000,
"decay_factor": 0.95
}
)
# Agent learns from each interaction
memory.record_episode(
context=session_context,
action_taken=agent_action,
outcome=result,
feedback=user_feedback
)
| 方面 | 细节 |
|---|---|
| 状态 | 早期阶段;仍需更多生产环境测试。 |
| 收益 | 随着累计有价值的情景,代理会 随时间改进。 |
| 风险 | 若反馈未经过筛选或保留策略配置不当,可能出现 漂移。 |
| 最佳适用场景 | 个人助理、推荐引擎或任何能从学习用户偏好中受益的工作流。 |
底线: 对于安全、重量级的工作负载,利用 运行时隔离 与 长时会话;对语音优先的代理,采用 双向流式。当需要跨交互保持连续性时,可尝试 情景记忆,但要监控漂移并设定合理的保留策略。
4.3 AgentCore Gateway
Gateway 负责工具集成。其杀手级功能是能够将现有 API 转换为兼容 Model Context Protocol(MCP)的工具,代码量极少。
MCP 集成
MCP 正在成为 LLM 与外部工具交互的标准。如果你已有 REST API,Gateway 可以将其暴露为 MCP 工具,任何代理都能发现并使用。
from bedrock_agentcore import Gateway
gateway = Gateway()
# Convert an existing API to an MCP‑compatible tool
gateway.register_api(
name="customer_lookup",
endpoint="https://api.mycompany.com/customers",
schema=openapi_spec,
authentication={
"type": "oauth2",
"credentials_vault": "my-vault"
}
)
工具发现
代理可以查询 Gateway 动态发现可用工具。这在多代理系统中尤为有用,因为硬编码的工具列表会限制灵活性。
Source: …
‑coding tool availability is undesirable.
4.4 AgentCore 身份
Identity 组件负责代理操作的身份验证和授权。
OAuth 集成
- 代理可以代表用户与外部服务进行身份验证。
- Identity 服务安全地管理刷新令牌——凭证从不直接由代理处理。
安全金库存储
- 凭证存储在具备加密和严格访问控制的金库中。
- 12 月更新新增了对更多支持 OAuth 的服务的原生集成。
from bedrock_agentcore import Identity
identity = Identity()
# Agent acts on behalf of a user
user_context = identity.establish_user_context(
user_id="user-123",
oauth_provider="google",
scopes=["calendar.read", "calendar.write"]
)
# Agent can now access the user's calendar
calendar_response = agent.invoke_tool(
"google_calendar",
action="list_events",
user_context=user_context
)
4.5 AgentCore 可观测性
可观测性插件接入 CloudWatch,实现全面监控。
您将获得
- 端到端代理执行追踪
- 每个组件的 延迟指标
- 令牌使用 跟踪
- 错误率 与模式
- 自定义仪表盘
该集成同样支持开源框架,如 LangChain、LangGraph 和 CrewAI。
4.6 策略与评估
2025 年 12 月新增,用作生产部署的防护栏。
策略(预览)
策略实时拦截每一次工具调用。您可以用自然语言定义边界,系统会将其转换为 Cedar——AWS 的开源策略语言。
# Natural language policy
"Agent can only process refunds under $500 without human approval"
# Converted to Cedar automatically
permit(
principal,
action == Action::"process_refund",
resource
) when {
resource.amount < 500
}
10. 支持服务
Amazon SageMaker AI
- Serverless MLflow – 零基础设施实验。
- HyperPod – 无检查点训练,自动从故障中恢复。
- 训练集群效率最高可达 95 %。
PartyRock
无代码 Bedrock 游乐场。每日免费使用,无需信用卡。非常适合在编写真实代码前快速原型设计。
S3 Vectors
S3 原生向量存储:
- 每个索引最多 20 亿向量
- 每个存储桶最多 20 万亿向量
- 查询延迟 100 毫秒
- 与专用向量数据库相比,成本最高可降低 90 %
对于 RAG 应用,S3 Vectors 消除了对单独向量数据库的需求。仅凭成本节省就值得深入研究。
Source: …
11. 生产模式
从使用这些服务的构建经验中得到的观察
1. 先使用 Bedrock,必要时再添加 AgentCore
不要一开始就直接使用 AgentCore。简单的 Bedrock 调用已经能满足大多数使用场景。只有在需要以下功能时才使用 AgentCore:
- 需要工具使用的多步骤工作流
- 为并发用户提供会话隔离
- 跨交互的情景记忆(episodic memory)
- 生产级可观测性
2. 先制定策略,再投入生产
如果你部署的代理会执行真实操作,请尽早设置 策略防护。提前定义边界要比事后在事故发生后再补救容易得多。
3. 监控 Token 使用情况
相较于单次调用,代理工作流会消耗更多的 token。代理的内部推理、工具调用以及迭代细化都会累计 token。请从一开始就在架构中加入成本监控。
4. MCP 是标准
模型上下文协议(Model Context Protocol,MCP)正变得越来越普遍。构建新 API 或集成时,请从一开始就考虑 MCP 兼容性——这将使你的工具能够被更广泛的代理框架所使用。
12. 这让我们处于何种境地?
AWS Gen AI 生态系统在 2025 年已经相当完整——甚至可以说过于完整。实现相似目标的方式有很多重叠,正确的做法在很大程度上取决于你的具体需求。
我的当前思维模型
| 目标 | 推荐服务 |
|---|---|
| 简单交互 | Bedrock(直接调用) |
| 复杂工作流 | AgentCore |
| 浏览器自动化 | Nova Act |
| 开发——即时辅助 | Q Developer |
| 开发——规范驱动项目 | Kiro |
| 定制模型 | Forge(前提是你拥有数据和投入) |
| 检索增强生成(RAG) | S3 Vectors + Bedrock Knowledge Bases |
Agentic AI 是软件开发的未来吗? 可能是,以某种形式出现。
这些特定服务会成为持久的实现方式吗? 这就不太确定了。AWS 以前也曾下线过服务,而 AI 领域变化迅速。
我可以肯定的是,今天使用这些工具进行构建确实非常高效。过去一年里,开发者体验已经显著提升。无论你是在构建面向客户的代理、内部自动化,还是 AI 辅助的开发工具,AWS 都提供了所需的组件。
真正的挑战——也是乐趣所在——是如何将它们组合在一起。
你正在使用这些服务构建什么? 我很想了解你的使用案例以及你发现的任何模式。