2025 年在 AWS 上构建 AI 代理:面向实践者的 Bedrock、AgentCore 与其他指南

发布: (2026年1月3日 GMT+8 07:51)
13 min read
原文: Dev.to

Source: Dev.to

Source:

1. 转变:从“使用 AI”到“编排代理”

在深入具体服务之前,先了解一下 AWS 正在走的概念方向会更有帮助。

从 2024 到 2025

年份典型工作流
2024调用 LLM → 获取响应 → 向用户展示(通常会加入一些 RAG 以提供上下文)
2025构建能够自主规划、执行、学习并独立运行的智能体

这对架构意味着什么

  • 2024 风格

    用户请求 → LLM → 响应
  • 2025 风格

    用户目标 → 代理网络 → 协调行动 → 结果

为什么重要

  • AgentCore、Nova Act 和 Q Developer 现在已经提供了体现这一转变的代理能力。
  • 真正的考验在于这些模型在大规模生产工作负载下的表现——这是我仍在评估的领域。

2. AWS 生成式 AI 生态概览

以下是 AWS 生成式 AI 生态系统的简要概览。

基础层

  • Amazon Bedrock – 多模型访问与编排。
  • Amazon SageMaker AI – 定制训练与部署。

代理基础设施

  • Amazon Bedrock AgentCore – 用于构建、部署和运行代理的全栈平台。
  • Nova Act – 专用的浏览器自动化代理。

模型

  • Amazon Nova 2 系列 – AWS 自研的前沿模型。
  • 第三方模型 – 通过 Bedrock 提供的 Claude、Llama、Mistral 等 100 多种模型。

开发工具

  • Amazon Q Developer – 在 IDE 中直接使用 AI 辅助编码。
  • Kiro – 具备规范驱动开发的代理式 IDE。
  • PartyRock – 无代码 Bedrock 试玩平台。

支持服务

  • S3 Vectors – 原生向量存储,用于检索增强生成(RAG)。
  • CloudWatch – 代理可观测性与监控。

我们将在后续章节深入探讨每个组件。

3. Amazon Bedrock:多模型基础模型

Bedrock 是在 AWS 上访问基础模型的中心枢纽。如果您已经有一段时间没有关注,这里是 2025 年的最新变化:

模型扩展

Bedrock 现在提供 近 100 种无服务器基础模型,并通过 Bedrock Marketplace 再提供 100+ 种额外模型。2025 年 12 月的扩展新增了 18 种开源权重模型,包括:

提供商模型
GoogleGemma 3
MiniMax AIMiniMax M2
MistralMistral Large 3,Ministral 系列
Moonshot AIKimi K2
NVIDIANemotron Nano 2
AnthropicClaude 4.5(2025 年 11 月)– 迄今为止最强大的 Claude

强化微调

不再使用传统的带标签数据集进行微调,而是提供 反馈信号,让模型通过强化学习自行学习。AWS 声称相较于基础模型可实现 66 % 的准确率提升,且无需深度机器学习专业知识。

实际收益 – 使用您已有的评估标准来自定义模型行为,而无需创建庞大的训练数据集。

跨区域推理

Bedrock 现在支持 跨区域智能路由,用于高可用场景。如果您的主区域负载过高,请求会自动路由到次要区域。您可以在 模型访问设置 中进行配置。

4. Amazon Bedrock AgentCore:深度解析

AgentCore 是我今年投入最多时间的组件。它经历了 预览(7 月)GA(10 月)大幅扩展(12 月)。下面按组件逐一概述,并给出何时使用的指引。

4.1 AgentCore Runtime

Runtime 为代理提供执行环境。

会话隔离

  • 每个代理会话在 完全隔离 的环境中运行,且延迟低。
  • 适用于处理 敏感数据 或需要 资源分配保证 的代理。
# Sessions are isolated automatically.
# Each invocation gets its own execution context.
from bedrock_agentcore import AgentRuntime

runtime = AgentRuntime()
session = runtime.create_session(
    agent_id="my-agent",
    session_config={
        "isolation_level": "full",
        "timeout_seconds": 28_800  # 8 hours max
    }
)

长时运行工作负载

  • 会话最长可运行 8 小时
  • 适用于需要等待外部事件、轮询系统,或编排跨越数小时而非数秒的多步骤工作流的代理。

双向流式 (2025 年 12 月新增)

  • 支持 自然语音交互,代理可以同时监听并回应。
  • 支持对话中途的中断——对语音优先的体验至关重要。

提示: 构建语音代理时使用此功能;它相较于传统的请求‑响应模型是一次重大改进。

4.2 AgentCore Memory

Memory 让代理在交互之间保留上下文。

情景记忆

  • 在 12 月更新中引入。
  • 代理 从经验中学习,随时间积累知识,超越将每个会话视为独立的做法。
from bedrock_agentcore import AgentMemory

memory = AgentMemory(
    memory_type="episodic",
    retention_policy={
        "max_episodes": 1_000,
        "decay_factor": 0.95
    }
)

# Agent learns from each interaction
memory.record_episode(
    context=session_context,
    action_taken=agent_action,
    outcome=result,
    feedback=user_feedback
)
方面细节
状态早期阶段;仍需更多生产环境测试。
收益随着累计有价值的情景,代理会 随时间改进
风险若反馈未经过筛选或保留策略配置不当,可能出现 漂移
最佳适用场景个人助理、推荐引擎或任何能从学习用户偏好中受益的工作流。

底线: 对于安全、重量级的工作负载,利用 运行时隔离长时会话;对语音优先的代理,采用 双向流式。当需要跨交互保持连续性时,可尝试 情景记忆,但要监控漂移并设定合理的保留策略。

4.3 AgentCore Gateway

Gateway 负责工具集成。其杀手级功能是能够将现有 API 转换为兼容 Model Context Protocol(MCP)的工具,代码量极少。

MCP 集成

MCP 正在成为 LLM 与外部工具交互的标准。如果你已有 REST API,Gateway 可以将其暴露为 MCP 工具,任何代理都能发现并使用。

from bedrock_agentcore import Gateway

gateway = Gateway()

# Convert an existing API to an MCP‑compatible tool
gateway.register_api(
    name="customer_lookup",
    endpoint="https://api.mycompany.com/customers",
    schema=openapi_spec,
    authentication={
        "type": "oauth2",
        "credentials_vault": "my-vault"
    }
)

工具发现

代理可以查询 Gateway 动态发现可用工具。这在多代理系统中尤为有用,因为硬编码的工具列表会限制灵活性。

Source:

‑coding tool availability is undesirable.

4.4 AgentCore 身份

Identity 组件负责代理操作的身份验证和授权。

OAuth 集成

  • 代理可以代表用户与外部服务进行身份验证。
  • Identity 服务安全地管理刷新令牌——凭证从不直接由代理处理。

安全金库存储

  • 凭证存储在具备加密和严格访问控制的金库中。
  • 12 月更新新增了对更多支持 OAuth 的服务的原生集成。
from bedrock_agentcore import Identity

identity = Identity()

# Agent acts on behalf of a user
user_context = identity.establish_user_context(
    user_id="user-123",
    oauth_provider="google",
    scopes=["calendar.read", "calendar.write"]
)

# Agent can now access the user's calendar
calendar_response = agent.invoke_tool(
    "google_calendar",
    action="list_events",
    user_context=user_context
)

4.5 AgentCore 可观测性

可观测性插件接入 CloudWatch,实现全面监控。

您将获得

  • 端到端代理执行追踪
  • 每个组件的 延迟指标
  • 令牌使用 跟踪
  • 错误率 与模式
  • 自定义仪表盘

该集成同样支持开源框架,如 LangChainLangGraphCrewAI

4.6 策略与评估

2025 年 12 月新增,用作生产部署的防护栏。

策略(预览)

策略实时拦截每一次工具调用。您可以用自然语言定义边界,系统会将其转换为 Cedar——AWS 的开源策略语言。

# Natural language policy
"Agent can only process refunds under $500 without human approval"

# Converted to Cedar automatically
permit(
    principal,
    action == Action::"process_refund",
    resource
) when {
    resource.amount < 500
}

10. 支持服务

Amazon SageMaker AI

  • Serverless MLflow – 零基础设施实验。
  • HyperPod – 无检查点训练,自动从故障中恢复。
  • 训练集群效率最高可达 95 %

PartyRock

无代码 Bedrock 游乐场。每日免费使用,无需信用卡。非常适合在编写真实代码前快速原型设计。

S3 Vectors

S3 原生向量存储:

  • 每个索引最多 20 亿向量
  • 每个存储桶最多 20 万亿向量
  • 查询延迟 100 毫秒
  • 与专用向量数据库相比,成本最高可降低 90 %

对于 RAG 应用,S3 Vectors 消除了对单独向量数据库的需求。仅凭成本节省就值得深入研究。

Source:

11. 生产模式

从使用这些服务的构建经验中得到的观察

1. 先使用 Bedrock,必要时再添加 AgentCore

不要一开始就直接使用 AgentCore。简单的 Bedrock 调用已经能满足大多数使用场景。只有在需要以下功能时才使用 AgentCore:

  • 需要工具使用的多步骤工作流
  • 为并发用户提供会话隔离
  • 跨交互的情景记忆(episodic memory)
  • 生产级可观测性

2. 先制定策略,再投入生产

如果你部署的代理会执行真实操作,请尽早设置 策略防护。提前定义边界要比事后在事故发生后再补救容易得多。

3. 监控 Token 使用情况

相较于单次调用,代理工作流会消耗更多的 token。代理的内部推理、工具调用以及迭代细化都会累计 token。请从一开始就在架构中加入成本监控。

4. MCP 是标准

模型上下文协议(Model Context Protocol,MCP)正变得越来越普遍。构建新 API 或集成时,请从一开始就考虑 MCP 兼容性——这将使你的工具能够被更广泛的代理框架所使用。

12. 这让我们处于何种境地?

AWS Gen AI 生态系统在 2025 年已经相当完整——甚至可以说过于完整。实现相似目标的方式有很多重叠,正确的做法在很大程度上取决于你的具体需求。

我的当前思维模型

目标推荐服务
简单交互Bedrock(直接调用)
复杂工作流AgentCore
浏览器自动化Nova Act
开发——即时辅助Q Developer
开发——规范驱动项目Kiro
定制模型Forge(前提是你拥有数据和投入)
检索增强生成(RAG)S3 Vectors + Bedrock Knowledge Bases

Agentic AI 是软件开发的未来吗? 可能是,以某种形式出现。
这些特定服务会成为持久的实现方式吗? 这就不太确定了。AWS 以前也曾下线过服务,而 AI 领域变化迅速。

我可以肯定的是,今天使用这些工具进行构建确实非常高效。过去一年里,开发者体验已经显著提升。无论你是在构建面向客户的代理、内部自动化,还是 AI 辅助的开发工具,AWS 都提供了所需的组件。

真正的挑战——也是乐趣所在——是如何将它们组合在一起


你正在使用这些服务构建什么? 我很想了解你的使用案例以及你发现的任何模式。

Back to Blog

相关文章

阅读更多 »

AI 编程峰会 2026

封面图片:AI Coding Summit 2026 https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads....