使用 Google Gemini 3 和开源框架构建 AI 代理

发布: (2025年12月1日 GMT+8 07:25)
8 min read

Source: Google Developers Blog

NOV. 19, 2025

AI 代理的世界正迅速从简单的聊天机器人演进为能够在真实世界中做出复杂决策的(半)自主系统。本周,我们推出了 Gemini 3 Pro Preview,这是我们最强大的代理模型,旨在作为这些高级工作流的核心编排器。

我们与开源合作伙伴紧密合作,完成了模型的集成与测试。本文将介绍 Gemini 3 中的新代理功能,以及如何使用开源框架(包括 LangChainAI SDK by VercelLlamaIndexPydantic AIn8n)开始构建下一代代理。

为什么选择 Gemini 3 作为你的代理?

Gemini 3 引入了旨在让开发者对成本、延迟和推理深度进行细粒度控制的特性,使其成为迄今为止最强大的代理基础模型:

  • 使用 thinking_level 控制推理 – 在每次请求上调整逻辑深度。将 thinking_level 设置为 high 以进行深度规划、错误查找和复杂指令执行。将其设为 low 可实现高吞吐任务,延迟可与 Gemini 2.5 Flash 相媲美,同时输出质量更佳。
  • 通过思考签名实现有状态的工具使用 – 模型现在会在调用工具前生成加密的“思考签名”,代表其内部推理。将这些签名回传到对话历史中,代理即可保留完整的思考链,确保多步骤执行时上下文不丢失。
  • 可调的多模态保真度 – 使用 media_resolution 在令牌消耗与细节之间取得平衡。high 用于分析图像中的细小文字,medium 适用于最佳的 PDF 文档解析,low 则可在视频和普通图像描述时最小化延迟。
  • 大上下文一致性 – 结合思考签名,大上下文窗口可缓解“推理漂移”,让代理在长会话中保持逻辑一致。

代理开源生态:Day 0 支持

我们与开源社区并肩合作,确保各库能够立即使用 Gemini 3。以下是提供 Day 0 支持的主要框架。

LangChain

langchain

LangChain 为数百万开发者提供代理工程平台和开源框架,LangChainLangGraph。通过将工作流表示为图,开发者可以构建有状态的、多角色的 AI 代理,直接利用 Gemini 及其嵌入模型。

“全新的 Gemini 模型是复杂代理工作流的重大进步——尤其适用于需要高级推理和工具使用的场景。我们很高兴在 LangChain 和 LangGraph 中支持它,让开发者从第一天起就能轻松构建并部署可靠的代理。” — Harrison Chase, LangChain

开始使用 LangChain for Gemini

AI SDK by Vercel

ai-sdk

AI SDK 是一套 TypeScript 工具包,帮助开发者使用 React、Next.js、Vue、Svelte、Node.js 等构建 AI 驱动的应用和代理。通过 Google 提供者,开发者可以实现文本流、工具调用或结构化生成等功能,使用 Gemini 3。

“我们对 Gemini 3 Pro 的内部基准测试显示出推理和代码生成的巨大提升,成功率比 Gemini 2.5 Pro 提升近 17%,在 Next.js 排行榜中位列前 2。我们非常激动能在 AI SDK、AI Gateway 和 v0 中实现 Day 0 支持。” — Aparna Sinha, Vercel

通过 Vercel 的 AI SDK 入门。

LlamaIndex

LlamaIndex

LlamaIndex 是一个专注于使用 Gemini 连接数据构建知识代理的框架。它涵盖了代理工作流编排、数据加载、解析、抽取和索引等工具,兼容 LlamaIndex 开源工具和 LlamaCloud。

“在我们的早期访问测试中,Gemini 3 Pro 在处理复杂工具调用和保持上下文方面超越了前代模型。它为开发者提供了构建可靠知识代理所需的高精度基础。” — Jerry Liu, LlamaIndex

使用 LlamaIndex 开始。

Pydantic AI

pydantic-ai

Pydantic AI 是一个用于在 Python 中构建类型安全代理的框架。它直接支持 Gemini 模型,允许开发者利用 Python 类型提示定义代理模式,确保工作流产生可预测、类型正确的数据,便于下游生产系统集成。

“将 Gemini 3 的高级推理与 Pydantic AI 的类型安全相结合,为生产代理提供了所需的可靠性。我们很高兴在 Day 0 完成集成验证,实现完整的库支持。” — Douwe Maan

通过 Pydantic 入门。

n8n

n8n

n8n 是一个工作流自动化平台,使技术和非技术团队能够在无需编写代码的情况下构建 AI 代理。借助 Gemini 3 Pro,n8n 将高级推理能力带给运营、营销和业务团队。

“Gemini 3 将高级推理的力量带给每个人,而不仅仅是软件工程师。将该模型集成到 n8n 中,我们让非开发者能够构建复杂、可靠的代理,彻底改变日常运营,而无需编写任何代码。” — Angel Menendez

使用 n8n 开始。

最佳实践与后续步骤

准备升级了吗?请遵循以下指南,确保你的代理在 Gemini 3 上顺利运行:

  • 简化 Prompt – 不再使用复杂的“Chain of Thought”提示工程。直接依赖 thinking_level 参数实现原生推理深度。
  • 保持 Temperature 为 1.0 – 不要降低温度。Gemini 3 的推理引擎已针对 1.0 进行优化,降低会导致循环或在复杂任务中性能下降。
  • 处理 Thought Signatures – 从模型响应中捕获 thoughtSignature,并在后续请求中回传。函数调用强制要求此签名,缺失会导致 API 错误。
  • 优化视觉令牌 – 对 PDF 使用 media_resolutionmedium(此时质量已饱和,可节省令牌),仅在图像细节密集时使用 high
  • 阅读指南 – 详细阅读完整的 Gemini 3 开发者指南,了解迁移要点、速率限制和新 API 参数。

[Previous] [Next]

Back to Blog

相关文章

阅读更多 »

宣布 Data Commons Gemini CLI 扩展

自从我们在十月初推出 Gemini CLI 扩展框架以来,我们已经看到 Google 自有和第三方贡献的扩展在 op... 中呈爆炸式增长。