使用 Google Gemini 3 和开源框架构建 AI 代理

发布: 2个月前 (2025年12月9日 GMT+8 15:18)

8 分钟阅读

Source: Google Developers Blog

AI 代理的世界正从简单的聊天机器人快速演进为能够在真实世界中做出复杂决策的（半）自主系统。本周，我们推出了 Gemini 3 Pro Preview，这是我们最强大的代理模型，旨在作为这些高级工作流的核心编排器。

我们与开源合作伙伴紧密合作，完成了模型的集成与测试。本文介绍了 Gemini 3 的新代理特性，以及如何使用开源框架（包括 LangChain、AI SDK by Vercel、LlamaIndex、Pydantic AI 和 n8n）开始构建下一代代理。

为什么选择 Gemini 3 作为你的代理？

Gemini 3 引入了旨在让开发者对成本、延迟和推理深度进行细粒度控制的功能，使其成为迄今为止最强大的代理基础模型：

使用 thinking_level 控制推理 – 在每次请求上调整逻辑深度。将 thinking_level 设置为 high 以进行深度规划、错误查找和复杂指令执行。将其设为 low 可在实现类似 Gemini 2.5 Flash 的低延迟的同时，获得更优的输出质量。
通过 Thought Signatures 实现有状态的工具使用 – 模型现在会在调用工具之前生成加密的“Thought Signatures”，代表其内部推理过程。将这些签名回传到对话历史中，你的代理即可保留完整的思考链，确保多步骤执行时上下文不丢失。
可调的多模态保真度 – 使用 media_resolution 在令牌使用量和细节之间取得平衡。high 适用于分析图像中的细小文字，medium 适合最佳的 PDF 文档解析，low 则用于降低视频和普通图像描述的延迟。
大上下文一致性 – 结合 Thought Signatures，大上下文窗口可缓解“推理漂移”，让代理在长会话中保持一致的逻辑。

代理开源生态系统：Day 0 支持

我们与开源社区并肩合作，确保各库能够立即使用 Gemini 3。以下是提供 Day 0 支持的主要框架。

LangChain

langchain

LangChain 为数百万开发者提供代理工程平台及开源框架 LangChain 和 LangGraph。通过将工作流表示为图，开发者可以构建有状态、多角色的 AI 代理，直接利用 Gemini 及其嵌入模型。

“全新的 Gemini 模型是复杂、代理工作流的强力进步——尤其适用于需要高级推理和工具使用的场景。我们很高兴在 LangChain 和 LangGraph 中支持它，让开发者从第一天起就能轻松构建并部署可靠的代理。” – Harrison Chase, LangChain

开始使用 LangChain for Gemini。

AI SDK by Vercel

ai-sdk

AI SDK 是一套 TypeScript 工具包，帮助开发者使用 React、Next.js、Vue、Svelte、Node.js 等构建 AI 驱动的应用和代理。通过 Google 提供者，开发者可以实现文本流式、工具调用或结构化生成等功能，使用 Gemini 3。

“我们对 Gemini 3 Pro 的内部基准测试显示出推理和代码生成方面的巨大提升，成功率比 Gemini 2.5 Pro 提升了近 17%，在 Next.js 排行榜中位列前 2。我们很高兴在 AI SDK、AI Gateway 和 v0 中实现 Day 0 支持，提供这一全新能力。” — Aparna Sinha, Vercel

通过 Vercel 的 AI SDK 入门。

LlamaIndex

LlamaIndex 是一个专注于使用 Gemini 连接你的数据来构建知识代理的框架。它涵盖了代理工作流编排、数据加载、解析、抽取和索引等工具，兼容 LlamaIndex 开源工具和 LlamaCloud。

“在我们的早期访问测试中，Gemini 3 Pro 在处理复杂工具调用和保持上下文方面超越了前代模型。它为开发者提供了构建可靠知识代理所需的高精度基础。” – Jerry Liu, LlamaIndex

使用 LlamaIndex 开始。

Pydantic AI

pydantic-ai

Pydantic AI 是一个用于在 Python 中构建类型安全代理的框架。它直接支持 Gemini 模型，允许开发者利用 Python 类型提示定义代理模式，从而确保工作流产生可预测、类型正确的数据，便于下游生产系统集成。

“将 Gemini 3 的高级推理与 Pydantic AI 的类型安全相结合，为生产级代理提供了开发者所需的可靠性。我们很高兴在 Day 0 完成集成验证，提供完整的库支持。” – Douwe Maan

使用 Pydantic AI 入门。

n8n

n8n 是一个工作流自动化平台，使技术和非技术团队能够在无需编写代码的情况下构建 AI 代理。借助 Gemini 3 Pro，n8n 将高级推理能力带给运营、营销和业务团队。

“Gemini 3 将高级推理的力量带给每个人，而不仅仅是软件工程师。将该模型集成到 n8n 中，我们让非开发者也能构建复杂、可靠的代理，彻底改变日常运营，而无需编写任何代码。” — Angel Menendez

使用 n8n 入门。

最佳实践与后续步骤

准备升级了吗？请遵循以下指南，确保你的代理在 Gemini 3 上顺利运行：

简化 Prompt – 不再使用复杂的 “Chain of Thought” 提示工程。直接依赖 thinking_level 参数来原生控制推理深度。
保持 Temperature 为 1.0 – Gemini 3 的推理引擎已针对 1.0 的 temperature 进行优化；降低该值可能导致循环或在复杂任务中性能下降。
处理 Thought Signatures – 从模型响应中捕获 thoughtSignature 并在后续请求中回传。这在函数调用时是强制要求，缺失签名会导致 API 错误。
优化视觉令牌 – 对 PDF 使用 medium 的 media_resolution（此时质量已饱和，可节省令牌），仅在图像细节密集时才使用 high。
阅读完整指南 – 查阅完整的 Gemini 3 开发者指南，了解迁移细节、速率限制以及新 API 参数的关键信息。

使用 Google Gemini 3 和开源框架构建 AI 代理

为什么选择 Gemini 3 作为你的代理？