使用 MCP 和 Gemini 构建自动化 AI 图像流水线

发布: 3个月前 (2026年2月1日 GMT+8 20:47)

6 分钟阅读

原文: Dev.to

Source: Dev.to

Cover image for Building an Automated AI Image Pipeline with MCP and Gemini

运营新闻通讯是一条内容跑步机。文章需要配图。图片需要提示词。提示词需要细化。而在这个循环的某个环节，时间不知不觉就消失了。

我创建了 gemini-image-mcp 来解决这个问题——一个开源的 MCP（模型上下文协议）服务器，能够自动化地从提示词生成并发布图像。以下是它的工作原理以及我为何构建它。

问题

撰写文章
思考图像概念（或多个）
手动向图像生成器发送提示（包括参考图像）
下载图像
将图像转换为 WebP 以提升网页性能
上传至 WordPress
为每篇文章重复上述步骤

步骤 2‑6 占用了我的大量时间。我需要一种自动化方案，能够融入我现有的 Claude Desktop 工作流，而无需在不同工具之间切换。

进入 MCP

MCP（Model Context Protocol）是 Anthropic 的开放标准，用于将 AI 模型连接到外部工具。MCP 让 Claude 能够直接调用工具——比如图像生成器——而无需在应用之间复制粘贴。这意味着我可以构建一个服务器，让 Claude 直接与之对话。无需切换浏览器。无需手动下载。只需一次对话。

架构

技术架构图显示 gemini-image-mcp 工作流：Claude Code 通过 MCP 协议连接到 gemini-image-mcp 服务器，服务器调用 Gemini API 生成图像。生成的图像随后分为两条路径——WebP 转换器生成优化图像，WordPress 上传将其送入媒体库。

服务器基于 Python，包含三个核心模块：

gemini_image_server.py – 主 MCP 服务器，处理工具调用
batch_manager.py – 批量操作的队列管理
batch_generate.py – 带速率限制的批量图像生成

两个质量层级

并非每张图片都需要 4K。我设计了两个层级：

专业模式 – Gemini 3 Pro Image Preview

最高 4K 分辨率（默认 2K）
支持最多 14 张参考图像
更好的文字渲染
最适合最终制作图像

快速模式 – Gemini 2.5 Flash Image

1K 分辨率
更快的生成
非常适合迭代和测试
显著更便宜

这让我可以在快速模式下快速原型，然后在最终版本时切换到专业模式。

Source: …

批处理系统

与一次生成单张图像不同，批处理系统：

将多个图像提示加入队列
让您在生成前审阅队列
在一次运行中生成所有图像，并进行速率限制
将 API 成本大幅降低约一半

# Queue images
add_to_batch("Newsletter header - abstract AI visualization")
add_to_batch("Feature image - quantum computing concept")
add_to_batch("Sidebar graphic - robotics innovation")

# Review queue
view_batch_queue()

# Generate all at once
run_batch()

WebP 转换

网页性能很重要。服务器使用 Pillow 自动将生成的 PNG 转换为 WebP 格式，显著减小文件大小且几乎没有可见的质量损失。这也降低了服务器的磁盘需求。

WordPress 集成

最后一环——通过 REST API 直接上传到你的 WordPress 媒体库。无需手动上传、无需调整大小、无需文件管理。一次工作流即可生成、转换并发布。

入门

git clone https://github.com/PeeperFrog/gemini-image-mcp.git
cd gemini-image-mcp
cp config.json.example config.json
cp .env.example .env
pip install -r requirements.txt

将您的 Gemini API 密钥添加到 .env，在 config.json 中更新路径，并将服务器添加到您的 MCP 客户端。就这样。

实际效果

运行这个用于两个新闻通讯，我把每篇文章的图片制作时间从大约 30 分钟削减到不到 5 分钟。批处理系统让 API 成本保持在可控范围，WordPress 集成意味着发布的图片会自动出现在我的媒体库中。

接下来

为工作流扩展的参考图像库
额外的 CMS 集成
更细粒度的质量控制

总结

MCP 仍处于早期阶段，但它已经在改变开发者构建 AI 工作流的方式。gemini-image-mcp 是将 AI 模型与现实工具相连接时可能实现的一个示例。

免费、开源、MIT 许可证。

🔗 GitHub: PeeperFrog/gemini-image-mcp

使用 MCP 和 Gemini 构建自动化 AI 图像流水线

问题

进入 MCP

架构

两个质量层级

专业模式 – Gemini 3 Pro Image Preview

快速模式 – Gemini 2.5 Flash Image

批处理系统

WebP 转换

WordPress 集成

入门

实际效果

接下来

总结

相关文章

介绍 nono：用于 AI 代理的安全沙箱

在几秒钟内切换 Claude Code 提供商，使用 claude-provider（插件 + CLI）

如何在5-10分钟内设置 OpenClaw（无需 Mac Mini、VPS、代码）

调试我的大脑：为什么拖延实际上是‘情绪调节’故障