使用 MCP 和 Gemini 构建自动化 AI 图像流水线
Source: Dev.to

运营新闻通讯是一条内容跑步机。文章需要配图。图片需要提示词。提示词需要细化。而在这个循环的某个环节,时间不知不觉就消失了。
我创建了 gemini-image-mcp 来解决这个问题——一个开源的 MCP(模型上下文协议)服务器,能够自动化地从提示词生成并发布图像。以下是它的工作原理以及我为何构建它。
问题
- 撰写文章
- 思考图像概念(或多个)
- 手动向图像生成器发送提示(包括参考图像)
- 下载图像
- 将图像转换为 WebP 以提升网页性能
- 上传至 WordPress
- 为每篇文章重复上述步骤
步骤 2‑6 占用了我的大量时间。我需要一种自动化方案,能够融入我现有的 Claude Desktop 工作流,而无需在不同工具之间切换。
进入 MCP
MCP(Model Context Protocol)是 Anthropic 的开放标准,用于将 AI 模型连接到外部工具。MCP 让 Claude 能够直接调用工具——比如图像生成器——而无需在应用之间复制粘贴。这意味着我可以构建一个服务器,让 Claude 直接与之对话。无需切换浏览器。无需手动下载。只需一次对话。
架构

服务器基于 Python,包含三个核心模块:
- gemini_image_server.py – 主 MCP 服务器,处理工具调用
- batch_manager.py – 批量操作的队列管理
- batch_generate.py – 带速率限制的批量图像生成
两个质量层级
并非每张图片都需要 4K。我设计了两个层级:
专业模式 – Gemini 3 Pro Image Preview
- 最高 4K 分辨率(默认 2K)
- 支持最多 14 张参考图像
- 更好的文字渲染
- 最适合最终制作图像
快速模式 – Gemini 2.5 Flash Image
- 1K 分辨率
- 更快的生成
- 非常适合迭代和测试
- 显著更便宜
这让我可以在快速模式下快速原型,然后在最终版本时切换到专业模式。
Source: …
批处理系统
与一次生成单张图像不同,批处理系统:
- 将多个图像提示加入队列
- 让您在生成前审阅队列
- 在一次运行中生成所有图像,并进行速率限制
- 将 API 成本大幅降低约一半
# Queue images
add_to_batch("Newsletter header - abstract AI visualization")
add_to_batch("Feature image - quantum computing concept")
add_to_batch("Sidebar graphic - robotics innovation")
# Review queue
view_batch_queue()
# Generate all at once
run_batch()
WebP 转换
网页性能很重要。服务器使用 Pillow 自动将生成的 PNG 转换为 WebP 格式,显著减小文件大小且几乎没有可见的质量损失。这也降低了服务器的磁盘需求。
WordPress 集成
最后一环——通过 REST API 直接上传到你的 WordPress 媒体库。无需手动上传、无需调整大小、无需文件管理。一次工作流即可生成、转换并发布。
入门
git clone https://github.com/PeeperFrog/gemini-image-mcp.git
cd gemini-image-mcp
cp config.json.example config.json
cp .env.example .env
pip install -r requirements.txt
将您的 Gemini API 密钥添加到 .env,在 config.json 中更新路径,并将服务器添加到您的 MCP 客户端。就这样。
实际效果
运行这个用于两个新闻通讯,我把每篇文章的图片制作时间从大约 30 分钟削减到不到 5 分钟。批处理系统让 API 成本保持在可控范围,WordPress 集成意味着发布的图片会自动出现在我的媒体库中。
接下来
- 为工作流扩展的参考图像库
- 额外的 CMS 集成
- 更细粒度的质量控制
总结
MCP 仍处于早期阶段,但它已经在改变开发者构建 AI 工作流的方式。gemini-image-mcp 是将 AI 模型与现实工具相连接时可能实现的一个示例。
免费、开源、MIT 许可证。