使用 MCP 和 Gemini 构建自动化 AI 图像流水线

发布: (2026年2月1日 GMT+8 20:47)
6 分钟阅读
原文: Dev.to

Source: Dev.to

Cover image for Building an Automated AI Image Pipeline with MCP and Gemini

运营新闻通讯是一条内容跑步机。文章需要配图。图片需要提示词。提示词需要细化。而在这个循环的某个环节,时间不知不觉就消失了。

我创建了 gemini-image-mcp 来解决这个问题——一个开源的 MCP(模型上下文协议)服务器,能够自动化地从提示词生成并发布图像。以下是它的工作原理以及我为何构建它。

问题

  1. 撰写文章
  2. 思考图像概念(或多个)
  3. 手动向图像生成器发送提示(包括参考图像)
  4. 下载图像
  5. 将图像转换为 WebP 以提升网页性能
  6. 上传至 WordPress
  7. 为每篇文章重复上述步骤

步骤 2‑6 占用了我的大量时间。我需要一种自动化方案,能够融入我现有的 Claude Desktop 工作流,而无需在不同工具之间切换。

进入 MCP

MCP(Model Context Protocol)是 Anthropic 的开放标准,用于将 AI 模型连接到外部工具。MCP 让 Claude 能够直接调用工具——比如图像生成器——而无需在应用之间复制粘贴。这意味着我可以构建一个服务器,让 Claude 直接与之对话。无需切换浏览器。无需手动下载。只需一次对话。

架构

技术架构图显示 gemini-image-mcp 工作流:Claude Code 通过 MCP 协议连接到 gemini-image-mcp 服务器,服务器调用 Gemini API 生成图像。生成的图像随后分为两条路径——WebP 转换器生成优化图像,WordPress 上传将其送入媒体库。

服务器基于 Python,包含三个核心模块:

  • gemini_image_server.py – 主 MCP 服务器,处理工具调用
  • batch_manager.py – 批量操作的队列管理
  • batch_generate.py – 带速率限制的批量图像生成

两个质量层级

并非每张图片都需要 4K。我设计了两个层级:

专业模式 – Gemini 3 Pro Image Preview

  • 最高 4K 分辨率(默认 2K)
  • 支持最多 14 张参考图像
  • 更好的文字渲染
  • 最适合最终制作图像

快速模式 – Gemini 2.5 Flash Image

  • 1K 分辨率
  • 更快的生成
  • 非常适合迭代和测试
  • 显著更便宜

这让我可以在快速模式下快速原型,然后在最终版本时切换到专业模式。

Source:

批处理系统

与一次生成单张图像不同,批处理系统:

  • 将多个图像提示加入队列
  • 让您在生成前审阅队列
  • 在一次运行中生成所有图像,并进行速率限制
  • 将 API 成本大幅降低约一半
# Queue images
add_to_batch("Newsletter header - abstract AI visualization")
add_to_batch("Feature image - quantum computing concept")
add_to_batch("Sidebar graphic - robotics innovation")

# Review queue
view_batch_queue()

# Generate all at once
run_batch()

WebP 转换

网页性能很重要。服务器使用 Pillow 自动将生成的 PNG 转换为 WebP 格式,显著减小文件大小且几乎没有可见的质量损失。这也降低了服务器的磁盘需求。

WordPress 集成

最后一环——通过 REST API 直接上传到你的 WordPress 媒体库。无需手动上传、无需调整大小、无需文件管理。一次工作流即可生成、转换并发布。

入门

git clone https://github.com/PeeperFrog/gemini-image-mcp.git
cd gemini-image-mcp
cp config.json.example config.json
cp .env.example .env
pip install -r requirements.txt

将您的 Gemini API 密钥添加到 .env,在 config.json 中更新路径,并将服务器添加到您的 MCP 客户端。就这样。

实际效果

运行这个用于两个新闻通讯,我把每篇文章的图片制作时间从大约 30 分钟削减到不到 5 分钟。批处理系统让 API 成本保持在可控范围,WordPress 集成意味着发布的图片会自动出现在我的媒体库中。

接下来

  • 为工作流扩展的参考图像库
  • 额外的 CMS 集成
  • 更细粒度的质量控制

总结

MCP 仍处于早期阶段,但它已经在改变开发者构建 AI 工作流的方式。gemini-image-mcp 是将 AI 模型与现实工具相连接时可能实现的一个示例。

免费、开源、MIT 许可证。

🔗 GitHub: PeeperFrog/gemini-image-mcp

Back to Blog

相关文章

阅读更多 »