我构建了一个 AI 创意总监:使用 GPT-4o Vision 与结构化输出自动化 FB 广告生成

发布: (2026年1月7日 GMT+8 11:40)
6 min read
原文: Dev.to

Source: Dev.to

请提供您希望翻译的正文内容,我将把它翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。

架构:眼睛、大脑和手

这并不是一个简单的“文本‑到‑图像”流程。它是一个 “图像‑到‑文本‑到‑图像”(多模态)管道,由三个不同的阶段组成:

阶段角色描述
眼睛输入分析GPT‑4o Vision 分析参考(灵感)图像和产品图像。
大脑结构化逻辑一个 LangChain 代理将这些输入合成为严格的 JSON 格式。
执行循环为每个概念触发 OpenAI 图像生成 API。

阶段 1 – “视觉”分析(逆向工程)

  1. 获取图像 – 两个并行的 Google Drive 节点拉取文件:

    • 灵感文件夹 – 来自竞争对手的高表现广告。
    • 产品文件夹 – 我们要销售的产品原始拍摄图。
  2. 将图像传递给 GPT‑4o – 图像以 Base64 形式发送到 OpenAI Chat Model 节点 (gpt‑4o)。

    Full workflow overview in n8n canvas

  3. 灵感分析提示

    Describe the visual style of this image... create a template of the style for inspirations.
    Ensure you do not make this product specific, rather focusing on creating outlines for static ad styles.
  4. 产品分析提示

    Identify the core emotions behind it and the main product.
    We will use this later to connect the product image with some ad styles.

结果: 两段文字——一段描述 “氛围”(风格),另一段描述 “主体”(产品/情感)。

阶段 2 – 从混沌到 JSON(结构化输出)

LLM 喜欢聊天,但我们需要一个干净的提示数组。

  1. 使用 Advanced AI 节点 – 将 LangChain Agent 连接到 Structured Output Parser,并提供严格的 JSON schema

    Structured output parser configuration

  2. Schema 示例

    [
      {
        "Prompt": "Sun‑drenched poolside shot of the product on a marble ledge at golden hour, with soft shadows and warm tones. Aspect ratio 1:1."
      },
      {
        "Prompt": "Cool lavender‑tinted sunset beach backdrop behind the product, highlighting reflective metallic accents. Aspect ratio 4:5."
      }
    ]

代理将 风格描述(来自灵感节点)和 产品描述(来自产品节点)合并为上述精确格式,生成一个可编程的提示数组——无需正则或字符串解析。

阶段 3 – 工厂线(执行循环)

  1. 拆分 JSON 数组Split Out 节点将每个提示分离。

  2. 通过原始 HTTP 生成图像 – 与其使用预构建的 DALL‑E 节点,不如使用 HTTP Request 节点直接调用 OpenAI 图像生成端点,以获得对参数的细粒度控制。

    {
      "model": "dall-e-3",
      "prompt": "={{ $json.Prompt }}",
      "size": "1024x1024",
      "quality": "standard",
      "n": 1
    }

    HTTP request node configuration

  3. 速率限制处理Wait 节点(图中未显示)在请求之间暂停几秒,以保持在 OpenAI 的每分钟令牌限制之内。

结果 — 自动化创意

工作流现在:

  • 从 Google Drive 拉取灵感和产品图片。
  • 使用 GPT‑4o Vision 提取风格“氛围”和产品“主题”。
  • 将这些洞察转换为整洁的 JSON 数组,包含 10 条以上的图像提示。
  • 遍历数组,调用 DALL‑E 3 API 生成广告创意。
  • 将生成的 Base64 图像存回 Google Drive(或您偏好的任何位置)。

结论: 通过将传统上手工且充满猜测的过程转变为确定性的多模态流水线,您可以大规模产出高质量的广告概念——无需担心令人头疼的“提示阻塞”。

(原文后续深入探讨了后处理和 A/B 测试,但核心流水线到此结束。)

Source:

AI‑生成的 Facebook 广告图片(基于产品分析)

此 n8n 工作流读取参考广告图片和产品图片,使用 GPT‑4o 进行分析,创建 10 条全新广告创意,并通过 DALL‑E 3 生成相应图片,最后将结果保存到 Google Drive 中指定的 “Output” 文件夹。

工作原理

  1. 读取 参考图片(输入)。
  2. 读取 产品图片(输入)。
  3. 使用 GPT‑4o 对两张图片进行 分析
  4. 通过 LangChain 合成 10 条新的广告提示。
  5. 使用 DALL‑E 3 生成 10 张新图片。
  6. 将图片 保存 到 Google Drive。

我构建此工作流是为了在不需要向设计师提交 50 次简报的情况下,测试 50 种不同的视觉钩子。结果相当连贯,因为它们基于对已有成功广告的视觉分析。

获取工作流

我已经清理了凭证,并将工作流打包成 JSON 文件,您可以直接导入到自己的 n8n 实例中。

👉 下载 AI 产品图片生成器工作流

注意:运行此工作流需要您自己的 OpenAI API 密钥(具备 GPT‑4o 访问权限)以及 Google Drive 凭证。

祝自动化愉快! 🤖

Back to Blog

相关文章

阅读更多 »

Rapg:基于 TUI 的密钥管理器

我们都有这种经历。你加入一个新项目,首先听到的就是:“在 Slack 的置顶消息里查找 .env 文件”。或者你有多个 .env …

技术是赋能者,而非救世主

为什么思考的清晰度比你使用的工具更重要。Technology 常被视为一种魔法开关——只要打开,它就能让一切改善。新的 software,...

踏入 agentic coding

使用 Copilot Agent 的经验 我主要使用 GitHub Copilot 进行 inline edits 和 PR reviews,让我的大脑完成大部分思考。最近我决定 t...