我构建了一个 AI 创意总监：使用 GPT-4o Vision 与结构化输出自动化 FB 广告生成

发布: 1个月前 (2026年1月7日 GMT+8 11:40)

6 分钟阅读

Source: Dev.to

请提供您希望翻译的正文内容，我将把它翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。

架构：眼睛、大脑和手

这并不是一个简单的“文本‑到‑图像”流程。它是一个 “图像‑到‑文本‑到‑图像”（多模态）管道，由三个不同的阶段组成：

阶段	角色	描述
眼睛	输入分析	GPT‑4o Vision 分析参考（灵感）图像和产品图像。
大脑	结构化逻辑	一个 LangChain 代理将这些输入合成为严格的 JSON 格式。
手	执行	循环为每个概念触发 OpenAI 图像生成 API。

阶段 1 – “视觉”分析（逆向工程）

获取图像 – 两个并行的 Google Drive 节点拉取文件：
- 灵感文件夹 – 来自竞争对手的高表现广告。
- 产品文件夹 – 我们要销售的产品原始拍摄图。
将图像传递给 GPT‑4o – 图像以 Base64 形式发送到 OpenAI Chat Model 节点 (gpt‑4o)。

灵感分析提示

Describe the visual style of this image... create a template of the style for inspirations.
Ensure you do not make this product specific, rather focusing on creating outlines for static ad styles.

产品分析提示

Identify the core emotions behind it and the main product.
We will use this later to connect the product image with some ad styles.

结果： 两段文字——一段描述 “氛围”（风格），另一段描述 “主体”（产品/情感）。

阶段 2 – 从混沌到 JSON（结构化输出）

LLM 喜欢聊天，但我们需要一个干净的提示数组。

使用 Advanced AI 节点 – 将 LangChain Agent 连接到 Structured Output Parser，并提供严格的 JSON schema。

Schema 示例

[
  {
    "Prompt": "Sun‑drenched poolside shot of the product on a marble ledge at golden hour, with soft shadows and warm tones. Aspect ratio 1:1."
  },
  {
    "Prompt": "Cool lavender‑tinted sunset beach backdrop behind the product, highlighting reflective metallic accents. Aspect ratio 4:5."
  }
]

代理将 风格描述（来自灵感节点）和 产品描述（来自产品节点）合并为上述精确格式，生成一个可编程的提示数组——无需正则或字符串解析。

阶段 3 – 工厂线（执行循环）

拆分 JSON 数组 – Split Out 节点将每个提示分离。
通过原始 HTTP 生成图像 – 与其使用预构建的 DALL‑E 节点，不如使用 HTTP Request 节点直接调用 OpenAI 图像生成端点，以获得对参数的细粒度控制。
```
{
  "model": "dall-e-3",
  "prompt": "={{ $json.Prompt }}",
  "size": "1024x1024",
  "quality": "standard",
  "n": 1
}
```
速率限制处理 – Wait 节点（图中未显示）在请求之间暂停几秒，以保持在 OpenAI 的每分钟令牌限制之内。

结果 — 自动化创意

工作流现在：

从 Google Drive 拉取灵感和产品图片。
使用 GPT‑4o Vision 提取风格“氛围”和产品“主题”。
将这些洞察转换为整洁的 JSON 数组，包含 10 条以上的图像提示。
遍历数组，调用 DALL‑E 3 API 生成广告创意。
将生成的 Base64 图像存回 Google Drive（或您偏好的任何位置）。

结论： 通过将传统上手工且充满猜测的过程转变为确定性的多模态流水线，您可以大规模产出高质量的广告概念——无需担心令人头疼的“提示阻塞”。

(原文后续深入探讨了后处理和 A/B 测试，但核心流水线到此结束。)

Source:

AI‑生成的 Facebook 广告图片（基于产品分析）

此 n8n 工作流读取参考广告图片和产品图片，使用 GPT‑4o 进行分析，创建 10 条全新广告创意，并通过 DALL‑E 3 生成相应图片，最后将结果保存到 Google Drive 中指定的 “Output” 文件夹。

工作原理

读取 参考图片（输入）。
读取 产品图片（输入）。
使用 GPT‑4o 对两张图片进行分析。
通过 LangChain 合成 10 条新的广告提示。
使用 DALL‑E 3 生成 10 张新图片。
将图片保存到 Google Drive。

我构建此工作流是为了在不需要向设计师提交 50 次简报的情况下，测试 50 种不同的视觉钩子。结果相当连贯，因为它们基于对已有成功广告的视觉分析。

获取工作流

我已经清理了凭证，并将工作流打包成 JSON 文件，您可以直接导入到自己的 n8n 实例中。

👉 下载 AI 产品图片生成器工作流

注意：运行此工作流需要您自己的 OpenAI API 密钥（具备 GPT‑4o 访问权限）以及 Google Drive 凭证。

祝自动化愉快！ 🤖

我构建了一个 AI 创意总监：使用 GPT-4o Vision 与结构化输出自动化 FB 广告生成

架构：眼睛、大脑和手

阶段 1 – “视觉”分析（逆向工程）

阶段 2 – 从混沌到 JSON（结构化输出）

阶段 3 – 工厂线（执行循环）

结果 — 自动化创意

AI‑生成的 Facebook 广告图片（基于产品分析）

工作原理

获取工作流

相关文章

Agent 控制平面：为什么没有治理的智能是一个 Bug

你的 'Atomic' 部署可能并非原子性的

是时候在2026年了解Google TPU了

你好，我是新人。

架构：眼睛、大脑和手

阶段 1 – “视觉”分析（逆向工程）

阶段 2 – 从混沌到 JSON（结构化输出）

阶段 3 – 工厂线（执行循环）

结果 — 自动化创意

AI‑生成的 Facebook 广告图片（基于产品分析）

工作原理

获取工作流

相关文章

Agent 控制平面：为什么没有治理的智能是一个 Bug

你的 'Atomic' 部署可能并非原子性的

是时候在2026年了解Google TPU了

你好，我是新人。

阶段 1 – “视觉”分析（逆向工程）

阶段 2 – 从混沌到 JSON（结构化输出）

阶段 3 – 工厂线（执行循环）