我构建了一个 AI 创意总监:使用 GPT-4o Vision 与结构化输出自动化 FB 广告生成
Source: Dev.to
请提供您希望翻译的正文内容,我将把它翻译成简体中文并保持原有的格式、Markdown 语法以及技术术语不变。
架构:眼睛、大脑和手
这并不是一个简单的“文本‑到‑图像”流程。它是一个 “图像‑到‑文本‑到‑图像”(多模态)管道,由三个不同的阶段组成:
| 阶段 | 角色 | 描述 |
|---|---|---|
| 眼睛 | 输入分析 | GPT‑4o Vision 分析参考(灵感)图像和产品图像。 |
| 大脑 | 结构化逻辑 | 一个 LangChain 代理将这些输入合成为严格的 JSON 格式。 |
| 手 | 执行 | 循环为每个概念触发 OpenAI 图像生成 API。 |
阶段 1 – “视觉”分析(逆向工程)
-
获取图像 – 两个并行的 Google Drive 节点拉取文件:
- 灵感文件夹 – 来自竞争对手的高表现广告。
- 产品文件夹 – 我们要销售的产品原始拍摄图。
-
将图像传递给 GPT‑4o – 图像以 Base64 形式发送到 OpenAI Chat Model 节点 (
gpt‑4o)。
-
灵感分析提示
Describe the visual style of this image... create a template of the style for inspirations. Ensure you do not make this product specific, rather focusing on creating outlines for static ad styles. -
产品分析提示
Identify the core emotions behind it and the main product. We will use this later to connect the product image with some ad styles.
结果: 两段文字——一段描述 “氛围”(风格),另一段描述 “主体”(产品/情感)。
阶段 2 – 从混沌到 JSON(结构化输出)
LLM 喜欢聊天,但我们需要一个干净的提示数组。
-
使用 Advanced AI 节点 – 将 LangChain Agent 连接到 Structured Output Parser,并提供严格的 JSON schema。

-
Schema 示例
[ { "Prompt": "Sun‑drenched poolside shot of the product on a marble ledge at golden hour, with soft shadows and warm tones. Aspect ratio 1:1." }, { "Prompt": "Cool lavender‑tinted sunset beach backdrop behind the product, highlighting reflective metallic accents. Aspect ratio 4:5." } ]
代理将 风格描述(来自灵感节点)和 产品描述(来自产品节点)合并为上述精确格式,生成一个可编程的提示数组——无需正则或字符串解析。
阶段 3 – 工厂线(执行循环)
-
拆分 JSON 数组 –
Split Out节点将每个提示分离。 -
通过原始 HTTP 生成图像 – 与其使用预构建的 DALL‑E 节点,不如使用 HTTP Request 节点直接调用 OpenAI 图像生成端点,以获得对参数的细粒度控制。
{ "model": "dall-e-3", "prompt": "={{ $json.Prompt }}", "size": "1024x1024", "quality": "standard", "n": 1 }
-
速率限制处理 –
Wait节点(图中未显示)在请求之间暂停几秒,以保持在 OpenAI 的每分钟令牌限制之内。
结果 — 自动化创意
工作流现在:
- 从 Google Drive 拉取灵感和产品图片。
- 使用 GPT‑4o Vision 提取风格“氛围”和产品“主题”。
- 将这些洞察转换为整洁的 JSON 数组,包含 10 条以上的图像提示。
- 遍历数组,调用 DALL‑E 3 API 生成广告创意。
- 将生成的 Base64 图像存回 Google Drive(或您偏好的任何位置)。
结论: 通过将传统上手工且充满猜测的过程转变为确定性的多模态流水线,您可以大规模产出高质量的广告概念——无需担心令人头疼的“提示阻塞”。
(原文后续深入探讨了后处理和 A/B 测试,但核心流水线到此结束。)
Source:
AI‑生成的 Facebook 广告图片(基于产品分析)
此 n8n 工作流读取参考广告图片和产品图片,使用 GPT‑4o 进行分析,创建 10 条全新广告创意,并通过 DALL‑E 3 生成相应图片,最后将结果保存到 Google Drive 中指定的 “Output” 文件夹。
工作原理
- 读取 参考图片(输入)。
- 读取 产品图片(输入)。
- 使用 GPT‑4o 对两张图片进行 分析。
- 通过 LangChain 合成 10 条新的广告提示。
- 使用 DALL‑E 3 生成 10 张新图片。
- 将图片 保存 到 Google Drive。
我构建此工作流是为了在不需要向设计师提交 50 次简报的情况下,测试 50 种不同的视觉钩子。结果相当连贯,因为它们基于对已有成功广告的视觉分析。
获取工作流
我已经清理了凭证,并将工作流打包成 JSON 文件,您可以直接导入到自己的 n8n 实例中。
注意:运行此工作流需要您自己的 OpenAI API 密钥(具备 GPT‑4o 访问权限)以及 Google Drive 凭证。
祝自动化愉快! 🤖