AI 크리에이티브 디렉터를 만들었습니다: GPT‑4o Vision과 구조화된 출력으로 FB 광고 생성 자동화
I’m ready to translate the article for you, but I don’t have the full text of the post. Please paste the content you’d like translated (excluding the source line you already provided), and I’ll convert it into Korean while preserving the original formatting, markdown, and technical terms.
아키텍처: 눈, 뇌, 그리고 손
이것은 단순한 “텍스트‑투‑이미지” 흐름이 아닙니다. “이미지‑투‑텍스트‑투‑이미지” (멀티모달) 파이프라인으로, 세 개의 뚜렷한 단계로 구성됩니다:
| 단계 | 역할 | 설명 |
|---|---|---|
| Eye | 입력 분석 | GPT‑4o Vision이 레퍼런스(영감) 이미지와 제품 이미지를 분석합니다. |
| Brain | 구조화된 논리 | LangChain 에이전트가 이러한 입력을 엄격한 JSON 형식으로 합성합니다. |
| Hand | 실행 | 루프가 각 컨셉에 대해 OpenAI 이미지 생성 API를 호출합니다. |
단계 1 – “Vision” 분석 (역공학)
-
이미지 가져오기 – 두 개의 병렬 Google Drive 노드가 파일을 가져옵니다:
- Inspiration Folder – 경쟁사의 고성과 광고.
- Product Folder – 우리가 판매할 제품의 원본 사진.
-
이미지를 GPT‑4o에 전달 – 이미지는 OpenAI Chat Model 노드(
gpt‑4o)에 Base64 형태로 전송됩니다.
-
영감 분석 프롬프트
Describe the visual style of this image... create a template of the style for inspirations. Ensure you do not make this product specific, rather focusing on creating outlines for static ad styles. -
제품 분석 프롬프트
Identify the core emotions behind it and the main product. We will use this later to connect the product image with some ad styles.
결과: 두 개의 텍스트 청크 – 하나는 **“Vibe”(스타일)**을, 다른 하나는 **“Subject”(제품/감정)**을 설명합니다.
단계 2 – 혼돈을 JSON으로 (구조화된 출력)
LLM은 대화를 좋아하지만, 우리는 깔끔한 프롬프트 배열이 필요합니다.
-
Advanced AI 노드 사용 – LangChain Agent를 Structured Output Parser에 연결하고 엄격한 JSON 스키마를 제공합니다.

-
스키마 예시
[ { "Prompt": "Sun‑drenched poolside shot of the product on a marble ledge at golden hour, with soft shadows and warm tones. Aspect ratio 1:1." }, { "Prompt": "Cool lavender‑tinted sunset beach backdrop behind the product, highlighting reflective metallic accents. Aspect ratio 4:5." } ]
에이전트는 스타일 설명(영감 노드)과 제품 설명(제품 노드)을 이 정확한 형식으로 병합하여, 정규식이나 문자열 파싱 없이도 프로그램적으로 사용할 수 있는 프롬프트 배열을 생성합니다.
단계 3 – 공장 라인 (실행 루프)
-
JSON 배열 분할 –
Split Out노드가 각 프롬프트를 별도로 분리합니다. -
Raw HTTP으로 이미지 생성 – 미리 만든 DALL‑E 노드 대신 HTTP Request 노드가 OpenAI 이미지 생성 엔드포인트를 직접 호출하여 파라미터를 세밀하게 제어합니다.
{ "model": "dall-e-3", "prompt": "={{ $json.Prompt }}", "size": "1024x1024", "quality": "standard", "n": 1 }
-
속도 제한 처리 –
Wait노드(다이어그램에 표시되지 않음)가 요청 사이에 몇 초씩 대기하여 OpenAI의 분당 토큰 제한을 준수합니다.
The Result – Automated Creativity
워크플로우는 이제:
- Google Drive에서 영감과 제품 이미지를 가져옵니다.
- GPT‑4o Vision을 사용해 스타일 “vibes”와 제품 “subjects”를 추출합니다.
- 이러한 인사이트를 10개 이상의 이미지 프롬프트를 담은 깔끔한 JSON 배열로 변환합니다.
- 배열을 순회하면서 DALL‑E 3 API를 호출해 광고 크리에이티브를 생성합니다.
- 생성된 Base64 이미지를 Google Drive(또는 원하는 다른 목적지)에 다시 저장합니다.
Bottom line: 전통적으로 수동적이고 추측에 의존하던 과정을 결정론적이고 다중모달 파이프라인으로 전환함으로써, “프롬프트 블록”이라는 두려움 없이도 대규모로 고품질 광고 콘셉트를 생산할 수 있습니다.
(원문 기사에서는 후처리와 A/B 테스트에 대한 심층 분석이 이어졌지만, 핵심 파이프라인은 여기서 마무리됩니다.)
제품 분석을 통한 AI‑생성 페이스북 광고 이미지
이 n8n 워크플로우는 레퍼런스 광고 이미지와 제품 이미지를 받아 GPT‑4o 로 분석하고, 10개의 새로운 광고 컨셉을 만든 뒤 DALL‑E 3 로 해당 이미지를 생성하여 Google Drive의 지정된 “Output” 폴더에 저장합니다.
작동 방식
- 레퍼런스 이미지(입력)를 읽기.
- 제품 이미지(입력)를 읽기.
- 두 이미지를 GPT‑4o 로 분석.
- LangChain 을 사용해 10개의 새로운 광고 프롬프트 합성.
- DALL‑E 3 로 10개의 새로운 이미지 생성.
- 이미지를 Google Drive에 저장.
디자이너에게 50번을 브리핑하지 않아도 캠페인에 대한 50가지 시각적 훅을 테스트하기 위해 만들었습니다. 이미 이미 효과가 입증된 광고들의 시각적 분석을 기반으로 하기 때문에 결과가 놀라울 정도로 일관됩니다.
워크플로우 받기
자격 증명을 정리하고 워크플로우를 JSON 파일로 패키징했습니다. 이를 n8n 인스턴스로 직접 가져올 수 있습니다.
참고: 실행하려면 자체 OpenAI API 키(GPT‑4o 접근 권한 포함)와 Google Drive 자격 증명이 필요합니다.
자동화 즐기세요! 🤖