AI 모델은 창의적인 프로젝트를 엔드 투 엔드로 수행할 수 없습니다. HCB가 방금 증명했습니다.

발행: (2026년 5월 1일 PM 03:52 GMT+9)
11 분 소요
원문: Dev.to

Source: Dev.to

Subtitle: Contra Labs는 5개의 창의적 분야에서 93개의 프롬프트를 통해 15개의 AI 모델을 테스트했습니다. 전문 크리에이티브가 결과물을 평가했습니다. 결과: 모델마다 다른 단계에서 강점을 보이며, 하나의 도구만으로 개념부터 최종 결과까지 프로젝트를 진행할 수 없습니다.

Excerpt: 93개의 프롬프트, 80개의 평가 세션, 약 15,000개의 전문 크리에이티브 판단. Human Creativity Benchmark (HCB)는 어떤 도메인에서도 모든 세 창의 단계에서 우위를 점하는 모델이 없음을 밝혀냈습니다. 이 데이터는 단일 모델 워크플로우를 무효화합니다.

Takeaway: 시작할 때 선택한 모델이 끝날 때의 모델이 되어서는 안 됩니다. 다중 모델 파이프라인은 파워 유저용 트릭이 아니라, 데이터가 지지하는 유일한 워크플로우입니다.

Category: Building
Read time: 5 MIN READ

SEO primary: ai creative model comparison hcb
SEO secondary: best ai models for creative workflow phases

Overview

Contra Labs의 Human Creativity Benchmark는 지금까지 진행된 가장 큰 구조화된 창의‑AI 테스트입니다.

  • 프롬프트: 93개
  • 창의 분야: 랜딩 페이지, 제품 비디오, 광고 이미지, 브랜드 디자인, 데스크톱 앱
  • 각 분야의 단계: 아이디에이션 → 목업 → 리파인먼트
  • 평가 세션: 80회 (≈ 15,000개의 전문가 판단)

핵심 결과는 사람들이 창의 AI 도구에 대해 가지고 있는 대부분의 가정을 무너뜨립니다:

어떤 모델도 세 단계 모두를 한 분야에서 선도하지 못했습니다.
Claude Opus 4.6도, Gemini 3.1 Pro Preview도, GPT도, Veo 3.1도 아닙니다.
모든 모델은 한두 단계에서는 우수하지만 나머지 단계에서는 뒤처집니다.
이 패턴은 다섯 분야 모두에서 일관되게 나타나, 모델 간 비교라기보다 창의 작업 자체에 대한 구조적 진실에 가깝습니다.

도메인별 결과

1. 랜딩 페이지

단계우승 모델승률주목할 만한 지표
아이디에이션Claude Opus 4.6디자이너들은 “누군가가 생각한 것 같은 느낌”이라고 말했습니다.
목업Gemini 3.1 Pro Preview68.9 %모든 도메인 중 가장 높은 사용성 스칼라: 4.03 / 5
리파인먼트Claude Opus 4.660.0 %

평가자들은 작업이 바뀌면서 실제로 생각을 바꾸었습니다. 어느 모델이 더 좋은가가 아니라, 어느 모델이 해당 단계에 맞는가가 중요했습니다.

2. 제품 비디오

단계우승 모델승률
아이디에이션Veo 3.161.1 %
목업Kling 3.0 Pro51.4 %–61.1 % (모든 단계에서 경쟁력)
리파인먼트Grok Imagine Video56.5 %

핵심 관찰: Veo 3.1은 작업이 더 제한될수록 오히려 성능이 떨어지는 유일한 모델입니다. 창의적 자유가 있을 때는 뛰어나지만, 제약이 추가되면 원치 않는 변화를 일으킵니다. 다른 모델들은 제약 하에서도 평탄하거나 오히려 개선됩니다.

3. 광고 이미지

단계우승 모델
아이디에이션GPT Image 1.5
목업GPT Image 1.5 (선두 유지)
리파인먼트Seedream 4.5 (3위에서 1위로 상승)
전체 2위 (리파인먼트)Flux 2 Pro (마지막에서 2위로 도약)

초기 리더가 뒤처지고, 후기 단계 전문가가 등장합니다.

4. 브랜드 디자인

단계우승 모델
아이디에이션GPT Image 1.5
목업Gemini 3 Pro Image (구성, 조명, 제품 정확도)
리파인먼트Seedream 4.5 & Flux 2 Pro (Gemini는 몰락)

5. 데스크톱 앱

단계우승 모델
아이디에이션Claude Opus 4.6
목업Gemini 3.1 Pro Preview (프롬프트 준수 및 사용성)
리파인먼트Claude Opus 4.6 & GPT 5.3 Codex (세부 실행)

패턴이 존재하는 이유

단계보상 내용전형적인 모델 강점
아이디에이션개념 생성, 발산적 사고창의적 자유에 뛰어난 모델 (예: Claude Opus 4.6, Veo 3.1)
목업프롬프트 준수, 디자인‑시스템 충실도제약을 잘 따르는 모델 (예: Gemini 3.1 Pro Preview)
정제정밀 편집, 점진적 개선세부를 다듬는 모델 (예: Claude Opus 4.6, GPT 5.3 Codex)

다양한 기술 → 서로 다른 모델 강점 → 하나의 모델이 세 단계를 모두 장악할 수 없음.

강조할 만한 두 가지 추가 발견

1. 수렴 vs. 발산 프레임워크

  • 수렴 – 평가자들이 동의 → 최선의 실천, 객관적 품질을 신호함.
  • 발산 – 평가자들이 의견 차이 → 취향, 선호를 신호함 (“정답” 없음).
도메인Kendall’s W (아이디어 → 목업 → 정제)
랜딩 페이지0.484 → 0.293 → 0.333
광고 이미지0.345 → 0.436 → 0.549

해석:

  • 랜딩 페이지 합의는 작업이 진행될수록 감소합니다 (초기 합의가 개인 취향으로 약화됨).
  • 광고 이미지 합의는 기준이 좁아짐에 따라 증가합니다 (사람들이 “좋음”의 기준에 수렴함).

2. 제품‑비디오 시간적 일관성

장면 일관성은 모든 모델에서 순전히 부정적입니다.
비디오 생성에서 시간적 일관성은 카테고리 한계이며, 모델 한계는 아닙니다.

주목할 만한 통계

  • **84 %**의 광고 이미지가 Usability = 5 점수를 받으면 상위 2에 진입합니다.
  • Usability = 1은 **10 %**만이 상위 2에 진입합니다.

Usability는 단순한 예측 변수가 아니라 성능 자체입니다.

Practical Recommendations

실제로 이 도구들을 사용한다면, 단계별 모델 맵을 따르세요.

Creative DomainIdeation ModelMockup ModelRefinement Model
랜딩 페이지Claude Opus 4.6Gemini 3.1 Pro PreviewClaude Opus 4.6
제품 비디오Veo 3.1Kling 3.0 ProGrok Imagine Video
광고 이미지GPT Image 1.5GPT Image 1.5Seedream 4.5
브랜드 디자인GPT Image 1.5Gemini 3 Pro ImageSeedream 4.5 / Flux 2 Pro
데스크톱 앱Claude Opus 4.6Gemini 3.1 Pro PreviewClaude Opus 4.6 / GPT 5.3 Codex

Bottom line:
프로젝트당 하나의 모델만 사용하는 것은 잘못된 접근 방식입니다. 모델 전환은 파워 유저를 위한 최적화가 아니라, 데이터가 모든 단계에서 지원하는 유일한 워크플로우입니다.

왜 나는 Scopeful을 만들고 있는가

수십 개의 크리에이티브‑AI 도구가 있으며, 각각은 고유한 가격 정책, 고유한 모델 라인업, 그리고 가장 중요한 창작 과정의 다양한 단계에서의 강점을 가지고 있습니다.

  • 어떤 단계에 어떤 도구를 사용할지를 간단히 파악할 수 있는 방법을 만든 사람은 없습니다.
  • 가격 비교 사이트는 존재하지만, 단계별 품질 비교는 없습니다.

HCB 데이터는 제가 말할 수 있는 것보다 더 명확하게 사례를 보여줍니다: 단일 모델 시대는 이미 끝났습니다. 질문은 어떤 도구가 최고인가가 아니라 어떤 도구가 각 단계에 맞는가 입니다.

대기자 명단에 참여하기

Scopeful 대기자 명단은 scopeful.org 에서 열려 있습니다.

저는 또한 igorgridel.com 에서 도구 비교, 크리에이티브‑AI 전략, 그리고 최신 벤치마크 데이터를 다룹니다.

핵심 요약

HCB 결과는 학문적인 것이 아니라 실무적인 것입니다. 시작할 때 선택한 모델이 최종에 사용되는 모델이 되어서는 안 됩니다. 데이터는 이미 확보되었으며, 워크플로우는 변해야 합니다.

0 조회
Back to Blog

관련 글

더 보기 »

언어를 통한 이해 향상

그녀가 어렸을 때, MIT 4학년인 Olivia Honeycutt는 버밍햄 외곽 알라바마 시골에 있는 조부모님의 농장에서 여름을 보냈다. 실용적이고 문화적인…