HiDream, 원시 출력 실패… Dev‑2604 시도, VRAM 연산 문제로 좌절, 대신 프롬프트 강화기로 성공

발행: 2주 전 (2026년 5월 23일 PM 04:18 GMT+9)

10 분 소요

Source: Dev.to

요약

HiDream-O1-Image 8B Full 모델은 순수 일본어 프롬프트에서 완전한 원시 출력이 붕괴됩니다 — 지시를 따르는 능력과 미학이 동시에 실패합니다.
Dev-2604(선호도 튜닝, 3.5배 빠른)로 교체를 시도했지만, 미학적으로는 약간 개선됐을 뿐 사용 사례에서는 차이가 작고, 96GB GPU가 두 모델을 동시에 구동할 수 없었습니다.
모델 교체를 완전히 포기하고 Full 모델에 Gemini Flash Lite 프롬프트 강화기를 결합해 미적 polish를 추가했습니다.
그 과정에서 네 가지 눈에 띄지 않는 HiDream 함정을 발견했습니다(브랜드명이 문자 그대로 렌더링, “귀여운”이 아동형 신체 편향을 유발, “왕가위”가 한국어 캡션을 환각, “아이돌급”이 캡션 텍스트를 자동 생성) — 모두 강화기의 시스템 프롬프트에 내장돼 있습니다.
같은 순수 일본어 프롬프트가 이제 한 번의 클릭으로 사용 가능한 포토리얼리즘 또는 애니메이션 변형을 생성합니다. 모델 교체도, 추가 VRAM도, 추가 지연도 없습니다.

Kotonia Studio는 로컬 GPU(RTX PRO 6000 Blackwell Max‑Q, 96GB)에서 HiDream-O1-Image 8B Full을 실행하며 무료 T2I 서비스를 제공합니다. 보통 출력은 깔끔합니다. 그런데 어느 날, 순수 일본어 프롬프트 — “치파오를 입고 부채를 들고 웃는 귀여운 여성” — 에 대해 다음과 같은 결과가 나왔습니다:

무엇이 잘못됐나요?

치파오 대신 기모노가 나왔습니다. 중국 복장이 일본식으로 변했습니다.
얼굴이 예쁘지 않았습니다. 우리는 아이돌급 미모를 원했습니다.
구도가 교토식 정원의 전신 전신으로 일반적이었습니다. 우리는 부채 질감이 보이는 클로즈업을 원했습니다.

HiDream-O1은 최상위 OpenWeight 모델이며, 신중한 영어 프롬프트는 잡지 수준의 2048×2048 출력을 만들어냅니다. 따라서 “모델이 나쁘다”는 문제가 아니라 사용자 입력과 OpenWeight 모델 기대 사이의 격차입니다. Frontier 모델(Gemini Imagen / DALL‑E / Midjourney)은 자연어 뉘앙스를 내부에서 흡수하지만, OpenWeight 모델은 프롬프트를 그대로 던지길 기대합니다.

원시 출력 UX를 포기하거나, 무언가 조치를 취해야 합니다.

그때 저는 2026년 5월에 출시된 새로운 변형인 HiDream-O1-Image‑Dev‑2604를 발견했습니다. 인공 분석 T2I 아레나에서 #8에 올랐으며, 28 스텝에서 CFG 없이 3.5배 빠르게 실행됩니다.

아레나는 인간 미적 선호도를 기준으로 모델을 순위 매깁니다. 따라서 Dev는 “보기에 좋은” 방향으로 선호도 튜닝된 것입니다.

가설

Dev는 모호한 일본어 프롬프트에서도 잡지 수준의 출력을 반환한다.
3.5배 속도 향상으로 /studio가 더 쾌적해진다.

최선의 경우: Full을 폐기하고 Dev만 운영한다.

1단계 벤치마크: 5개의 일반 시네마틱 프롬프트(도쿄 이자카야, 방콕 야시장, 애니메이션 캐릭터, 텍스트‑인‑이미지, 초상) 비교

모드	Full (초)	Dev‑2604 (초)	속도 향상
T2I (평균)	33.1	9.5	3.5×
Edit (평균)	79.0	22.2	3.6×
IP	84.3	23.8	3.5×

일반 프롬프트에서는 Dev가 더 빠르고 인상적으로 좋았습니다. “OK, Dev가 답이다” — 여기서 1단계가 끝날 무렵 저는 거의 결론을 내릴 뻔했습니다.

하지만 Kotonia의 실제 전략은 “아이돌급 미모를 활용한 코미디 스타일 짧은 영상”이었습니다. 일반 시네마틱에서 Dev가 이긴다고 해서 캐릭터 중심 코미디와 표현 구체성에서 이긴다는 보장은 없습니다.

2단계: Grok이 만든 레퍼런스 이미지에서 영감을 얻은 8개의 새로운 프롬프트 구축

(시네마틱 편집 아시아 뷰티 / 애니 치파오 / 시네마틱 한복 / 코스프레 메이드 등) — 세로 1440×2560(9:16) 구도, 재벤치.

몇몇 Grok 레퍼런스 이미지(우리가 맞추고 싶었던 polish 수준):

편집 초상
시네마틱 한복

벤치 결과는 Full이 지시 따르기에서 승리했음을 보여줍니다:

편집 초상: 동점; Dev가 미학적으로 약간 더 좋을 수 있음.
애니 치파오: Full의 셀‑쉐이딩이 확실히 승리. Dev는 반실사로 흐트러지고 “애니” 지시를 무시함.
한복 금박: Dev가 파라솔에 문자 “SAVE”를 환각(텍스트 아티팩트)함.
코미디 놀란 얼굴: Full이 더 만화같고 과장된 표정 + 읽을 수 있는 캡션 텍스트를 생성.
코미디 무표정: Full이 “진짜?” 무표정을 깔끔한 아이라이너와 함께 정확히 구현.

Dev‑2604는 지시 따르기를 포기하고 미학적 polish에 집중했습니다. 잡지 스타일 패션 사진에 선호도 튜닝돼 있기 때문에 비잡지 용도에서는 “잡지처럼 보이는” 출력을 내보내며 프롬프트 의도와 충돌합니다.

동점으로 표시한 카테고리 — 동일 초상 프롬프트, Full vs Dev 나란히 비교

Full (좁게 크롭, 드라마틱)
Dev‑2604 (넓게, 잡지‑폴리시)

Full은 고대비·무드(창가 레머브란트 라이트, 어두운 도서관 배경)이고, Dev는 부드럽고 편집‑스타일(반신 앉은 자세, 자연광, 부드러운 피부 보정)입니다. 두 출력 모두 사용 가능하지만 Dev가 약간 부드럽습니다. 차이가 충분히 크지 않아 모델 교체(VRAM, 로드 시간, 아키텍처 복잡도)의 비용을 정당화하지 못합니다. 이것이 2단계가 내린 결론입니다.

일반 T2I만으로는 Dev가 여전히 유효했을 수 있지만, Edit와 IP(캐릭터 일관성)에서의 격차가 뚜렷했으며, 이것이 모델 교체 아이디어를 최종적으로 무너뜨렸습니다.

편집 테스트

원본: 어두운 골목에 등불을 든 세 사람.
Edit 지시: “같은 장면, 같은 인물, 같은 구도. 날씨를 폭우가 내리는 저녁으로 바꾸고, 인물에게 투명 레인포치를 입히라.”

Full: 장면 유지, 날씨 변경 성공.
Dev‑2604: 원본 장면을 완전히 버리고 눈 내리는 사원 입구에 기모노를 입은 한 여성만 생성. 텍스트 지시도 구조적 디테일도 무시. 이는 “편집 충실도 약함”을 넘어 “편집이 작동하지 않음” 수준.

IP(캐릭터 일관성) 테스트

두 얼굴 사진을 제공하고 “같은 두 사람이 교토 가을 길에 서 있다” 요청.

Full: 대부분의 정체성 보존.
Dev‑2604: 전혀 다른 두 사람 생성. 선호도 튜닝이 “예쁜 얼굴 만들기”를 “레퍼런스 정체성 보존”보다 우

HiDream, 원시 출력 실패… Dev‑2604 시도, VRAM 연산 문제로 좌절, 대신 프롬프트 강화기로 성공

1단계 벤치마크: 5개의 일반 시네마틱 프롬프트(도쿄 이자카야, 방콕 야시장, 애니메이션 캐릭터, 텍스트‑인‑이미지, 초상) 비교

2단계: Grok이 만든 레퍼런스 이미지에서 영감을 얻은 8개의 새로운 프롬프트 구축

동점으로 표시한 카테고리 — 동일 초상 프롬프트, Full vs Dev 나란히 비교

편집 테스트

IP(캐릭터 일관성) 테스트

관련 글

내 스킬

PREDICTION-20260525-0007: 비대칭 레버리지를 이용한 지루함 [2026-Q3 through 2027-Q3]

서버 없이 100개의 브라우저 기반 이미지 도구를 만든 방법 (FFmpeg WASM, PDF-lib, AI Background Removal)

Nginx CVE-2026-9256, AI 프롬프트 인젝션 방어, 그리고 Claude AI 데이터 유출 데모