[Paper] InfSplign: 추론 단계에서 텍스트-이미지 확산 모델의 공간 정렬

발행: 1개월 전 (2025년 12월 20일 오전 02:52 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.17851v1

Overview

최근 텍스트‑투‑이미지 확산 모델은 사진처럼 사실적인 이미지를 생성할 수 있지만, 프롬프트가 정확한 공간 관계를 요구할 때(예: “개 왼쪽에 고양이”) 여전히 어려움을 겪습니다. InfSplign은 학습 없이, 추론 시 기술로 이 격차를 해소하며, 원본 모델 가중치를 변경하지 않고 확산 과정을 더 나은 객체 배치 방향으로 유도합니다.

주요 기여

플러그‑앤‑플레이 추론 모듈: 사전 학습된 모든 diffusion 백본(Stable Diffusion, DALL·E‑2 등)과 호환되며 추가 학습 데이터가 필요하지 않습니다.
복합 공간 손실: 다중 스케일 교차‑어텐션 신호를 결합하여 (1) 객체를 설명된 위치에 맞추고 (2) 샘플링 중 전체 객체 수의 균형을 유지합니다.
단계별 노이즈 조정: 손실은 각 디노이징 단계마다 적용되어 잠재 노이즈 궤적을 공간적으로 일관된 출력으로 미세하게 재구성합니다.
최첨단 결과: VISOR 및 T2I‑CompBench 벤치마크에서 기존 추론 시 트릭 및 파인튜닝된 베이스라인을 모두 능가합니다.
오픈소스 구현: GitHub에 완전 공개되어 즉시 실험할 수 있습니다.

방법론

교차‑어텐션 추출 – 확산 과정에서 디코더의 교차‑어텐션 맵(텍스트 토큰을 이미지 패치와 연결하는)을 여러 해상도 수준에서 수집합니다.
공간 손실 공식화 –
- 배치 손실: 토큰(예: “left”)에 대한 높은 어텐션이 해당 이미지 영역에 나타나도록 장려합니다.
- 존재 손실: 각 객체 토큰이 전체 이미지에 걸쳐 대략 동일한 총 어텐션을 받도록 하여 객체가 누락되거나 중복되는 것을 방지합니다.
노이즈 보정 – 각 디노이징 단계에서 현재 잠재 변수를 결합된 손실에 대해 그래디언트 하강함으로써 업데이트하고, 확산 궤적을 공간적으로 충실한 해답으로 “조정”합니다.
모델 재학습 없음 – 모든 연산이 추론 단계에서 이루어지므로 원본 확산 가중치는 그대로 유지되어 접근 방식이 가볍게(≈ 5 % 오버헤드) 적용 가능하고 범용적으로 사용할 수 있습니다.

결과 및 발견

벤치마크	메트릭 (높을수록 좋음)	이전 최고	InfSplign
VISOR (공간 정렬)	mIoU	0.42	0.58
T2I‑CompBench (구성 충실도)	CLIP‑Score	0.71	0.78
런타임 (이미지당)	초	1.0	1.05

공간 정렬은 가장 강력한 추론‑시간 기준선에 비해 절대 mIoU가 약 30 % 향상됩니다.
확산 가중치를 수정하는 미세 조정 방법조차도 InfSplign의 성능에 미치지 못하며, 이는 목표 잡음 조정의 힘을 강조합니다.
정성적 예시에서는 객체 순서가 크게 개선된 것을 보여줍니다(예: “고양이 왼쪽에 개”) 그리고 누락된 요소도 적습니다.

Practical Implications

Developers of generative UI tools can integrate InfSplign as a drop‑in module to give end‑users more reliable control over layout without retraining large models. → 생성 UI 도구 개발자는 InfSplign을 바로 사용할 수 있는 모듈로 통합하여 대규모 모델을 재학습하지 않고도 최종 사용자에게 레이아웃에 대한 보다 신뢰할 수 있는 제어를 제공할 수 있습니다.
Content pipelines (e.g., game asset generation, advertising) benefit from higher compositional accuracy, reducing manual post‑editing. → 콘텐츠 파이프라인(예: 게임 자산 생성, 광고)은 구성 정확도가 향상되어 수동 후편집을 줄일 수 있습니다.
Low‑resource environments (edge devices, inference‑as‑a‑service) can adopt InfSplign because it adds only a modest compute overhead and does not require storing extra fine‑tuned checkpoints. → 저자원 환경(엣지 디바이스, 인퍼런스‑as‑a‑service)에서는 InfSplign을 채택할 수 있는데, 이는 계산 오버헤드가 적고 추가 파인튜닝 체크포인트를 저장할 필요가 없기 때문입니다.
Prompt engineering becomes less brittle: developers can rely on spatial keywords (“above”, “next to”) with confidence that the model will respect them. → 프롬프트 엔지니어링이 덜 취약해집니다: 개발자는 모델이 이를 준수한다는 확신을 가지고 공간 키워드(“above”, “next to”)에 의존할 수 있습니다.

제한 사항 및 향후 작업

이 방법은 기본 확산 모델이 이미 합리적인 교차‑주의 맵을 학습하고 있다고 가정합니다; 매우 노이즈가 많거나 충분히 학습되지 않은 백본은 효과를 제한할 수 있습니다.
많은 겹치는 공간 제약이 있는 매우 복잡한 장면은 여전히 모호한 레이아웃을 생성할 수 있으며, 더 높은 차원의 관계를 처리하도록 손실을 스케일링하는 것은 아직 해결되지 않은 과제입니다.
향후 연구에서는 확산 단계별 적응형 손실 가중치를 탐색하거나 시맨틱 세그멘테이션 단서를 도입하여 공간 충실도를 더욱 강화할 수 있습니다.

InfSplign은 추론 시점에 스마트하고 가벼운 조정만으로도 텍스트‑투‑이미지 생성에서 오랜 기간 존재해 온 격차를 메울 수 있음을 보여주며, 보다 제어 가능하고 프로덕션‑레디 생성 파이프라인의 문을 열어줍니다.

저자

Sarah Rastegar
Violeta Chatalbasheva
Sieger Falkena
Anuj Singh
Yanbo Wang
Tejas Gokhale
Hamid Palangi
Hadi Jamali‑Rad

논문 정보

arXiv ID: 2512.17851v1
분류: cs.CV, cs.AI
출판일: 2025년 12월 19일
PDF: PDF 다운로드

[Paper] InfSplign: 추론 단계에서 텍스트-이미지 확산 모델의 공간 정렬

Overview

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Re-Depth Anything: 테스트 시 자기지도 재조명을 통한 깊이 정제

[Paper] Open Foundation Models에서 Vision의 적대적 견고성

[Paper] RadarGen: 카메라에서 자동차 레이더 포인트 클라우드 생성

[Paper] Visually Prompted 벤치마크는 놀라울 정도로 취약하다