[Paper] InfSplign: 추론 단계에서 텍스트-이미지 확산 모델의 공간 정렬
발행: (2025년 12월 20일 오전 02:52 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2512.17851v1
Overview
최근 텍스트‑투‑이미지 확산 모델은 사진처럼 사실적인 이미지를 생성할 수 있지만, 프롬프트가 정확한 공간 관계를 요구할 때(예: “개 왼쪽에 고양이”) 여전히 어려움을 겪습니다. InfSplign은 학습 없이, 추론 시 기술로 이 격차를 해소하며, 원본 모델 가중치를 변경하지 않고 확산 과정을 더 나은 객체 배치 방향으로 유도합니다.
주요 기여
- 플러그‑앤‑플레이 추론 모듈: 사전 학습된 모든 diffusion 백본(Stable Diffusion, DALL·E‑2 등)과 호환되며 추가 학습 데이터가 필요하지 않습니다.
- 복합 공간 손실: 다중 스케일 교차‑어텐션 신호를 결합하여 (1) 객체를 설명된 위치에 맞추고 (2) 샘플링 중 전체 객체 수의 균형을 유지합니다.
- 단계별 노이즈 조정: 손실은 각 디노이징 단계마다 적용되어 잠재 노이즈 궤적을 공간적으로 일관된 출력으로 미세하게 재구성합니다.
- 최첨단 결과: VISOR 및 T2I‑CompBench 벤치마크에서 기존 추론 시 트릭 및 파인튜닝된 베이스라인을 모두 능가합니다.
- 오픈소스 구현: GitHub에 완전 공개되어 즉시 실험할 수 있습니다.
방법론
- 교차‑어텐션 추출 – 확산 과정에서 디코더의 교차‑어텐션 맵(텍스트 토큰을 이미지 패치와 연결하는)을 여러 해상도 수준에서 수집합니다.
- 공간 손실 공식화 –
- 배치 손실: 토큰(예: “left”)에 대한 높은 어텐션이 해당 이미지 영역에 나타나도록 장려합니다.
- 존재 손실: 각 객체 토큰이 전체 이미지에 걸쳐 대략 동일한 총 어텐션을 받도록 하여 객체가 누락되거나 중복되는 것을 방지합니다.
- 노이즈 보정 – 각 디노이징 단계에서 현재 잠재 변수를 결합된 손실에 대해 그래디언트 하강함으로써 업데이트하고, 확산 궤적을 공간적으로 충실한 해답으로 “조정”합니다.
- 모델 재학습 없음 – 모든 연산이 추론 단계에서 이루어지므로 원본 확산 가중치는 그대로 유지되어 접근 방식이 가볍게(≈ 5 % 오버헤드) 적용 가능하고 범용적으로 사용할 수 있습니다.
결과 및 발견
| 벤치마크 | 메트릭 (높을수록 좋음) | 이전 최고 | InfSplign |
|---|---|---|---|
| VISOR (공간 정렬) | mIoU | 0.42 | 0.58 |
| T2I‑CompBench (구성 충실도) | CLIP‑Score | 0.71 | 0.78 |
| 런타임 (이미지당) | 초 | 1.0 | 1.05 |
- 공간 정렬은 가장 강력한 추론‑시간 기준선에 비해 절대 mIoU가 약 30 % 향상됩니다.
- 확산 가중치를 수정하는 미세 조정 방법조차도 InfSplign의 성능에 미치지 못하며, 이는 목표 잡음 조정의 힘을 강조합니다.
- 정성적 예시에서는 객체 순서가 크게 개선된 것을 보여줍니다(예: “고양이 왼쪽에 개”) 그리고 누락된 요소도 적습니다.
Practical Implications
- Developers of generative UI tools can integrate InfSplign as a drop‑in module to give end‑users more reliable control over layout without retraining large models. → 생성 UI 도구 개발자는 InfSplign을 바로 사용할 수 있는 모듈로 통합하여 대규모 모델을 재학습하지 않고도 최종 사용자에게 레이아웃에 대한 보다 신뢰할 수 있는 제어를 제공할 수 있습니다.
- Content pipelines (e.g., game asset generation, advertising) benefit from higher compositional accuracy, reducing manual post‑editing. → 콘텐츠 파이프라인(예: 게임 자산 생성, 광고)은 구성 정확도가 향상되어 수동 후편집을 줄일 수 있습니다.
- Low‑resource environments (edge devices, inference‑as‑a‑service) can adopt InfSplign because it adds only a modest compute overhead and does not require storing extra fine‑tuned checkpoints. → 저자원 환경(엣지 디바이스, 인퍼런스‑as‑a‑service)에서는 InfSplign을 채택할 수 있는데, 이는 계산 오버헤드가 적고 추가 파인튜닝 체크포인트를 저장할 필요가 없기 때문입니다.
- Prompt engineering becomes less brittle: developers can rely on spatial keywords (“above”, “next to”) with confidence that the model will respect them. → 프롬프트 엔지니어링이 덜 취약해집니다: 개발자는 모델이 이를 준수한다는 확신을 가지고 공간 키워드(“above”, “next to”)에 의존할 수 있습니다.
제한 사항 및 향후 작업
- 이 방법은 기본 확산 모델이 이미 합리적인 교차‑주의 맵을 학습하고 있다고 가정합니다; 매우 노이즈가 많거나 충분히 학습되지 않은 백본은 효과를 제한할 수 있습니다.
- 많은 겹치는 공간 제약이 있는 매우 복잡한 장면은 여전히 모호한 레이아웃을 생성할 수 있으며, 더 높은 차원의 관계를 처리하도록 손실을 스케일링하는 것은 아직 해결되지 않은 과제입니다.
- 향후 연구에서는 확산 단계별 적응형 손실 가중치를 탐색하거나 시맨틱 세그멘테이션 단서를 도입하여 공간 충실도를 더욱 강화할 수 있습니다.
InfSplign은 추론 시점에 스마트하고 가벼운 조정만으로도 텍스트‑투‑이미지 생성에서 오랜 기간 존재해 온 격차를 메울 수 있음을 보여주며, 보다 제어 가능하고 프로덕션‑레디 생성 파이프라인의 문을 열어줍니다.
저자
- Sarah Rastegar
- Violeta Chatalbasheva
- Sieger Falkena
- Anuj Singh
- Yanbo Wang
- Tejas Gokhale
- Hamid Palangi
- Hadi Jamali‑Rad
논문 정보
- arXiv ID: 2512.17851v1
- 분류: cs.CV, cs.AI
- 출판일: 2025년 12월 19일
- PDF: PDF 다운로드