[Paper] 다양체 위에서 학습하기: 표준 Diffusion Transformers를 Representation Encoders로 잠금 해제

발행: 2일 전 (2026년 2월 11일 오전 03:58 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.10099v1

개요

The paper “Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders” shows why conventional diffusion‑transformer models stumble when they try to generate data directly from high‑level representation encoders (e.g., CLIP, DINO). The authors reveal that the problem is not a lack of model capacity but a geometric mismatch between the Euclidean diffusion dynamics and the hyperspherical manifold on which encoder features live. By redesigning the diffusion process to respect the underlying Riemannian geometry, they enable a standard 131 M‑parameter Diffusion Transformer (DiT‑B) to train successfully and reach state‑of‑the‑art image synthesis quality.

주요 기여

기하학적 간섭 식별: 유클리드 흐름 매칭이 인코더의 초구형 특징 공간 내부의 저밀도 영역을 통해 확률 질량을 강제로 이동시켜 학습 붕괴를 초래함을 보여줍니다.
리만 흐름 매칭 및 Jacobi 정규화 (RJF): 특징 매니폴드 상의 측지선을 따라가는 확산 공식화를 도입하고, 곡률에 의해 유발되는 오류 전파를 보정합니다.
폭 확대 불필요: 기존에 필요하다고 여겨졌던 비용이 많이 드는 폭 확대 기법 없이도 표준 DiT‑B 아키텍처(131 M 파라미터)가 수렴함을 입증합니다.
실증적 검증: 이전의 확산‑트랜스포머 접근법이 발산하던 ImageNet‑256에서 FID 3.37을 달성했습니다.
오픈소스 공개: 재현성과 후속 연구를 위해 깔끔한 PyTorch 구현(https://github.com/amandpkr/RJF)을 제공합니다.

방법론

문제 설정 – 저자들은 이미지들을 고차원 초구(예: 정규화된 CLIP 임베딩)의 점으로 매핑하는 표현 인코더에서 시작한다. 전통적인 확산 모델은 주변 공간에서 노이즈와 데이터 사이를 보간하는 유클리드 확률 미분 방정식(SDE)을 정의한다.
지오메트릭 분석 – 인코더 특징의 밀도를 시각화함으로써, 대부분의 질량이 구의 표면에 존재하고, 유클리드 확산 경로는 실제 데이터가 존재하지 않는 구 내부에서 대부분의 시간을 보낸다는 것을 관찰한다. 이러한 “기하학적 간섭”은 약한 그래디언트 신호와 학습 실패를 초래한다.
리만 흐름 매칭 – 유클리드 SDE 대신에, 저자들은 매니폴드 위에 리만 흐름을 공식화한다:
- 확산 경로는 구 위의 측지선(구의 최단 경로)을 따른다.
- 속도 필드는 리만 최적 수송을 통해 정의되어, 학습 내내 확률 질량이 매니폴드 위에 머물도록 보장한다.
Jacobi 정규화 – 곡률은 측지선을 따라 적분할 때 작은 오류를 증폭시킬 수 있다. 저자들은 미분기하학에서 Jacobi 방정식을 차용하여 학습된 벡터 필드를 정규화하고, 곡률에 의해 유발되는 드리프트에 대해 흐름을 안정화한다.
학습 파이프라인 – RJF 손실은 기본 Diffusion Transformer(DiT‑B)에서 표준 흐름 매칭 손실을 대체한다. 아키텍처 변경, 추가 레이어, 혹은 폭 스케일링이 필요하지 않다.

Results & Findings

Model (Params)	Training Setup	FID (ImageNet‑256)	Remarks
DiT‑B (131 M) + Euclidean Flow	Standard	Did not converge	기하학적 간섭으로 인한 붕괴
DiT‑B (131 M) + RJF (proposed)	Same hyper‑params	3.37	기존 폭‑확장 기준을 동일하거나 능가
DiT‑L (large, 300 M) + Euclidean Flow (baseline)	Wider model	~3.5	비슷한 품질을 얻기 위해 파라미터가 2배 이상 필요

Key takeaways

기하학적 정렬이 주요 병목이며, 단순한 용량이 아니라는 점이 핵심이다.
RJF는 동일한 모델 크기로 안정적인 학습을 복구하여, 폭‑확장 대안에 비해 연산량과 메모리를 대략 절반 수준으로 줄인다.
정성적 샘플에서는 텍스처가 더 선명하고 아티팩트가 감소했으며, 특히 인코더의 매니폴드 곡률이 높은 영역에서 그 차이가 두드러진다.

Practical Implications

Cost‑Effective High‑Fidelity Generation: 비용 효율적인 고품질 생성: 개발자들은 이제 모델 크기를 키우지 않고도 일반 GPU에서 diffusion‑transformer 파이프라인을 배포할 수 있어 대규모 이미지 합성이 더 저렴해집니다.
Plug‑and‑Play with Existing Encoders: 기존 인코더와 플러그‑앤‑플레이: RJF는 모든 정규화된 표현 인코더(CLP, DINO, SimCLR)와 함께 작동하여 인코더를 재학습하지 않고도 의미 임베딩으로부터 조건부 생성을 가능하게 합니다.
Better Integration in Multi‑Modal Systems: 멀티모달 시스템에서의 향상된 통합: 생성 과정이 인코더의 기하학을 존중하기 때문에 동일한 임베딩에 의존하는 다운스트림 작업(예: 텍스트‑투‑이미지, 스타일 전송)이 더 일관되게 됩니다.
Reduced Training Instability: 학습 불안정성 감소: 팀은 폭을 확장하거나 임시 방편을 추가하는 시행착오를 피할 수 있으며, RJF 손실은 표준 diffusion 손실을 바로 대체할 수 있습니다.
Potential for Other Manifolds: 다른 매니폴드에 대한 가능성: 동일한 리만 흐름‑매칭 아이디어를 그래프 임베딩, 쌍곡선 공간, 혹은 알려진 기하학을 가진 모든 잠재 공간에 적용할 수 있어 비전 분야를 넘어 그 영향을 확대합니다.

제한 사항 및 향후 연구

Manifold Assumption: RJF는 인코더 출력이 잘 정의된 초구 위에 존재한다고 가정합니다. 정규화되지 않거나 매우 이방성인 임베딩을 생성하는 인코더는 추가 전처리가 필요할 수 있습니다.
Computational Overhead of Jacobi Regularization: 모델 크기는 동일하지만, 곡률을 고려한 정규화를 계산하면 훈련 시간에 약간의 상수적 비용이 추가됩니다.
Scalability to Ultra‑High Resolutions: 실험은 256×256 이미지에 한정되어 있으며, 1024×1024 혹은 비디오 생성으로 확장하면 새로운 기하학적 과제가 나타날 수 있습니다.
Broader Manifold Types: 향후 연구에서는 적응형 매니폴드 학습(확산 과정과 동시에 메트릭을 학습)이나 다중모달 임베딩을 위한 곱 매니폴드와 같은 비구형 매니폴드에 RJF를 적용하는 것을 탐색할 수 있습니다.

만약 직접 RJF를 시도해보고 싶다면, 저자들은 GitHub에 바로 실행 가능한 구현과 사전 학습된 체크포인트를 제공하고 있습니다. 이 접근법은 기존 diffusion‑transformer 파이프라인에 깔끔하고 기하학을 고려한 업그레이드를 제공하여, 이론적 통찰을 실질적인 성능 향상으로 전환합니다.

저자

Amandeep Kumar
Vishal M. Patel

논문 정보

arXiv ID: 2602.10099v1
분류: cs.LG, cs.CV
발행일: 2026년 2월 10일
PDF: PDF 다운로드

[Paper] 다양체 위에서 학습하기: 표준 Diffusion Transformers를 Representation Encoders로 잠금 해제

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] UniT: 통합 멀티모달 Chain-of-Thought Test-time Scaling

[Paper] MonarchRT: 실시간 비디오 생성을 위한 효율적인 어텐션

[Paper] On-Policy SFT를 향하여: Distribution Discriminant Theory 및 LLM Training에서의 응용

[논문] GENIUS: 생성형 유동 지능 평가 스위트