[논문] 보상은 언제나 데이터에 있었다: 디스코민이터‑지향 RL로 플로우 매칭 교정
개요
Score- 및 flow-matching 모델은 주관적 선호도에 맞춤을 맞추고, 놀라운ことに 객체 구조가 일관된 시각 현실과 같은 특성을 데이터 자체를 통해 학습하려는 매칭 기반 훈련이 목표로 하는 속성을 회복하기 위해 선호도 기반 강화 학습에 의존하는 경우가 많습니다. 우리는 이것이 구조적 불일치를 반영한다고 주장합니다. 매칭 손실은 훈련 시 마진 아래에서 속도 또는 점수 필드에 대한 $\ell_2$ 회귀 오차를 측정하며, 이는 추론 시 샘플 품질을 결정짓는 시각적·의미적 특성과 잘 맞지 않는 대체 지표입니다. 이러한 특성에 맞는 보상을 주면 RL은 자체 샘플을 평가하고 직접 보상 풍경을 따릅니다. 인간 선호에 의존하지 않고 이러한 보상을 얻는 것이 과제이며, 인간 선호는 비싸고 데이터 현실과 annotator 성향을 혼동합니다. 우리는 Discriminator-Guided RL (DRL)을 제안합니다. DRL은 사전 훈련된 표현 공간 내에서 데이터와 기본 모델 샘플을 구분하는 디스카리미네이터를 학습하고, 그 로깃을 KL 정규화된 RL에서 보상으로 사용합니다. 사전 훈련된 공간은 디스카리미네이터가 의미 있는 감각적 방향에만 제한되도록 하며, 로깃은 데이터와 모델 사이의 로그 가능 비율을 추정하며, 이는 데이터를 타겟으로 하는 최적 보상입니다. SiT, JiT, REPA, RAE 전반에서 DRL은 가이드 없는 FID(예: $9.38 \to 2.62$ on SiT)와 의미 공간 FD(예: $88.2 \to 19.3$ on DINOv3 for SiT)를 감소시키고, 모든 백본에서 일관된 개선을 보여줍니다. 또한 훈련 없이 인간 선호 보상을 향상시킵니다. 이후 선호도 기반 사후 훈련을 통해 보상과 이미지 충실도 사이의 파레토 전선이 더 나아지며, 과포화 및 과다 밝기와 같은 저수준 아티팩트를 감소시킵니다.
주요 공헌
이 논문은 다음 분야를 다룹니다:
- cs.LG
- cs.CV
방법론
자세한 내용은 논문을 참고하십시오.
실무적 의미
본 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Nicolas Beltran-Velez
- Felix Friedrich
- Zhang Xiaofeng
- Reyhane Askari-Hemmat
- Xiaochuang Han
- Adriana Romero-Soriano
- Michal Drozdzal
논문 정보
- arXiv ID: 2606.19162v1
- 카테고리: cs.LG, cs.CV
- 발행일: 2026년 6월 17일
- PDF: PDF 다운로드