[논문] 스포트라이트: 시드 탐색과 스폿 GPU를 활용한 DiT RL 사후 학습

발행: 1일 전 (2026년 6월 17일 PM 09:31 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.19004v1

개요

확장 학습(RL) 후 훈련을 통한 확산 변환기(DiT)는 비현실적으로 비용이 많이 들며, 수천 개의 고성능 GPU가 필요합니다. 기존 연구들은 비용을 줄이기 위해 두 가지 방향을 탐구합니다. 샘플 선택을 통한 고 contrasting 샘플(고대비 샘플) 선택은 훈련 수렴을 향상시키지만 계산 비용이 핵심 경로에 추가됩니다; 스팟 GPU는 6977% 저렴하지만 DiT 롤아웃이 거의 동시에 끝나기 때문에 훈련 중에는 idle 상태가 되고, LLM 스타일 파이프라인을 rollout과 훈련 사이에 실행할 수 없습니다. 스팟 중단 또한 시퀀스 평행성(SP) 그룹을 깨뜨려 GPU 토폴로지를 분산시킵니다. Spotlight은 DiT RL 후 훈련을 위해 스팟 GPU를 활용하는 최초의 시스템을 제시합니다. Spotlight은 두 가지 핵심 통찰을 바탕으로 구현됩니다: (1) 우리는 탐색이 이전 반복의 모델 가중치를 사용해도 견디는 것을 보여주며, 이는 탐색에서 무작위 샘플의 상대적 순위를 유지하기 때문이며, 훈련 중에는 idle 상태인 스팟 GPU에서 탐색을 실행할 수 있습니다. (2) SP 재구성은 온노드 상태를 재사용하여 그룹 복구 시간을 몇 분에서 수초 이하로 단축합니다. 이 통찰을 바탕으로 Spotlight은 세 가지 기술을 도입합니다. 첫째, 훈련 시간 예산 내에서 보상 변이를 극대화하는 밴드잇 기반 탐색 플래너; 둘째, 지속 스케줄러와 노드 내부 가중치 복제를 통해 SP 그룹을 실시간으로 재구성하는 탄력적 시퀀스 평행성; 셋째, 사전 중단에 대한 pull 기반 요청 스케줄러로 부하를 균형 잡고 사전 중단 시 진행 중인 상태를 커밋합니다. Spotlight은 오픈소스 RL 플랫폼 ROLL 위에 구현하고 Qwen-Image 후 훈련을 평가합니다. Spotlight은 베이스라인보다 4배 빠른 속도로 목표 검증 점수를 달성하고, DeepSeek-OCR 및 Geneval 데이터셋에서 해상도 512×512와 1280×1280을 활용한 이미지 품질이 우수함을 유지하면서 총 비용을 1.46.4배 절감합니다.

주요 공헌

이 논문은 다음 분야의 연구를 제시합니다:

cs.DC
cs.AI
cs.LG

방법론

자세한 내용은 전체 논문을 참고하십시오.

실용적 의미

이 연구는 cs.DC의 발전에 기여합니다.

저자

Ruiqi Lai
Dakai An
Wei Gao
Ju Huang
Siran Yang
Jiamang Wang
Lin Qu
Dmitrii Ustiugov
Wei Wang

논문 정보

arXiv ID: 2606.19004v1
Categories: cs.DC, cs.AI, cs.LG
Published: 2026년 6월 17일
PDF: Download PDF

[논문] 스포트라이트: 시드 탐색과 스폿 GPU를 활용한 DiT RL 사후 학습

개요

주요 공헌

방법론

실용적 의미

저자

논문 정보

관련 글

LOCUS로 법을 해방시키다: 미국 지역 조례 코퍼스

[논문] 차이나‑가이아 대응 카탈로그: 머신러닝으로 차이나 소스 카탈로그에 있는 애매한 가이아 대조를 X‑선 원천과 연결

[Paper] Rethinking Reward Supervision: Rubric-Conditioned Self-Distillation

[논문] 참조 기반 다중 스피커 오디오 씬 생성