[논문] 스포트라이트: 시드 탐색과 스폿 GPU를 활용한 DiT RL 사후 학습
개요
확장 학습(RL) 후 훈련을 통한 확산 변환기(DiT)는 비현실적으로 비용이 많이 들며, 수천 개의 고성능 GPU가 필요합니다. 기존 연구들은 비용을 줄이기 위해 두 가지 방향을 탐구합니다. 샘플 선택을 통한 고 contrasting 샘플(고대비 샘플) 선택은 훈련 수렴을 향상시키지만 계산 비용이 핵심 경로에 추가됩니다; 스팟 GPU는 6977% 저렴하지만 DiT 롤아웃이 거의 동시에 끝나기 때문에 훈련 중에는 idle 상태가 되고, LLM 스타일 파이프라인을 rollout과 훈련 사이에 실행할 수 없습니다. 스팟 중단 또한 시퀀스 평행성(SP) 그룹을 깨뜨려 GPU 토폴로지를 분산시킵니다. Spotlight은 DiT RL 후 훈련을 위해 스팟 GPU를 활용하는 최초의 시스템을 제시합니다. Spotlight은 두 가지 핵심 통찰을 바탕으로 구현됩니다: (1) 우리는 탐색이 이전 반복의 모델 가중치를 사용해도 견디는 것을 보여주며, 이는 탐색에서 무작위 샘플의 상대적 순위를 유지하기 때문이며, 훈련 중에는 idle 상태인 스팟 GPU에서 탐색을 실행할 수 있습니다. (2) SP 재구성은 온노드 상태를 재사용하여 그룹 복구 시간을 몇 분에서 수초 이하로 단축합니다. 이 통찰을 바탕으로 Spotlight은 세 가지 기술을 도입합니다. 첫째, 훈련 시간 예산 내에서 보상 변이를 극대화하는 밴드잇 기반 탐색 플래너; 둘째, 지속 스케줄러와 노드 내부 가중치 복제를 통해 SP 그룹을 실시간으로 재구성하는 탄력적 시퀀스 평행성; 셋째, 사전 중단에 대한 pull 기반 요청 스케줄러로 부하를 균형 잡고 사전 중단 시 진행 중인 상태를 커밋합니다. Spotlight은 오픈소스 RL 플랫폼 ROLL 위에 구현하고 Qwen-Image 후 훈련을 평가합니다. Spotlight은 베이스라인보다 4배 빠른 속도로 목표 검증 점수를 달성하고, DeepSeek-OCR 및 Geneval 데이터셋에서 해상도 512×512와 1280×1280을 활용한 이미지 품질이 우수함을 유지하면서 총 비용을 1.46.4배 절감합니다.
주요 공헌
이 논문은 다음 분야의 연구를 제시합니다:
- cs.DC
- cs.AI
- cs.LG
방법론
자세한 내용은 전체 논문을 참고하십시오.
실용적 의미
이 연구는 cs.DC의 발전에 기여합니다.
저자
- Ruiqi Lai
- Dakai An
- Wei Gao
- Ju Huang
- Siran Yang
- Jiamang Wang
- Lin Qu
- Dmitrii Ustiugov
- Wei Wang
논문 정보
- arXiv ID: 2606.19004v1
- Categories: cs.DC, cs.AI, cs.LG
- Published: 2026년 6월 17일
- PDF: Download PDF