확률성 모멘텀 방법의 계산 효율과 직렬 실행 시간 트레이드오프

발행: (2026년 6월 18일 AM 12:19 GMT+9)
4 분 소요
원문: arXiv

출처: arXiv - 2606.19179v1

개요

헤비 볼트(HB), 네스테로프 모멘텀, 그리고 가속화된 SGD(ASGD) 변종[Kidambi et al., 2018]은 현대 훈련에서 널리 사용됩니다. 하지만 그들의 스토춃한 이점은 두 가지 구분된 양에 달려 있습니다: 직렬 실행 시간(시퀀스 런타임), 목표 정확도에 도달하기 위한 필요한 반복 횟수, 그리고 계산 효율(CE), 즉 총 그라디언트 쿼리 또는 FLOP 비용의 역수. 대용량 배치가 실행 시간을 줄이면서도 CE에 영향을 주지 않는 경우는 수축 간격이 배치 크기와 선형적으로 증가할 때만입니다. 우리는 가우시안 공변량과 일관된 선형 회귀 문제에 대해 스토춃한 HB와 ASGD를 연구하고, 배치 크기 트레이드오프에 대한 유한 차원 이산 시간 하한을 증명합니다. 우리의 첫 번째 결과는 HB가 임의의 스펙트럼에서 SGD보다 CE 프론티어를 개선하지 않으며, 대신 더 넓은 배치 크기 창 내에서 SGD 수준의 CE를 유지한다는 것을 보여줍니다. 이를 통해 더 큰 배치를 사용해 실행 시간을 줄일 수 있으며, HB가 결정적 가속화 단계에 도달할 때까지 가능합니다. 이 창 크기는 SGD의 임계 배치 크기보다 $\sqrtκ}$ 배 더 클 수 있습니다. ASGD에 대한 그림은 스펙트럼에 더 크게 의존합니다: 급격히 감소하는 파워법 스펙트럼에서는 ASGD가 소 배치 CE에서 HB/SGD보다 우수하지만, 배치 크기가 커질수록 이 CE 이점을 개선된 직렬 실행 시간과 교환합니다. 합성 선형 회귀 실험은 이러한 질적 regime를 검증하며, 느리게 감소하는 스펙트럼에서는 ASGD와 HB가 거의 겹치고, 빠르게 감소하는 스펙트럼에서는 예측된 CE-직렬 트레이드오프가 나타 있음을 확인합니다.

주요 공헌

  • cs.LG
  • cs.AI
  • math.OC
  • stat.ML

방법론

자세한 내용은 전체 논문을 참고하십시오.

실제 적용 가능성

이 연구는 cs.LG 분야의 발전을 촉진합니다.

저자

  • Depen Morwani
  • Alexandru Meterez
  • Pranav Nair
  • Sham Kakade

논문 정보

  • arXiv ID: 2606.19179v1
  • 범주: cs.LG, cs.AI, math.OC, stat.ML
  • 발행일: 2026년 6월 17일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »