[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법

발행: 5일 전 (2026년 6월 6일 AM 02:51 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.07496v1

개요

분산 확률 최적화는 네트워크 상에서 대규모 학습을 위한 기본 패러다임으로, 에이전트가 이웃과만 통신하고 중앙 조정자가 필요하지 않다. 강하게 볼록한 문제에 대해 통신 효율성은 주로 조건수 (κ=L/μ)와 네트워크 스펙트럼 갭 (1-β)에 의해 결정된다. 결정론적 분산 방법은 (\sqrtκ)와 (1/\sqrt{1-β}) 가속 의존성을 동시에 달성할 수 있지만, 기존의 확률적 방법은 두 개선을 동시에 이루지 못한다. 본 논문에서는 Nesterov 유형의 원시‑쌍대 외삽과 다중 라운드 빠른 가십 평균을 결합한 분산 확률 알고리즘인 Multi‑Gossip Accelerated DSGD (MG‑ADSGD)를 제안한다. 핵심 아이디어는 가십 깊이와 미니배치 크기를 결합하여 추가 통신 라운드가 합의 정확도를 동시에 향상시키고 그래디언트 분산을 감소시키도록 하는 것이다. 우리는 MG‑ADSGD가 다음과 같은 통신 복잡도를 달성함을 보인다

[ \widetilde{\mathcal O}!\left( \frac{σ^2}{μnε}\log\frac{1}ε + \sqrt{\fracκ{1-β}}\log\frac{1}ε \right), ]

여기서 (ε)는 목표 정확도, (n)은 노드 수, (σ^2)는 그래디언트 분산을 의미한다. 우리가 아는 한, 이 경계는 $ε$와 무관한 로그 요인을 제외하고 현재 이용 가능한 분산 확률 강볼록 최적화에 대한 최고의 통신 복잡도를 제공한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.LG
math.OC

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.LG 분야의 발전에 기여한다.

저자

Ming Sun
Kun Yuan

논문 정보

arXiv ID: 2606.07496v1
분류: cs.LG, math.OC
발행일: 2026년 6월 5일
PDF: Download PDF

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 머신러닝에서의 2차 경로 커널 보간 공식