[논문] 드롭아웃 보편성: 스케일링 법칙과 혼돈 경계에서의 최적 스케줄링
개요
우리는 혼돈 가장자리에서의 임계 신호 전파에 대한 섭동으로서 드롭아웃의 평균장 이론을 전개한다. 드롭아웃은 완전 정렬 고정점을 이동시켜, 임계 초기화에서도 정보 전파의 깊이 스케일을 유한하게 만든다. 우리는 상관 감소에 대한 임계 및 교차 스케일 법칙을 도출하고, 부드러운 활성화 함수와 굽은(ReLU‑유사) 활성화 함수가 서로 다른 보편성 클래스를 형성한다는 것을 확인한다. 이 두 클래스는 서로 다른 임계 지수를 가지며, 디튠과 드롭아웃 강도에 대한 보편적인 두 매개변수 스케일 붕괴를 보인다. 이러한 구분은 상관 맵의 해석적 구조에서 비롯된다: 부드러운 활성화 함수는 완전 정렬 근처에서 테일러 전개가 가능하지만, 굽은 활성화 함수는 보편적인 비해석성을 갖는 분기점을 형성한다. 부수적으로, 이 프레임워크는 고정된 예산 하에서 포화된 드롭아웃 프로파일을 제공하고, 랭크‑플로우 타이 브레이커가 앞쪽에 집중된 스케줄을 선택한다. 이는 추가 계산 비용 없이 보류된 테스트 손실을 크게 감소시키며, 정확도 향상이 일관된 부수 효과로 나타난다. 우리는 MLP와 Vision Transformer에서 예측을 검증하고, CNN/ResNet 확장에 대해 논의한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.LG
- cond-mat.dis-nn
- cs.NE
- stat.ML
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전에 기여한다.
저자
- Lucas Fernandez Sarmiento
논문 정보
- arXiv ID: 2605.21648v1
- Categories: cs.LG, cond-mat.dis-nn, cs.NE, stat.ML
- 발행일: 2026년 5월 20일
- PDF: Download PDF