[논문] 드롭아웃 보편성: 스케일링 법칙과 혼돈 경계에서의 최적 스케줄링

발행: 3주 전 (2026년 5월 21일 AM 04:00 GMT+9)

3 분 소요

원문: arXiv

개요

우리는 혼돈 가장자리에서의 임계 신호 전파에 대한 섭동으로서 드롭아웃의 평균장 이론을 전개한다. 드롭아웃은 완전 정렬 고정점을 이동시켜, 임계 초기화에서도 정보 전파의 깊이 스케일을 유한하게 만든다. 우리는 상관 감소에 대한 임계 및 교차 스케일 법칙을 도출하고, 부드러운 활성화 함수와 굽은(ReLU‑유사) 활성화 함수가 서로 다른 보편성 클래스를 형성한다는 것을 확인한다. 이 두 클래스는 서로 다른 임계 지수를 가지며, 디튠과 드롭아웃 강도에 대한 보편적인 두 매개변수 스케일 붕괴를 보인다. 이러한 구분은 상관 맵의 해석적 구조에서 비롯된다: 부드러운 활성화 함수는 완전 정렬 근처에서 테일러 전개가 가능하지만, 굽은 활성화 함수는 보편적인 비해석성을 갖는 분기점을 형성한다. 부수적으로, 이 프레임워크는 고정된 예산 하에서 포화된 드롭아웃 프로파일을 제공하고, 랭크‑플로우 타이 브레이커가 앞쪽에 집중된 스케줄을 선택한다. 이는 추가 계산 비용 없이 보류된 테스트 손실을 크게 감소시키며, 정확도 향상이 일관된 부수 효과로 나타난다. 우리는 MLP와 Vision Transformer에서 예측을 검증하고, CNN/ResNet 확장에 대해 논의한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.LG
cond-mat.dis-nn
cs.NE
stat.ML

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

이 연구는 cs.LG 분야의 발전에 기여한다.

저자

Lucas Fernandez Sarmiento

논문 정보

arXiv ID: 2605.21648v1
Categories: cs.LG, cond-mat.dis-nn, cs.NE, stat.ML
발행일: 2026년 5월 20일
PDF: Download PDF

[논문] 드롭아웃 보편성: 스케일링 법칙과 혼돈 경계에서의 최적 스케줄링

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[Paper] SkillOpt: 자기 진화형 에이전트 스킬을 위한 실행 전략

[Paper] LLMs as Noisy Channels: Shannon 관점에서 본 Model Capacity와 Scaling Laws

[Paper] 원시 경험에서 스킬 소비까지: Model-Generated Agent Skills에 대한 체계적 연구

[Paper] SPACENUM: VLMs에서 공간 수치 이해 재검토