[Paper] PC 레이어: LLM 사전 학습 개선을 위한 다항식 가중치 프리컨디셔닝
Source: arXiv - 2606.06470v1
Overview
우리는 LLM 훈련 전반에 걸쳐 가중치 조건을 안정적으로 유지하도록 보장하는 다항식 프리컨디셔너를 통한 가중치 파라미터화인 프리컨디셔닝(PC) 레이어를 제안한다. PC 모듈은 저차 다항식 프리컨디셔닝을 통해 가중치 행렬의 특이값 스펙트럼을 재구성한다. 훈련이 끝난 후, 프리컨디셔닝된 가중치는 원래 아키텍처에 다시 병합될 수 있어 추론 시 추가 오버헤드가 발생하지 않는다. 우리는 Llama‑1B 사전 훈련에서 AdamW와 Muon 옵티마이저 모두에 대해 제안된 PC 레이어가 표준 트랜스포머보다 우수함을 입증한다. 이론적으로, 우리는 특정 심층 선형 네트워크에 대해 각 층의 특이값을 균일하게 제한하면 그래디언트 하강법이 전역 최소점으로 기하급수적으로 수렴한다는 스펙트럼 제어 원리를 증명한다. 우리의 코드는 https://github.com/Empath-aln/PC-layer 에서 확인할 수 있다.
Key Contributions
- cs.LG
- cs.AI
Methodology
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
Practical Implications
이 연구는 cs.LG 분야의 발전에 기여한다.
Authors
- Senmiao Wang
- Tiantian Fang
- Haoran Zhang
- Yushun Zhang
- Kunxiang Zhao
- Alex Schwing
- Ruoyu Sun
Paper Information
- arXiv ID: 2606.06470v1
- Categories: cs.LG, cs.AI
- Published: June 4, 2026
- PDF: Download PDF