[Paper] 순환 없이 Recurrent Networks 사전 학습
Source: arXiv - 2606.06479v1
Overview
순환 신경망(RNN)을 학습하려면 긴 연산 시퀀스 전반에 걸쳐 credit을 할당해야 합니다. 표준 시간에 대한 역전파(BPTT)는 이 문제를 제대로 해결하지 못합니다: 시간적으로 순차적이어서 병렬성을 제한하고, 기울기 소실 또는 폭발이 발생해 장거리 연관성을 학습하기 어렵게 합니다.
우리는 **Supervised Memory Training (SMT)**을 제안합니다. 이는 비선형 RNN을 학습하기 위한 방법으로, RNN 학습을 한 단계 메모리 전이 라벨 ((m_t, x_{t+1}) \rightarrow m_{t+1})에 대한 지도 학습으로 축소함으로써 순환 credit 전파를 완전히 회피합니다.
SMT는 예측 상태 목표(predictive state objective)로 Transformer 기반 인코더를 학습시켜 이러한 메모리 라벨을 획득합니다—미래를 예측하는 데 필요한 과거 정보만을 유지합니다. 무엇을 기억할지와 메모리를 어떻게 업데이트할지를 분리함으로써, SMT는 두 토큰 사이에 길이 (O(1))인 안정적인 기울기 경로를 제공하는 시간 병렬 RNN 학습을 가능하게 하며—RNN을 전혀 펼치지 않습니다. 실험 결과, 언어 모델링 및 픽셀 시퀀스 모델링과 같은 작업에서 다양한 RNN 아키텍처를 사전 학습할 때 SMT가 BPTT보다 우수함을 보여줍니다. SMT는 비선형 RNN이 장거리 종속성을 더 잘 포착하고 병렬 학습할 수 있게 하여, 과거 경험의 시간적 추상을 구축하는 모델의 확장을 가능하게 할 잠재력을 가집니다.
Key Contributions
- cs.LG
- cs.AI
Methodology
자세한 방법론은 전체 논문을 참조하십시오.
Practical Implications
이 연구는 cs.LG 분야의 발전에 기여합니다.
Authors
- Akarsh Kumar
- Phillip Isola
Paper Information
- arXiv ID: 2606.06479v1
- Categories: cs.LG, cs.AI
- Published: June 4, 2026
- PDF: PDF 다운로드