[Paper] 순환 없이 Recurrent Networks 사전 학습

발행: 6일 전 (2026년 6월 5일 AM 02:57 GMT+9)

3 분 소요

원문: arXiv

Source: arXiv - 2606.06479v1

Overview

순환 신경망(RNN)을 학습하려면 긴 연산 시퀀스 전반에 걸쳐 credit을 할당해야 합니다. 표준 시간에 대한 역전파(BPTT)는 이 문제를 제대로 해결하지 못합니다: 시간적으로 순차적이어서 병렬성을 제한하고, 기울기 소실 또는 폭발이 발생해 장거리 연관성을 학습하기 어렵게 합니다.

우리는 **Supervised Memory Training (SMT)**을 제안합니다. 이는 비선형 RNN을 학습하기 위한 방법으로, RNN 학습을 한 단계 메모리 전이 라벨 ((m_t, x_{t+1}) \rightarrow m_{t+1})에 대한 지도 학습으로 축소함으로써 순환 credit 전파를 완전히 회피합니다.

SMT는 예측 상태 목표(predictive state objective)로 Transformer 기반 인코더를 학습시켜 이러한 메모리 라벨을 획득합니다—미래를 예측하는 데 필요한 과거 정보만을 유지합니다. 무엇을 기억할지와 메모리를 어떻게 업데이트할지를 분리함으로써, SMT는 두 토큰 사이에 길이 (O(1))인 안정적인 기울기 경로를 제공하는 시간 병렬 RNN 학습을 가능하게 하며—RNN을 전혀 펼치지 않습니다. 실험 결과, 언어 모델링 및 픽셀 시퀀스 모델링과 같은 작업에서 다양한 RNN 아키텍처를 사전 학습할 때 SMT가 BPTT보다 우수함을 보여줍니다. SMT는 비선형 RNN이 장거리 종속성을 더 잘 포착하고 병렬 학습할 수 있게 하여, 과거 경험의 시간적 추상을 구축하는 모델의 확장을 가능하게 할 잠재력을 가집니다.

Key Contributions

cs.LG
cs.AI

Methodology

자세한 방법론은 전체 논문을 참조하십시오.

Practical Implications

이 연구는 cs.LG 분야의 발전에 기여합니다.

Authors

Akarsh Kumar
Phillip Isola

Paper Information

arXiv ID: 2606.06479v1
Categories: cs.LG, cs.AI
Published: June 4, 2026
PDF: PDF 다운로드

[Paper] 순환 없이 Recurrent Networks 사전 학습

Overview

Key Contributions

Methodology

Practical Implications

Authors

Paper Information

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법