[Paper] Equilibrium Propagation을 이용한 ImageNet에서 Predictive Coding Network 훈련

발행: (2026년 6월 2일 PM 09:52 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2606.03584v1

Overview

이 논문은 예측 코딩 네트워크(PCN) 를 전체 ImageNet 데이터셋에 Equilibrium Propagation (EP) – 물리학에서 영감을 받은 역전파 대안 – 을 사용해 최초로 성공적으로 학습시켰음을 제시한다. 중심화된 EP 공식과 새로운 평형화 루틴을 결합함으로써, 저자들은 10‑층 컨볼루션 PCN(VGG10)을 학습시켜 13.23 % top‑5 오류를 달성했으며, 이는 표준 역전파가 달성한 12.2 %와 거의 차이가 나지 않는다. 이 작업은 EP 기반 학습이 현대 딥러닝 실무를 지배하는 규모의 문제에도 확장될 수 있음을 보여준다.

주요 기여

  • EP‑compatible training pipeline for PCNs – 예측 코딩 역학에 맞춘 새로운 평형화 방식을 포함한 중심 EP 변형을 도입합니다.
  • Large‑scale demonstration – 전체 크기 ImageNet(≈1.3 M 이미지, 224 × 224 픽셀)에서 10계층 컨볼루션 PCN을 학습합니다.
  • Competitive performance – 동일 아키텍처의 강력한 역전파 기준 대비 1 % 이내 차이로 13.23 % top‑5 오류를 달성합니다.
  • Scalability insight – EP의 병목 현상이 학습 규칙의 근본적인 제한이 아니라 계산적 요인(예: 평형 수렴)이라고 주장합니다.
  • Open‑source reference implementation – 다른 연구자와 엔지니어가 재사용할 수 있는 코드와 하이퍼파라미터 세부 정보를 제공합니다.

Methodology

  1. Predictive‑Coding Network (PCN) – 각 층이 아래 층의 활동을 예측하고, 예측 오류라는 오류 신호를 받아 지역 업데이트를 수행하는 계층적 모델입니다. 네트워크의 동역학은 에너지 함수의 그래디언트 하강으로 표현될 수 있어, 에너지 기반 모델에 해당합니다.

  2. Equilibrium Propagation (EP) – 역전파를 통해 명시적으로 그래디언트를 계산하는 대신, EP는 네트워크를 두 번 실행합니다:

    • Free phase: 현재 파라미터와 입력 하에서 시스템이 평형 상태에 도달하도록 합니다.
    • Nudged phase: 작은 “nudging” 항을 추가해 출력이 목표 라벨 쪽으로 이동하도록 유도하고, 시스템을 다시 안정화시킵니다.
      네트워크의 두 평정 상태 사이의 차이는 그래디언트의 편향되지 않은 추정값을 제공합니다.
  3. Centered EP + Equilibration Scheme – 저자들은 편향과 분산을 감소시키는 centered 버전의 EP를 채택하고, 깊은 컨볼루션 PCN의 수렴 속도를 높이는 layer‑wise equilibration schedule을 설계했습니다. 이 스케줄은 층별 내부 반복 횟수를 적응적으로 제어하여, 이전 EP 시도들을 방해했던 비용이 큰 “steady‑state까지 실행” 루프를 방지합니다.

  4. Architecture & Training Details – VGG 스타일의 10층 컨볼루션 PCN (VGG10)을 사용했으며, 이는 고전적인 VGG 네트워크와 동일한 깊이와 필터 레이아웃을 갖습니다. 학습은 표준 ImageNet 관행(데이터 증강, 학습률 스케줄, 배치 크기 256)을 따르되, 일반적인 역전파 업데이트를 EP에서 도출된 그래디언트 추정값으로 대체합니다.

Results & Findings

MetricEP‑trained PCN (VGG10)Back‑prop baseline (same net)
Top‑5 error (ImageNet)13.23 %12.2 %
Training time (GPU‑hours)~1.4 × back‑prop (due to extra equilibration steps)
Memory footprintComparable (no need to store full backward graph)
  • Accuracy: EP‑trained 모델은 백프로파게이션 기반 베이스라인보다 절대 Top‑5 오류가 약 1 % 정도만 높아, EP를 장난감 문제를 넘어 확장하는 것이 historically 어려웠던 점을 고려하면 놀라운 차이입니다.
  • Efficiency: EP는 평형에 도달하기 위해 추가적인 순전파만 수행하지만, 별도의 역전파 단계와 대용량 그래디언트 버퍼가 필요 없으므로 메모리가 제한된 하드웨어에서 유리할 수 있습니다.
  • Stability: 중심화된 EP 공식은 학습 중 손실 곡선을 더 부드럽게 만들고 급격한 스파이크를 감소시켜, 편향 감소에 대한 이론적 이점을 확인시켜 줍니다.

Practical Implications

  • Neuromorphic & Analog Hardware – EP는 지역 동역학과 에너지 최소화에 의존하므로 아날로그 회로(예: 저항 교차바, 멤리스터 배열)와 자연스럽게 맞는다. ImageNet‑scale 성능을 입증한 바에 따르면, 향후 칩은 디지털 역전파 파이프라인 없이도 깊은 비전 모델을 학습시킬 수 있을 것으로 보인다.
  • Energy‑Efficient Training – 명시적인 역전파 단계를 생략함으로써 EP는 메모리 접근 횟수를 줄일 수 있는데, 이는 GPU/TPU에서 전력 소비의 주요 원인이다. 이는 온‑디바이스 학습이 필요한 엣지 디바이스의 운영 비용을 낮출 수 있다.
  • Robustness to Gradient Issues – EP는 체인 규칙 곱셈이 아니라 평형 차이를 통해 기울기를 계산하므로, 폭발·소멸 기울기에 덜 취약할 수 있다. 이는 매우 깊거나 순환 구조의 보다 안정적인 학습을 가능하게 한다.
  • Alternative Research Paradigm – 이 연구는 산업에 의미 있는 규모에서 물리 기반 학습 규칙을 검증함으로써, 생물학적으로 타당한 학습과 현대 딥러닝 성능을 결합한 하이브리드 모델을 탐구하도록 연구자들을 독려한다.

제한 사항 및 향후 연구

  • 계산 오버헤드 – EP는 여전히 미니배치당 여러 이완 단계를 필요로 하여 훈련 속도가 GPU에서의 기존 역전파보다 느립니다(≈1.4×). 평형 스케줄을 최적화하거나 특수 하드웨어를 활용하는 것이 중요합니다.
  • 10층 이상 확장 – 이 연구는 10층 VGG 스타일 네트워크에서 멈추었으며, 더 깊은 아키텍처(ResNet, Transformer)는 새로운 평형 문제를 야기할 수 있습니다.
  • 작업 다양성 – 이미지 분류만 평가되었습니다. EP로 훈련된 PCN을 탐지, 세분화 또는 언어 작업에 확장하는 것은 아직 미해결 질문입니다.
  • 이론적 보장 – 중심 EP가 편향을 줄이긴 하지만, 대규모 비볼록 네트워크에 대한 수렴 속도에 대한 엄밀한 분석은 아직 부족합니다.

저자들이 강조한 향후 연구 방향은 다음과 같습니다:

  1. 이완 시간을 줄이기 위해 희소성을 촉진하는 사전과 EP를 통합하기.
  2. 새로운 뉴로모픽 플랫폼에 이 방법을 구현하기.
  3. 몇 번의 EP 단계와 가끔씩 역전파 업데이트를 결합한 하이브리드 훈련 방식을 탐색하여 더 빠른 수렴을 도모하기.

저자

  • Tugdual Kerjan
  • Rasmus Høier
  • Benjamin Scellier

논문 정보

  • arXiv ID: 2606.03584v1
  • 카테고리: cs.LG, cond-mat.dis-nn, cs.NE
  • 출판일: 2026년 6월 2일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »