[Paper] 무한 폭 및 깊이 한계에 관한 Predictive Coding Networks

발행: 3일 전 (2026년 2월 8일 오전 05:47 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2602.07697v1

Overview

Predictive Coding Networks (PCNs)는 먼저 신경 활동을 에너지 최소점에 정착시킨 후 가중치를 업데이트함으로써, 역전파(back‑propagation, BP)에 대한 생물학적으로 영감을 받은 대안을 제공합니다. 이 논문은 PCNs가 현대 딥러닝 모델이 누리는 거대한 폭과 깊이로 확장될 수 있는지, 그리고 그 학습 역학이 궁극적으로 BP와 일치하는지를 조사합니다.

주요 기여

Theoretical equivalence: 선형 residual 구조에 대해, PCN을 학습 가능하게 만드는 width‑and depth‑stable 파라미터화 집합이 표준 BP의 집합과 동일함을 증명한다.
Infinite‑width/depth analysis: 네트워크 폭이 깊이보다 훨씬 클 때, 활동 평형에서의 PC 에너지가 일반적인 BP 손실로 수렴함을 보여주며, 이는 이 경우 PCN이 BP와 동일한 그래디언트를 계산한다는 의미이다.
Unified view of prior work: 이전의 경험적 트릭(BP‑inspired re‑parameterisations)과 최근 이론적 결과를 하나의 프레임워크로 연결한다.
Empirical validation on nonlinear nets: 활동 역학이 평형에 도달한다면, 이론적 예측이 깊은 비선형 PCN에서도 성립함을 입증한다.

방법론

모델 선택: 저자들은 선형 잔차 네트워크를 시작점으로 삼는다. 이는 분석적으로 다루기 쉬우면서도 깊은 구조의 핵심을 포착하기 때문이다.
파라미터화 분석: 가중치를 너비 ((1/\sqrt{n}))와 깊이 ((1/L))에 따라 스케일링했을 때, 활동 역학(에너지 최소화)과 가중치 업데이트 역학의 안정성에 어떤 영향을 미치는지 조사한다.
무한‑극한 미적분: 은닉 차원 (n \to \infty) 로 두고 깊이 (L) 은 유한하게(또는 (n) 보다 훨씬 작게) 유지함으로써, PC 에너지의 극한 형태를 도출하고 이것이 BP 손실과 일치함을 보인다.
비선형 네트워크로 확장: 동일한 스케일링 규칙을 적용해 표준 비전 벤치마크에서 깊은 컨볼루션 PCN을 학습시키고, 활동 역학이 수렴하는지(즉, “평형” 조건) 모니터링한다.
비교 실험: 그래디언트 노름, 학습 곡선, 최종 테스트 정확도를 PCN과 BP로 학습된 모델 간에 비교한다.

결과 및 발견

안정성 영역이 BP와 일치: PCN의 학습을 안정적으로 유지하는 허용 가능한 스케일링 규칙은 BP에서 알려진 규칙과 정확히 동일합니다(예: He‑type 초기화).
에너지 → 손실 수렴: 넓고 깊은(over‑deep) 영역에서, 활동 평형 후의 PC 에너지는 수학적으로 BP 손실과 구분이 되지 않게 되며, 이는 동일한 그래디언트 신호를 의미합니다.
경험적 동등성: CIFAR‑10/100 및 ImageNet‑subset 실험에서, 파생된 스케일링으로 훈련된 깊은 PCN은 반복적인 활동 업데이트를 수렴할 때까지 실행하면 BP와 비교해 유사한 정확도와 수렴 속도를 달성합니다.
평형의 중요성: 활동 역학을 일찍 중단하면(즉, 평형에 도달하기 전에) 그래디언트 불일치가 커져 학습이 느려지거나 불안정해집니다.

실용적 함의

Scalable PCNs: 개발자들은 이제 친숙한 초기화 방식을 사용하여 현대 트랜스포머나 ResNet만큼 넓고 깊은 PCN을 구축할 수 있습니다.
Hardware‑friendly training: PCN은 활동 추론(고정점 반복)과 가중치 업데이트를 분리하기 때문에, 추론을 지속적으로 실행하고 학습은 더 천천히 진행되는 비동기식 또는 뉴로모픽 하드웨어에 대한 가능성을 열어줍니다.
Energy‑based regularisation: 명시적인 에너지 함수는 손실을 재설계하지 않고도 추가 제약(예: 희소성, 견고성)을 자연스럽게 통합할 수 있는 방법을 제공합니다.
Hybrid training pipelines: 빠른 학습을 위해 BP로 훈련을 시작한 뒤, 지속적인 학습이나 디바이스 내 적응을 위해 PC 추론 전용 모드로 전환할 수 있으며, 입증된 그래디언트 동등성을 활용합니다.

제한 사항 및 향후 연구

평형 요구사항: 이론적 보장은 진정한 활동 평형에 도달하는 것에 의존하는데, 이는 매우 깊거나 순환 구조에 대해 비용이 많이 들 수 있다.
비선형 증명 부재: 엄격한 동등성은 선형 잔차 네트에 대해서만 보여졌으며, 임의의 비선형성으로 확장하는 것은 아직 해결되지 않은 과제이다.
메모리 및 연산 오버헤드: 반복적인 활동 업데이트는 BP의 단일 전방 패스에 비해 실행 시간과 메모리 오버헤드를 추가한다.
향후 방향: 저자들은 근사 평형 스킴(예: 잘라낸 반복, 학습된 솔버) 탐색, 트랜스포머 스타일 어텐션 레이어에 대한 분석 확장, 에너지 공식화를 지속 학습 또는 메타‑학습 시나리오에 활용하는 방안을 제안한다.

저자

Francesco Innocenti
El Mehdi Achour
Rafal Bogacz

논문 정보

arXiv ID: 2602.07697v1
Categories: cs.LG, cs.AI, cs.NE
Published: 2026년 2월 7일
PDF: PDF 다운로드

[Paper] 무한 폭 및 깊이 한계에 관한 Predictive Coding Networks

Overview

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] Robustness는 Function이며 Number가 아니다: Vision-Based Driving에서 OOD Robustness에 대한 Factorized Comprehensive Study

[Paper] 차세대 CAPTCHA: 인지 격차를 활용한 확장 가능하고 다양한 GUI-에이전트 방어

[Paper] ShapeCond: 시계열 분류를 위한 빠른 Shapelet 기반 Dataset Condensation

[Paper] 그룹오이드 호몰로지를 위한 보편 계수 정리와 Mayer‑Vietoris 시퀀스