역전파 없는 딥러닝
Source: Dev.to
위 링크에 포함된 전체 텍스트를 제공해 주시면, 해당 내용을 한국어로 번역해 드리겠습니다. 현재는 링크만 제공되어 있어 실제 기사 본문을 확인할 수 없습니다. 기사 본문을 복사해서 보내 주시면, 원본 서식과 코드 블록, URL 등을 그대로 유지하면서 한국어 번역을 제공해 드립니다.
Source: …
소개

대부분의 현대 신경망은 역전파(backpropagation) 를 사용해 학습합니다. 이것은 잘 작동하지만, 이상한 특성을 가지고 있습니다: 학습이 전체 네트워크를 거꾸로 흐르는 전역 오류 신호에 의존한다는 점입니다. 모든 가중치 업데이트는 여러 층 떨어진 정보에 기반합니다.
뇌는 그렇게 작동하지 않습니다. 뉴런은 국부 정보—시냅스를 통해 받는 입력과 스스로 발화하는 신호—만을 봅니다. 피질 전체에 걸쳐 내려오는 전역 그래디언트는 존재하지 않습니다. 그럼에도 불구하고 생물학적 시스템은 놀라운 효율성으로 세계에 대한 깊고 계층적인 표현을 학습합니다.
이것은 간단한 질문을 제기합니다:
깊은 신경망이 오직 국부 학습 규칙만을 사용해 학습할 수 있을까?
최근까지는 답이 “그렇지 않다”는 것이 일반적이었습니다.
로컬 학습의 문제점
Local learning rules, often called Hebbian learning (“neurons that fire together wire together”), have been known for decades. They work well for simple feature discovery, but they historically struggled with deeper networks.
여러 층으로 쌓을 때, 순수한 로컬 학습은 다음과 같은 이유로 실패하는 경향이 있습니다:
- 상위 층은 의미 있는 학습 신호를 받지 못한다
- 층들이 흐트러지거나 유사한 표현으로 붕괴한다
- 특징이 깊이에 따라 더 추상화되지 못한다
요컨대, 전역 오류 신호가 없으면 깊은 구조가 보통 형성되지 않는다.
핵심 통찰: 구조가 학습 규칙보다 더 중요하다
돌파구는 예상치 못한 곳에서 나왔습니다. 학습 규칙을 바꾸는 대신, 생물학적 시각이 작동하는 방식을 맞추기 위해 아키텍처를 변경했습니다:
- 국소 수용 필드 (전체 이미지 연결 대신 작은 패치)
- 뉴런 간 경쟁 (승자 독식)
- 적응성 가소성 (각 뉴런이 스스로 민감도를 조절)
- 엄격히 국소적인 업데이트 (어디에서도 역전파 없음)
이 조합은 놀라운 결과를 낳았습니다: 네트워크가 오직 국소 정보만을 사용해 의미 있는 특징 계층을 자체적으로 조직하기 시작했습니다. 그래디언트도 없고, 전역 오류도 없으며, 역전파도 없습니다.
네트워크가 학습한 내용
첫 번째 층은 가장자리, 곡선, 획과 같은 간단한 로컬 특징들을 학습했습니다—이는 초기 시각 피질에서 기대할 수 있는 바로 그 내용입니다.
층이 쌓이면서, 상위 층은 하위 특징들의 조합을 학습했습니다:
- 가장자리 → 형태
- 형태 → 숫자 구조
- 구조 → 클래스 구분
네트워크는 깊게 층별로, 오직 로컬 학습만을 사용하여 훈련되었습니다.
The Result
MNIST 손글씨 숫자 데이터셋에서, 이 로컬 학습된 네트워크는 다음에 도달했습니다:
~97 % 정확도, 로컬 학습 규칙만 사용
어느 단계에서도 역전파가 없었습니다.
대부분의 분류 성능은 비지도 특징 레이어에서 나왔습니다. 이러한 특징 위에 간단한 선형 읽기(리드아웃)를 적용했을 때, 완전 학습된 시스템과 거의 동일한 성능을 보였으며, 이는 네트워크가 특징 학습 중 라벨을 전혀 보지 않고도 클래스가 자연스럽게 구분되는 표현을 학습했음을 보여줍니다.
왜 이것이 중요한가
이 결과는 오래된 가정, 즉 딥러닝이 역전파를 필요로 한다는 가정을 뒤흔듭니다. 대신, 다음을 시사합니다:
- 깊은 계층 학습이 지역 규칙으로부터 나타날 수 있다
- 올바른 아키텍처와 제약 조건이 학습 알고리즘보다 더 중요할 수 있다
- 생물학적 방식의 학습이 단지 가능할 뿐만 아니라 경쟁력도 가질 수 있다
또한 다음과 같은 시스템의 가능성을 열어줍니다:
- 고정된 학습 단계가 아니라 지속적으로 학습한다
- 전체 네트워크를 재학습하지 않고도 지역적으로 적응한다
- 더 생물학적으로 현실적이다
- 잠재적으로 그래디언트 기반 시스템과는 다르게 확장될 수 있다
더 큰 그림
역전파는 강력하지만, 지능에 이르는 유일한 방법은 아니다. 이 연구는 지역 학습이 다음과 결합될 때를 보여준다:
- 공간적 국소성
- 경쟁
- 자체 조절 뉴런
- 계층 구조
깊은 네트워크는 전역 오류 기울기를 계산하지 않고도 의미 있는 표현을 스스로 조직할 수 있다.
병목 현상은 절대 지역 학습이 아니라, 우리가 제공한 구조였다.