첫 원리에서 AI 이해하기: Multi-Layer Perceptrons와 Hidden Layer 혁신

발행: 2일 전 (2026년 2월 18일 오전 12:14 GMT+9)

10 분 소요

원문: Dev.to

Source: Dev.to

“퍼셉트론은 많은 제한이 있다… 가장 심각한 것은 가장 단순한 비선형 함수조차 학습하지 못한다는 점이다.” – Marvin Minsky

AI를 난감하게 만든 문제

지난 글에서 퍼셉트론이 AND, OR, NAND 게이트를 완벽하게 학습할 수 있다고 언급했습니다.
하지만 훈련 시간을 아무리 늘려도 절대 학습할 수 없는 간단한 논리 게이트가 하나 있었습니다:

XOR (exclusive‑or)

XOR 진리표

┌─────────┬─────────┬────────┐
│ Input 1 │ Input 2 │ Output │
├─────────┼─────────┼────────┤
│    0    │    0    │   0    │
│    0    │    1    │   1    │
│    1    │    0    │   1    │
│    1    │    1    │   0    │
└─────────┴─────────┴────────┘

Marvin Minsky와 Seymour Papert가 Perceptrons (1969)를 출판했을 때, 단일층 퍼셉트론은 XOR을 해결할 수 없다는 것을 수학적으로 증명했습니다.
이 사실은 첫 번째 AI 겨울을 촉발시켰습니다: 자금이 끊기고, 연구가 정체되었으며, 신경망은 10년 이상 거의 포기되었습니다.

XOR이 특별한 이유

불가능성의 기하학

퍼셉트론은 클래스를 구분하기 위해 하나의 직선을 그립니다.
XOR의 경우 입력이 서로 다를 때는 1, 동일할 때는 0이 되도록 해야 합니다:

    Input 2
      ↑
  1 │  [1]    [0]
    │
  0 │  [0]    [1]
    └──────────────→ Input 1
       0       1

[1] = 출력 1 (빨간색 정사각형)
[0] = 출력 0 (파란색 원)

빨간색 정사각형과 파란색 원을 구분하는 단일 직선을 그려 보세요 – 불가능합니다. 패턴이 대각선 형태이므로 두 개의 직선이나 곡선이 필요합니다.

이것이 “선형적으로 구분되지 않음”이라는 의미입니다.

AND와 OR의 경우, 모든 1은 한쪽에, 모든 0은 반대쪽에 위치합니다.
XOR에서는 클래스가 뒤섞여 있어 선형 분류기는 수학적으로 불가능합니다.

돌파구: 은닉층

제가 어렸을 때, 한 자리 수 덧셈은 아주 쉬웠습니다:

3 + 5 = 8

하지만 여러 자리 수 덧셈은 저를 혼란스럽게 했습니다:

27 + 15 → 2+1 = 3, 7+5 = 12 → 312 (틀림!)

두 열을 각각 독립된 한 자리 문제처럼 다루고 있었던 것이죠.
빠진 부분은 자리 올림(carry) 이었습니다:

7 + 5 = 12 → 2를 적고, 1을 십의 자리로 올림합니다.

자리 올림은 중간의 비선형 변환으로, 다음 단계에 영향을 줍니다.
이것이 바로 은닉층(hidden layer) 이 신경망에서 하는 역할과 같습니다.

단일층 퍼셉트론은 한 자리 덧셈과 같으며 – 입력이 바로 출력으로 가고 변환이 없습니다.
더 많은 선형 층을 쌓아도 여전히 하나의 직선에 불과해 새로운 능력이 생기지 않습니다.
비선형 활성화 함수(시그모이드, ReLU 등)를 추가하면 “자리 올림”이 도입됩니다 – 공간을 재구성하여 XOR 문제를 해결할 수 있게 됩니다.

Source: …

XOR 풀기: “아하!” 순간

2‑2‑1 네트워크(입력 2개, 은닉 뉴런 2개, 출력 1개)는 XOR을 학습할 수 있습니다.

┌──────────────────────────────────────┐
│ Hidden Neuron 1: learns OR pattern   │
│   (fires when x₁ OR x₂ = 1)          │
│                                      │
│ Hidden Neuron 2: learns AND pattern │
│   (fires when x₁ AND x₂ = 1)         │
│                                      │
│ Output neuron: combines them          │
│   (OR but NOT AND = XOR)              │
└──────────────────────────────────────┘

코드를 처음 실행해 XOR이 동작하는 것을 보았을 때, 은닉층이 단순히 복잡성을 더하는 것이 아니라 문제를 선형적으로 구분 가능한 형태로 변환한다는 것을 깨달았습니다.

Note: 다이어그램에 표시된 가중치/바이어스는 XOR 문제를 위해 손수 만든 것입니다.

인터랙티브 플레이그라운드

인터랙티브 플레이그라운드를 실행하면 곡선 형태의 결정 경계가 어떻게 작동하는지 확인할 수 있습니다. 가중치 슬라이더를 조정해 경계가 약하게부터 강하게 변하는 모습을 관찰하고, 퍼셉트론의 직선 시도와 비교해 보세요.

Repository: `perceptrons-to-transformers` – `02-xor-problem`

02-multi-layer-perceptron/
│
├─ mlp.py          # Clean MLP implementation
└─ mlp_playground.py  # Streamlit app (interactive visualisation)

플레이그라운드에서 할 수 있는 일:

XOR을 해결하는 곡선 형태의 결정 경계를 시각화합니다.
실시간으로 가중치를 조정하고 경계가 어떻게 이동하는지 관찰합니다.
모든 가중치가 라벨링된 전체 네트워크 구조를 확인합니다.
퍼셉트론의 직선과 MLP의 곡선을 비교합니다.

이것이 열어준 것

XOR 문제를 푸는 것이 이제는 사소해 보이지만, 이것이 모든 것을 열어준 돌파구였습니다.
진정한 통찰은 숨겨진 층이 비선형적 사고를 가능하게 한다는 점이었습니다.

1980년대에 Geoffrey Hinton, David Rumelhart, 그리고 Ronald Williams는 다층 네트워크가 역전파(back‑propagation) 로 학습될 수 있음을 보여주었습니다. 그 순간, 한때 불가능하다고 여겨졌던 문제들이 해결 가능해졌고, AI 겨울이 서서히 녹기 시작했습니다.

퍼셉트론에서 트랜스포머까지 – 18부 중 2부

시리즈: 퍼셉트론에서 트랜스포머까지

지금까지 배운 내용

퍼셉트론은 선(선형 경계)을 그리는 것을 배웠습니다.
MLP는 곡선(비선형 경계)을 그리는 것을 배웠습니다.
딥 네트워크는 계층 구조(에지 → 형태 → 객체 → 개념)를 배웠습니다.

오늘날의 신경망—이미지 분류기든 GPT‑4와 같은 대형 언어 모델이든—모두 같은 원칙을 따릅니다: 비선형 활성화를 가진 레이어를 쌓아 데이터를 점점 더 의미 있는 표현으로 변환합니다.

이 모든 것은 첫 번째 은닉 레이어를 추가함으로써 시작되었습니다.

다음은?

우리는 이제 XOR을 해결하는 네트워크를 만들 수 있습니다. 하지만 한 가지 중요한 질문이 있습니다: 가중치를 어떻게 학습하나요?

앞에서 보여준 XOR 네트워크는 수작업으로 만든 가중치—제가 직접 수동으로 설정한 값들을 사용합니다. 수천 개의 입력과 수백만 개의 가중치를 가진 실제 문제에서는 수동 조정이 불가능합니다.

학습을 가능하게 하는 알고리즘은 역전파(backpropagation) 입니다. 이것은 네트워크가 자신의 실수로부터 학습하고 점진적으로 개선될 수 있게 합니다.

다음 글에서는 역전파에 대해 깊이 파헤칠 것입니다—모든 것을 연결하는 알고리즘이죠. 미적분을 포함하지만, 직관적으로 이해할 수 있도록 설명하겠습니다.

참고문헌

Minsky, M., & Papert, S. (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press.
Nielsen, M. (2015). Neural Networks and Deep Learning. Determination Press. 사용 가능 위치:

코드

GitHub 저장소

첫 원리에서 AI 이해하기: Multi-Layer Perceptrons와 Hidden Layer 혁신

“퍼셉트론은 많은 제한이 있다… 가장 심각한 것은 가장 단순한 비선형 함수조차 학습하지 못한다는 점이다.” – Marvin Minsky

AI를 난감하게 만든 문제

XOR 진리표

XOR이 특별한 이유

불가능성의 기하학

돌파구: 은닉층

XOR 풀기: “아하!” 순간

인터랙티브 플레이그라운드

Repository: `perceptrons-to-transformers` – `02-xor-problem`

이것이 열어준 것

퍼셉트론에서 트랜스포머까지 – 18부 중 2부

지금까지 배운 내용

다음은?

참고문헌

Tags

코드

관련 글

VoxCPM: 컨텍스트 인식 음성 생성 및 보이스 클로닝을 위한 새로운 토크나이저‑프리 접근법

딥러닝에서 프루닝: 구조적 vs 비구조적

Unsloth와 Hugging Face Jobs로 AI 모델을 무료로 훈련하기

AI 에이전트가 자신의 가드레일을 이해하면 어떻게 될까?

“퍼셉트론은 많은 제한이 있다… 가장 심각한 것은 가장 단순한 비선형 함수조차 학습하지 못한다는 점이다.” – Marvin Minsky

AI를 난감하게 만든 문제

XOR 진리표

XOR이 특별한 이유

불가능성의 기하학

돌파구: 은닉층

XOR 풀기: “아하!” 순간

인터랙티브 플레이그라운드

Repository: perceptrons-to-transformers – 02-xor-problem

이것이 열어준 것

퍼셉트론에서 트랜스포머까지 – 18부 중 2부

지금까지 배운 내용

다음은?

참고문헌

Tags

코드

관련 글

VoxCPM: 컨텍스트 인식 음성 생성 및 보이스 클로닝을 위한 새로운 토크나이저‑프리 접근법

딥러닝에서 프루닝: 구조적 vs 비구조적

Unsloth와 Hugging Face Jobs로 AI 모델을 무료로 훈련하기

AI 에이전트가 자신의 가드레일을 이해하면 어떻게 될까?

“퍼셉트론은 많은 제한이 있다… 가장 심각한 것은 가장 단순한 비선형 함수조차 학습하지 못한다는 점이다.” – Marvin Minsky

Repository: `perceptrons-to-transformers` – `02-xor-problem`