머신러닝 입문: 선형 회귀에 이르는 과정
Source: Dev.to
선형 회귀에 대해 이야기하기 전에, 먼저 그것이 속한 큰 개념인 머신러닝을 이해해야 합니다.
머신러닝 덕분에 오늘날 애플리케이션은 다음과 같은 일을 할 수 있습니다:
- 넷플릭스에서 영화를 추천하고,
- 아마존에서 상품을 제안하고,
- 휴대폰에서 얼굴을 인식하고,
- 집값이나 시험 점수를 예측하기까지.
그렇다면 머신러닝이 정확히 무엇일까요?
머신러닝은 인공지능의 한 분야로, 모든 규칙을 일일이 코딩하는 대신 컴퓨터가 데이터에서 패턴을 스스로 학습하도록 하는 기술입니다.
전통적인 프로그래밍에서는
규칙 + 데이터 → 답을 얻는다.
머신러닝에서는
데이터 + 정답 → 규칙을 학습한다.
아이에게 가르치는 상황을 떠올려 보세요.
“2 + 2를 보면 언제나 4라고 대답해.”
모든 규칙을 일일이 정의해야 합니다.
아이에게 많은 예시를 보여줍니다.
1 + 1 = 2
2 + 2 = 4
3 + 3 = 6
시간이 지나면 아이는 스스로 패턴을 깨닫게 됩니다.
“아, 숫자를 더하면 일정한 규칙이 있구나.”
머신러닝도 바로 이와 같습니다.
핵심 목표는 데이터에서 패턴을 학습하고, 보지 못한 새로운 데이터에 대해 예측하도록 기계를 돕는 것입니다.
머신러닝에는 크게 세 가지 유형이 있습니다.
-
입력(데이터) 와 출력(정답) 을 이용해 모델이 학습한다.
예시: 집 크기 → 집 가격, 공부 시간 → 시험 점수 -
정답 없이 데이터만 주고 스스로 패턴을 찾는다.
예시: 고객 행동에 따라 그룹화, 유사한 아이템끼리 클러스터링 -
보상, 실수, 시행착오 를 통해 학습한다.
예시: 게임 플레이 AI, 로봇 내비게이션
우리가 **지도 학습(supervised learning)**에 집중하면 보통 다음과 같은 질문을 합니다.
- “숫자를 예측할 수 있을까?”
- “값을 추정할 수 있을까?”
- “미래 결과를 예측할 수 있을까?”
이러한 질문들은 회귀(regression) 문제라고 부릅니다.
회귀 문제는 연속적인 수치 값을 예측하려는 경우를 말합니다.
예시:
- 집값 (예: 150,000원)
- 온도 (예: 28°C)
- 시험 점수 (예: 75%)
이는 **분류(classification)**와 다릅니다. 분류는 카테고리를 예측합니다.
예시:
- 예/아니오
- 스팸/정상 메일
- 개/고양이
이제 회귀 문제를 이해했으니, 가장 간단한 해결책 중 하나인 **선형 회귀(Linear Regression)**를 소개하겠습니다.
선형 회귀란?
선형 회귀는 입력 변수와 출력 변수 사이의 관계를 찾아 연속적인 값을 예측하는 지도 학습 알고리즘입니다.
많은 현실 세계의 관계가 직선으로 근사될 수 있기 때문에 사용됩니다.
예시:
- 공부 시간이 많을수록 시험 점수가 높아진다.
- 집이 클수록 가격이 높다.
- 광고를 많이 할수록 매출이 증가한다.
이러한 관계는 흔히 다음과 같이 요약됩니다.
“X가 증가하면 Y도 예측 가능한 방식으로 증가(또는 감소)한다.”
선형 회귀는 데이터 포인트들을 가장 잘 설명하는 최적의 직선을 그리려고 합니다.
이 직선은 패턴을 이해하고 예측하는 데 사용됩니다.
수학적으로는 다음과 같이 표현됩니다.
[ y = mx + c ]
다음 단계에서는 선형 회귀를 깊이 있게 파헤쳐 보겠습니다. 준비되셨나요? 🚀