Day 2 — Linear Regression: 직선이 데이터에서 학습하는 방법

발행: (2026년 1월 17일 오후 06:30 GMT+9)
6 min read
원문: Dev.to

Source: Dev.to

Riya는 학교에 다니고, 시험이 다가오고 있다.
그녀의 언니는 흥미로운 것을 눈치챈다:

공부 시간점수
1시간20
2시간40
3시간60

언니는 웃으며 말한다:

“아, 공부를 많이 할수록 점수를 많이 받는다 — 아주 예측 가능해!”

모르게 Riya의 언니는 바로 선형 회귀를 수행한 것이다.

그래서… 선형 회귀는 실제로 무엇일까?

큰 이름은 신경 쓰지 마세요.

선형 회귀는 단순히 의미한다: 입력과 출력 사이에 직선 관계를 찾는 것.

쉽게 말하면:

  • 입력이 증가하면
  • 출력도 증가(또는 감소)한다

꾸준하고 예측 가능한 방식으로. 그 꾸준한 행동이 핵심이다.

왜 “직선”일까?

인생은 때때로 단순하기 때문이다.

  • 더 많은 업무 경험 → 더 높은 급여
  • 더 큰 집 → 더 높은 가격
  • 더 많은 전력 사용량 → 더 높은 전기 요금

당신의 뇌는 이미 직선적인 패턴을 기대한다. 선형 회귀는 그 패턴을 데이터로 그려낼 뿐이다.

모델은 실제로 무엇을 하고 있나요?

보드에 많은 점들이 있다고 상상해 보세요 📍— 각 점은 하나의 실제 예시입니다.

선형 회귀의 역할은:

“이 모든 점에 가능한 한 가깝게 지나가는 직선 하나를 그려 보겠습니다.”

Linear Regression graph

모든 점에 닿지는 않으며 완벽하지 않지만, 전체적으로 가장 좋은 직선입니다. 이것이 모델입니다.

단순 선형 회귀 vs 다중 선형 회귀

단순 선형 회귀

하나의 입력 → 하나의 출력

예시: 공부한 시간 → 점수

다중 선형 회귀

여러 입력 → 하나의 출력

예시: 집 크기, 방 개수, 위치 → 집 가격

같은 아이디어지만, 더 많은 정보가 있습니다.

Simple vs Multiple Linear regression graph

계수 — 진정한 힘

두 가지 요소, 경험기술을 기준으로 급여를 결정하는 인사 담당자를 상상해 보세요.

Salary = (Experience × 5000) + (Skills × 3000) + Base Pay

숫자 50003000계수라고 합니다. 이들은 각 요소가 얼마나 기여하는지를 나타냅니다:

  • 계수가 클수록 → 영향력이 큽니다
  • 계수가 작을수록 → 영향력이 작습니다

요리와 마찬가지로, 소금은 맛에 큰 영향을 주고, 고추는 조금 덜 영향을 줍니다. 선형 회귀는 단순히 숫자를 예측할 뿐만 아니라, 그 숫자가 왜 타당한지 설명합니다.

HR deciding your salary based on various factors

Intercept — 시작점

If someone has:

  • 0 경험
  • 0 기술

the salary isn’t zero because there’s usually a base salary. That base value is the intercept.

Intercept is where the line starts.

왜 선형 회귀가 어디에나 있는가

  • 이해하기 쉬움
  • 학습 속도가 빠름
  • 관리자에게 설명하기 쉬움
  • 면접에서 매우 인기 있음

면접 진실: 그들은 행동을 이해하는 것에 더 신경을 쓰며, 공식을 외우는 것보다 중요하게 생각한다.

이 직선이 나쁜 생각이 되는 경우

데이터에 급격한 점프, 무작위 변동, 혹은 명확한 곡선(예: 급여 급등, 변동성 높은 가격)이 보인다면, 직선을 강제로 적용하는 것은 “원을 재기 위해 자를 사용하는 것”과 같다. 잘 작동하지 않는다. 나중에 대안을 살펴보겠다.

Tiny Brain Exercise 🧠

월간 모바일 요금을 생각해 보세요:

  • 데이터를 많이 사용할수록 → 요금이 높아짐
  • 데이터를 적게 사용할수록 → 요금이 낮아짐

이미 직선적인 관계를 기대하고 있습니다—그 직관이 선형 회귀의 기반입니다.

기억해야 할 3가지

  1. Linear regression은 직선에 맞춥니다.
  2. 계수는 각 입력의 중요도를 나타냅니다.
  3. 절편은 시작값입니다.

다음에 올 내용 👀

이제 라인을 얻었으니, 큰 질문은:

이 라인이 좋거나 나쁜지 어떻게 알 수 있을까요?

바로 여기서 오류와 손실 함수가 등장합니다.

👉 3일 차 — 오류 및 손실 함수: 모델이 얼마나 틀렸는지 측정하기

Back to Blog

관련 글

더 보기 »