๐ต Linear Regression ์ ๋ ์ด๋ณด์๋ฅผ ์ํ ์ฐจ์ ํจ๊ป โ ์ ๋ก ์ง์ ๋น์
Source: Dev.to
๋จธ์ ๋ฌ๋์ ์ํ์ ์ผ๋ก ๋๊ปด์ง ์ ์์ต๋๋ค โ ๊ธฐ์ธ๊ธฐ, ๋น์ฉ ํจ์, ์ ๊ทํ, ๊ณผ์ ํฉโฆ ๋ง์น ์ธ๊ตญ์ด์ฒ๋ผ ๋ค๋ฆฌ์ฃ .
๊ทธ๋ฌ๋ ์ฉ์ด๋ ์ ์ ์์ด๋ฒ๋ฆฌ์ธ์.
๋น์ ์ด ์ฐจ ๊ฐ๊ฒ๋ฅผ ์ด์ํ๋ค๊ณ ์์ํด ๋ณด์ธ์. ๋งค์ผ ๋ค์์ ๊ธฐ๋กํฉ๋๋ค:
- ์จ๋
- ํ๋งค๋ ์ฐจ ์ ์
๋น์ ์ ๋ชฉํ๋? ๐ ๋ด์ผ์ ์ฐจ ํ๋งค๋์ ์์ธกํ๋ ๊ฒ.
์ด ํ๋์ ๋ชฉํ๋ง์ผ๋ก๋ ๋ค์ ๋ชจ๋ ๊ฐ๋ ์ ๋ฐฐ์ธ ์ ์์ต๋๋ค:
- ์ ํ ํ๊ท
- ๋น์ฉ ํจ์
- ๊ฒฝ์ฌ ํ๊ฐ๋ฒ
- ๊ณผ์ ํฉ
- ์ ๊ทํ
- ์ ๊ทํ๋ ๋น์ฉ ํจ์
์์ํด ๋ด ์๋ค.
โญ ์๋๋ฆฌ์คโฏ1: ์ ํ ํ๊ท๋ ๋ฌด์์ธ๊ฐ?
์จ๋์ ๋ฐ๋ฅธ ์ฐจ ํ๋งค ์์ธก
๋น์ ์ ๋ค์์ ๊ด์ฐฐํฉ๋๋ค:
| ์จ๋ (ยฐC) | ํ๋งค๋ ์ฐจ ์ ์ |
|---|---|
| 10 | 100 |
| 15 | 80 |
| 25 | 40 |
ํจํด์ด ์์ต๋๋ค: ์จ๋๊ฐ ๋ฎ์์๋ก ์ฐจ๋ฅผ ๋ ๋ง์ด ํ๋งคํฉ๋๋ค.
์ ํ ํ๊ท๋ ์ด ๊ด๊ณ๋ฅผ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ์ง์ ์ ๊ทธ๋ฆฌ๋ ค๊ณ ํฉ๋๋ค:
[ \hat{y}=mx+c ]
- (x) = ์จ๋
- (\hat{y}) = ์์ธก๋ ์ฐจ ํ๋งค๋
- (m) = ๊ธฐ์ธ๊ธฐ (์จ๋๊ฐ 1๋ ์์นํ ๋ ์ฐจ ํ๋งค๋์ด ์ผ๋ง๋ ๊ฐ์ํ๋์ง)
- (c) = ๊ธฐ๋ณธ ์ฐจ ์์
๊ทธ๊ฒ ์ ๋ถ์ ๋๋ค โ ๋ด์ผ์ ์ฐจ ํ๋งค๋์ ์์ธกํ๋ ๊ฐ๋จํ ์ง์ .
โญ Scenarioโฏ2: Cost Function
Measuring โHow Wrongโ Your Predictions Are
Todayโs temperature: 20โฏยฐC
Your model predicted: 60 cups
Actual: 50 cups
Error = 10 cups
The cost function gives a score for your overall wrongness:

Why square?
Because being wrong by 30 cups is far worse than being wrong by 3 cups, and the model should learn that.
The lower the cost โ the better the model.
โญ ์๋๋ฆฌ์คโฏ3: Gradient Descent
๋จ๊ณ๋ณ ๊ฐ์ ์ ์์
์๋ก์ด ์ฐจ ๋ ์ํผ๋ฅผ ์คํํ๋ค๊ณ ์์ํด ๋ณด์ธ์:
- ์คํ์ ๋ ๋ฃ์ผ๋ฉด โ ๋๋ฌด ๋ฌ๋ค
- ์คํ์ ๋ ๋ฃ์ผ๋ฉด โ ๋๋ฌด ๋ฐ๋ฐํ๋ค
- ์๋ฒฝํด์ง ๋๊น์ง ์ฒ์ฒํ ์กฐ์ ํ๋ค
์ด๊ฒ์ด ๋ฐ๋ก Gradient Descent ์ ๋๋ค.
๋ชจ๋ธ์ ๋ค์์ ๋จ๊ณ๋ณ๋ก ์กฐ์ ํฉ๋๋ค:
- ๊ธฐ์ธ๊ธฐ ((m))
- ์ ํธ ((c))
๋น์ฉ ํจ์๋ ์ธ๋์ด๋ผ๊ณ ์๊ฐํ์ธ์. ์ฌ๋ฌ๋ถ์ ๊ทธ ์ ์ด๋๊ฐ์ ์ ์์ต๋๋ค. ๋ชฉํ๋ ๊ฐ์ฅ ๋ฎ์ ์ง์ ์ผ๋ก ๋ด๋ ค๊ฐ๋ ๊ฒ์ ๋๋ค. ๊ทธ ๊ฐ์ฅ ๋ฎ์ ์ง์ ์ด ๋ฐ๋ก ์ต์ ๋ชจ๋ธ์ ๋๋ค.
โญ ์๋๋ฆฌ์คโฏ4: ๊ณผ์ ํฉ
๋ชจ๋ธ์ด ๋๋ฌด ์ด์ฌํ ์๋ํ๊ณ โ๋ ธ์ด์ฆโ๋ฅผ ํ์ตํ ๋
๋งค์ผ ๋๋ฌด ๋ง์ ์ธ๋ถ ์ฌํญ์ ๊ธฐ๋กํ๋ค๊ณ ๊ฐ์ ํด ๋ณด์ธ์:
- ์จ๋
- ์ต๋
- ๋น
- ๋ฐ๋
- ์ถ์
- ํฌ๋ฆฌ์ผ ๊ฒฝ๊ธฐ ์ ์
- ๊ตํต
- ์ด์์ง ๊ฐ ์ง๋ ์๋ฆฌ
- ๊ณ ๊ฐ๋ค์ ์ ์ธ ์์
- ํ๋์ด ์ผ๋ง๋ ํ๋ฆฐ์ง
๋ชจ๋ธ์ ๋ชจ๋ ๊ฒ์ ์ฌ์ฉํ๋ ค๊ณ ํ๋ฉฐ, ์ค์ํ์ง ์์ ๊ฒ๋ค๊น์ง๋ ํฌํจํฉ๋๋ค.
์ด๋ ๊ณผ์ ํฉ์ ์ด๋ํฉ๋๋ค:
- ๋ชจ๋ธ์ด ํ๋ จ ๋ฐ์ดํฐ์์ ํ๋ฅญํ๊ฒ ์๋ํฉ๋๋ค
- ๊ทธ๋ฌ๋ ์๋ก์ด ๋ฐ์ดํฐ์์๋ ๋์ฐํ๊ฒ ์๋ํฉ๋๋ค
์ผ๋ฐ์ ์ธ ํจํด์ ์ดํดํ๋ ๋์ ๊ธฐ์ตํด ๋ฒ๋ฆฝ๋๋ค.
โญ ์๋๋ฆฌ์คโฏ5: ๊ณผ์ ํฉ์ ์ด๋ป๊ฒ ํด๊ฒฐํ ๊น?
- โ ์ธ๋ชจ ์๋ ํน์ง ์ ๊ฑฐ โ โdog barkingโ ๋ฑ๊ณผ ๊ฐ์ ์ก์์ ๋ฌด์ํฉ๋๋ค.
- โ ๋ ๋ง์ ๋ฐ์ดํฐ ์์ง โ ์์๊ฐ ๋ง์์ง์๋ก ํจํด์ด ๋ช ํํด์ง๋๋ค.
- โ ์ ๊ทํ ์ ์ฉ โ ๊ฐ์ฅ ๊ฐ๋ ฅํ ํด๊ฒฐ์ฑ ์ ๋๋ค.
โญ Scenarioโฏ6: ์ ๊ทํ๋ ๋ฌด์์ธ๊ฐ?
๋ชจ๋ธ์ด ๊ณผ๋ํ๊ฒ ์๊ฐํ๋ ๊ฒ์ ๋ง๊ธฐ ์ํ ํจ๋ํฐ ์ถ๊ฐ
๋น์ ์ ์ฐจ ๊ฐ๊ฒ์์ ์ฐจ๋ฅผ ๋ง๋๋ ์ฌ๋์ด ์ฌ๋ฃ๋ฅผ ๋๋ฌด ๋ง์ด ์ฌ์ฉํ๋ฉด ์ฐจ๊ฐ ๋ค์๊ณผ ๊ฐ์ด ๋ฉ๋๋ค:
- ํผ๋์ค๋ฌ์ด
- ๊ฐํ
- ๋น์ผ
- ์์ธก ๋ถ๊ฐ๋ฅํ
๊ทธ๋์ ๋น์ ์ ๊ทธ์๊ฒ ์ด๋ ๊ฒ ๋งํฉ๋๋ค:
โ์ฌ๋ฃ๋ฅผ ์ ๊ฒ ์จ. ๋๋ฌด ๋ง์ด ์ฐ๋ฉด ๋ณด๋์ค๋ฅผ ์ญ๊ฐํ ๊ฑฐ์ผ.โ
๊ทธ ํจ๋ํฐ๋ ๊ทธ๊ฐ ๋จ์ํ๊ณ ์ผ๊ด๋ ์ฐจ๋ฅผ ๋ง๋ค๋๋ก ๊ฐ์ ํฉ๋๋ค.
์ ๊ทํ๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๋๊ฐ์ด ์ ์ฉ๋ฉ๋๋ค. ์ ๊ทํ๋ ์ด๋ ๊ฒ ๋งํฉ๋๋ค:
โ๋ชจ๋ธ์ด ๋๋ฌด ๋ณต์กํด์ง๋ฉด ๋น์ฉ์ ๋๋ฆด๊ฒ.โ
์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ ์ค์ํ ํน์ง๋ง ๋จ๊ธฐ๋๋ก ๊ฐ์ ๋ฉ๋๋ค.
โญ ์๋๋ฆฌ์คโฏ7: ์ ๊ทํ๋ ์ ํ ํ๊ท
(์์ธ ์ค๋ช ํฌํจ)
์ ๊ทํ๋ ์ผ๋ฐ์ ์ธ ๋น์ฉ ํจ์์ ๋ค์๊ณผ ๊ฐ์ด ๋ณํ์ ๊ฐํฉ๋๋ค:

์ฌ๊ธฐ์:
- (\theta) = ๋ชจ๋ธ ํ๋ผ๋ฏธํฐ (๊ฐ ํน์ง์ ๊ฐ์ค์น)
- (\lambda) = ์ ๊ทํ ๊ฐ๋ (๊ฐ์ด ํด์๋ก ๋ ๊ฐํ ํ๋ํฐ)
๐ฆ ์ด ํ๋ํฐ๋ ๋ฌด์์ ํ๋์?
10๊ฐ์ ํน์ง์ ์ถ์ ํ๋ค๊ณ ๊ฐ์ ํด ๋ณด์ธ์:
- ์จ๋
- ์ต๋
- ๋ฐ๋
- ๋น
- ์ถ์
- ์์ผ
- ๋๋ก ๊ตํต๋
- ํฌ๋ฆฌ์ผ ๊ฒฝ๊ธฐ ์ ์
- ์ง์ญ ์์ ์์ค
- ๊ฐ ์ง๋ ์๋ฆฌ ๋น๋
๋ชจ๋ธ์ ๋ชจ๋๋ฅผ ์ค๋ช ํ๋ ค๊ณ ํฉ๋๋ค. ์ผ๋ถ ๊ฐ์ค์น๋ ํฌ๊ฒ ๋ฉ๋๋ค:
| ํน์ง | ๊ฐ์ค์น |
|---|---|
| ์จ๋ | 1.2 |
| ์ถ์ | 2.8 |
| ๊ตํต๋ | 3.1 |
| ๊ฐ ์ง๋ ์๋ฆฌ | 1.5 |
| ์์ ์์ค | 2.4 |
ํฐ ๊ฐ์ค์น = ๋ชจ๋ธ์ด ํด๋น ํน์ง์ ๋งค์ฐ ์ค์ํ๊ฒ ์ฌ๊ธฐ์ง๋ง, ์ค์ ๋ก๋ ๋ฌด์์ ์ก์์ผ ์๋ ์์ต๋๋ค.
์ ๊ทํ๋ ์ด๋ฌํ ๊ฐ์ค์น๋ฅผ ์ค์ด๋ ํ๋ํฐ๋ฅผ ์ถ๊ฐํฉ๋๋ค:
- ์จ๋ โ ์ค์๋ ์ ์ง
- ์ถ์ โ ์ฝ๊ฐ ๊ฐ์
- ๊ฐ ์ง๋ ์๋ฆฌ โ 0์ ๊ฐ๊น๊ฒ ์ถ์
- ์์ โ 0์ ๊ฐ๊น๊ฒ ์ถ์
์ด๋ ๊ฒ ํ๋ฉด ๋ชจ๋ธ์ด ๋ ๊ฐ๋จํ๊ณ , ์ผ๋ฐํ๊ฐ ์ ๋๋ฉฐ, ์ ํ๋๋ ํฅ์๋ฉ๋๋ค.
โญ ์๋๋ฆฌ์คโฏ8: ์ ๊ทํ๊ฐ ๊ณผ์ ํฉ์ ํด๊ฒฐํ๋ ๋ฐฉ๋ฒ
(๊น์ ์ค์ ์๋๋ฆฌ์ค)
์ ๊ทํ ์ : ๊ณผ๋ํ๊ฒ ์๊ฐํ๋ ๋ชจ๋ธ
๋ชจ๋ธ์ด ๋ชจ๋ ๋ฌด์์ ์ธ๋ถ ์ฌํญ์ ๋์ ๋๊ฒ ์ธ์ํฉ๋๋ค:
์ด๋ ๋ ๋น๊ฐ ์๊ณ ์ธ๋๊ฐ ๊ฒฝ๊ธฐ๋ฅผ ์ด๊ฒผ์ผ๋ฉฐ ์ถ์ ๊ฐ ์ด๋ฆฌ๊ณ ๋ ์จ๊ฐ ์ถ์ ๊ณ ๊ตํต๋์ด ์ ์์ด์โฆ ๊ทธ๋ ์ฐจ ํ๋งค๋์ด ๋์์ต๋๋ค.
๊ทธ๋์ ๋ชจ๋ธ์ ๋ค์๊ณผ ๊ฐ์ด ์๊ฐํฉ๋๋ค:
- โ๋น๊ฐ ์ฐจ ํ๋งค๋์ 6โฏ% ์ฆ๊ฐ์ํจ๋คโ
- โํฌ๋ฆฌ์ผ ๊ฒฝ๊ธฐ ๊ฒฐ๊ณผ๊ฐ ํ๋งค๋์ 8โฏ% ์ฆ๊ฐ์ํจ๋คโ
- โ๊ฐ ์ง๋ ์๋ฆฌ๊ฐ ํ๋งค๋์ 2โฏ% ๊ฐ์์ํจ๋คโ
- โ๊ตํต๋์ด ํ๋งค๋์ 4โฏ% ์ฆ๊ฐ์ํจ๋คโ
- โฆ๋ฑ๋ฑ.
์ด๋ ์ฐ์ฐ์ ์ธ์ฐ๋ ์ ํ์ ์ธ ๊ณผ์ ํฉ์ ๋๋ค.
์ ๊ทํ ํ:
ํจ๋ํฐ๊ฐ ๋ชจ๋ธ์ด ์ค์ ๋ก ์์ธก์ ๋์์ด ๋๋ ํน์ง(์: ์จ๋)๋ง์ ๋จ๊ธฐ๊ณ , ์ก์์ด ์์ธ ํน์ง(๊ฐ ์ง์, ํฌ๋ฆฌ์ผ ์ ์ ๋ฑ)์ 0์ ๊ฐ๊น๊ฒ ๋ง๋ค๋๋ก ๊ฐ์ ํฉ๋๋ค. ์ด๋ ๊ฒ ๋ง๋ ๋ชจ๋ธ์ ์๋ก์ด ๋ ์๋ ์ ์ผ๋ฐํ๋์ด ๋ณด๋ค ์ ๋ขฐํ ์ ์๋ ํ๋งค ์์ธก์ ์ ๊ณตํฉ๋๋ค.
์ ๊ทํ: ์ฑ์ํ ๋ชจ๋ธ
์ ๊ทํ๋ ์ธ๋ชจ์๋ ๊ฐ์ค์น๋ฅผ ์ถ์ํฉ๋๋ค:
- ๊ฐ ์ง์ โ 0
- ํฌ๋ฆฌ์ผ ๊ฒฝ๊ธฐ โ 0
- ์์ โ 0
- ๊ตํต โ ์์ฃผ ์๊ฒ
- ์ถ์ โ ๋ณดํต
- ์จ๋ โ ๊ฐํ๊ฒ ์ ์ง
- ๋น โ ๋ณดํต
๋ชจ๋ธ์ด ํ์ตํฉ๋๋ค:
โ๋งค์ถ์ ์ฃผ๋ก ์จ๋ + ๋น + ์ถ์ ์ผ์ ์์กดํฉ๋๋ค. ๊ทธ ์ธ ๋ชจ๋ ๊ฒ์ ์ก์์ ๋๋ค.โ
์ ๊ทํ๊ฐ ๋์์ด ๋๋ ์ด์
- ๋ฌด์์ ์ธ๋ถ ์ฌํญ์ ๋ํ ์์กด๋ ๊ฐ์
- ๊ฐ๋จํ ๊ท์น ์ฅ๋ ค
- ๋ฏธ๋ ๋ ์ง์ ๋ํ ์ผ๋ฐํ ํฅ์
์ด๊ฒ์ด ์ ๊ทํ๊ฐ ์ค์ ๋จธ์ ๋ฌ๋์์ ํ์์ ์ธ ์ด์ ์ ๋๋ค.
๐ฏ ์ต์ข ์์ฝ (์ด๋ณด์์๊ฒ ์๋ฒฝ)
| Concept | Meaning | TeaโStall Analogy |
|---|---|---|
| Linear Regression | ์ต์ ์ ์ง์ ํผํ | ์จ๋๋ก๋ถํฐ ์ฐจ ํ๋งค๋ ์์ธก |
| Cost Function | ์ค๋ฅ ์ ๋๋ฅผ ์ธก์ | ์์ธก์ด ์ค์ ์ฐจ ํ๋งค๋๊ณผ ์ผ๋ง๋ ์ฐจ์ด ๋๋์ง |
| Gradient Descent | ์ต์ ํ ๊ธฐ๋ฒ | ์ฐจ ๋ ์ํผ๋ฅผ ์๋ฒฝํด์ง ๋๊น์ง ์กฐ์ |
| Overfitting | ๋ชจ๋ธ์ด ์ก์์ ๊ธฐ์ตํจ | ๊ฐ ์ง์๊ณผ ํฌ๋ฆฌ์ผ ๊ฒฝ๊ธฐ ์ถ์ |
| Regularization | ๋ณต์ก๋์ ๋ํ ํ๋ํฐ | ์ฐจ ์ ์กฐ์๊ฐ ์ฌ๋ฃ๋ฅผ ์ ๊ฒ ์ฌ์ฉํ๋๋ก ๊ฐ์ |
| Regularized Cost | ์ผ๋ฐ ๋น์ฉ + ํ๋ํฐ | ์์ธก์ โ๊ณผ๋ํ๊ฒ ์๊ฐโํ๋ ๊ฒ์ ๋ฐฉ์ง |