๐ต ์ฐจ์ ํจ๊ปํ๋ ๋จธ์ ๋ฌ๋ ์ค๋ช โ ZeroโKnowledge ๋น์
Source: Dev.to
โญ 1. ์๋ฒฝํ ์ฐจ ํ ์ ๋ง๋ค๊ธฐ๋ฅผ ๋ฐฐ์ฐ๊ณ ์์ต๋๋ค
์น๊ตฌ์๊ฒ ์ฐจ๋ฅผ ๋ง๋ค์ด ์ฃผ๊ณ ์ถ์ต๋๋ค. ๊ทธ ์น๊ตฌ๋ ๋งค์ฐ ๊น๋ค๋กญ์ต๋๋ค.
- ์น๊ตฌ๋ ์๋ฒฝํ ์ฐจ ๋ง์ ์ ํํ ์๊ณ ์์ต๋๋ค โ ๋น์ ์ ML ๋ชจ๋ธ์ ๋ชจ๋ฆ ๋๋ค.
- ๋น์ ์ด ๋ง๋ ํ ์ = ํ๋์ ์์ธก
- ์น๊ตฌ์ ๋ง = ์ค์ ์ ๋ต
โญ 2. ๋น์ฉ ํจ์ = ์ฐจ ๋ง์ด ์ผ๋ง๋ ๋์๊ฐ
์ฒซ ์์ ๋ง๋ค๋ฉด ์น๊ตฌ๊ฐ ๋งํฉ๋๋ค:
- โ์คํ์ด ๋๋ฌด ๋ง์.โ
- โ์ฐจ ๊ฐ๋ฃจ๊ฐ ๋ถ์กฑํด.โ
- โ๋๋ฌด ๋ฌผ ๊ฐ์.โ
์ด ํผ๋๋ฐฑ์ ์ฐจ๊ฐ ์๋ฒฝํ ๋ง(์ค์ฐจ)์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง๋ฅผ ์๋ ค์ค๋๋ค.
- ์ฐจ๊ฐ ๋งค์ฐ ๋์๋ฉด, ๋น์ฉ์ด ๋๋ค.
- ์ฐจ๊ฐ ๊ฑฐ์ ์๋ฒฝ์ ๊ฐ๊น๋ค๋ฉด, ๋น์ฉ์ด ๋ฎ๋ค.
๋น์ฉ ํจ์ = ์ฐจ ์ค์ ์ ์ โ ์ด๊ฒ์ ๋ค์์ ์ธก์ ํฉ๋๋ค:
- ๋ ์ํผ๊ฐ ์ผ๋ง๋ ํ๋ ธ๋์ง
- ์ด์์ ์ธ ๋ง์์ ์ผ๋ง๋ ๋จ์ด์ ธ ์๋์ง
- ์ผ๋ง๋ ๊ณ ์ณ์ผ ํ๋์ง
โญ 3. Gradient Descent = ์ฐจ๋ฅผ ๋จ๊ณ๋ณ๋ก ๊ณ ์น๊ธฐ
์๋ฒฝํ ๋ ์ํผ๋ฅผ ๋ชจ๋ฅธ ์ฑ, ์ฒ์ฒํ ๊ฐ์ ํฉ๋๋ค:
- ์คํ์ ์กฐ๊ธ ์ค์ธ๋ค
- ์ฐ์ ๋ฅผ ์กฐ๊ธ ๋ํ๋ค
- ์ฐจ ๊ฐ๋ฃจ๋ฅผ ์ฝ๊ฐ ๋๋ฆฐ๋ค
๊ฐ๊ฐ์ ๋ณํ๋ ์์ ๋ณด์ ์ด๋ฉฐ, ๋์ ๋ง์ ์ค์ฌ์ค๋๋ค.
Gradient Descent = ๋งค๋ฒ ์ค์๋ฅผ ์ค์ด๋ ์์ ๊ฑธ์๋ค์ ์ทจํ๋ ๊ฒ
๋ฐ๋ณต ๋ฃจํ:
- ์ฐจ๋ฅผ ๋ง๋ ๋ค
- ํผ๋๋ฐฑ์ ๋ฐ๋๋ค
- ๋ ์ํผ๋ฅผ ์กฐ์ ํ๋ค
- ๋ฐ๋ณตํ๋ค
์ด๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ์๊ณผ ์ ์ฌํฉ๋๋ค.
โญ 4. Learning Rate (ฮฑ) = ๊ฐ ๋ ์ํผ ์์ ์ด ์ผ๋ง๋ ํฐ๊ฐ
ํ์ต๋ฅ ์ ๊ฐ ์ค์ ํ ์กฐ์ ํฌ๊ธฐ๋ฅผ ์ ์ดํฉ๋๋ค.
- ฮฑ๊ฐ ์์ผ๋ฉด โ ์คํ์ ์์ฃผ ์กฐ๊ธ๋ง ์ค์ โ ์งํ์ด ๋๋ฆผ.
- ฮฑ๊ฐ ๋๋ฌด ํฌ๋ฉด โ ์คํ์ ๋๋ฌด ๋ง์ด ๋นผ์ โ ์ฐจ๊ฐ ์ด๋ง์ด ๋๊ณ โ ๊ณผ๋ํ๊ฒ ๋ณด์ ํ๊ฒ ๋ฉ๋๋ค.
- ฮฑ๊ฐ ์ ๋นํ๋ฉด โ ์ ๋นํ ์กฐ์ ์ผ๋ก ๊พธ์คํ ์๋ฒฝํ ๋ง์ ๋ค๊ฐ๊ฐ๋๋ค.
ํ์ต๋ฅ = ๋ ์ํผ๋ฅผ ๋ฐฐ์ฐ๋ ์๋.
โญ 5. ์๋ ด ์๊ณ ๋ฆฌ์ฆ = ์ธ์ ์กฐ์ ์ ๋ฉ์ถ์ง ์๊ธฐ
At first, improvements are large:
- Cost drops 70 โ 50 โ 30 โ 15
Later, progress becomes tiny:
- 15 โ 14.5 โ 14.4 โ 14.39
Eventually:
๐ You canโt improve the taste any further.
Extra changes donโt help.
Convergence = the moment your recipe is good enough โ stop training.
The convergence algorithm checks:
- Is improvement tiny?
- Is cost stable?
- Should training stop?
โญ 6. ์ ์ด๋ฌํ ๊ฐ๋ ๋ค์ด ํจ๊ป ์๋ํ๋๊ฐ (๋น ๋ฅธ ์ฐจ ์์ฝ)
| Concept | TeaโMaking Analogy | Purpose |
|---|---|---|
| Cost Function | โ์ด ๋ง์ด ์ผ๋ง๋ ๋์๊ฐ?โ | ์ค๋ฅ๋ฅผ ์ธก์ ํ๋ค |
| Gradient Descent | โํ ๋จ๊ณ์ฉ ๊ณ ์ณ๋ณผ๊ฒ.โ | ์ ์ง์ ์ผ๋ก ๊ฐ์ ํ๋ค |
| Learning Rate (ฮฑ) | โ๊ฐ ๋ณด์ ์ ์ผ๋ง๋ ํฌ๊ฒ ํด์ผ ํ ๊น?โ | ํ์ต ์๋๋ฅผ ์ ์ดํ๋ค |
| Convergence Algorithm | โ์ด์ ๋ง์ด ์๋ฒฝํด. ๋ฉ์ถฐ.โ | ํ์ต์ ์ค๋จํ๋ค |
โญ 7. ์ฑ๋ฅ ์งํ = ์ฐจ๋ฅผ ํ๊ฐํ๋ ๋ค์ํ ๋ฐฉ๋ฒ
๋ง์ ๊ณ ๊ฐ์๊ฒ ์ฐจ๋ฅผ ํ๋งคํ๊ณ ์๋ค๊ณ ์์ํด ๋ณด์ธ์. ์ฌ๋๋ง๋ค ํ๊ฐ ๊ธฐ์ค์ด ๋ค๋ฆ ๋๋ค:
- Accuracy(์ ํ๋) โ โ๋ด ์ฐจ๋ฅผ ์ข์ํ ๊ณ ๊ฐ์ ๋ช ๋ช ์ธ๊ฐ?โ
- Precision(์ ๋ฐ๋) โ โ์ด ์ปต์ด ์ข๋ค๊ณ ๋งํ์ ๋, ์ผ๋ง๋ ์์ฃผ ๋ง์๋๊ฐ?โ
- Recall(์ฌํ์จ) โ โ์ข์ ์ฐจ๋ฅผ ์ํ ์ฌ๋๋ค ์ค ์ค์ ๋ก ๋ช ๋ช ์๊ฒ ์ ๊ณตํ๋๊ฐ?โ
- F1โScore โ ์ ๋ฐ๋์ ์ฌํ์จ ์ฌ์ด์ ๊ท ํ: ๋ด๊ฐ ์ผ๊ด๋๊ฒ ์ข์๊ฐ?
- ROCโAUC โ โ์ฐจ๋ฅผ ์ข์ํ๋ ์ฌ๋๊ณผ ๊ทธ๋ ์ง ์์ ์ฌ๋์ ์ผ๋ง๋ ์ ๊ตฌ๋ถํ ์ ์๋๊ฐ?โ
- ๋์ AUC โ ๊น๋ค๋ก์ด ์ฌ๋๋ค์กฐ์ฐจ ๋ง์ ํ์ง์ ๋์ํ๋ค.
โญ 8. ํ๋์ ์ฐจ ์ด์ผ๊ธฐ ์ ๋ชจ๋ ๊ฐ๋
1๏ธโฃ ์ฐจ๋ฅผ ๋ง๋ ๋ค โ prediction
2๏ธโฃ ์น๊ตฌ๊ฐ ๋ง์ ๋ณธ๋ค โ cost function
3๏ธโฃ ๋น์ ์ด ์กฐ์ ํ๋ค โ gradient descent
4๏ธโฃ ์์ ํ๋ช
ํ๊ฒ ์กฐ์ ํ๋ค โ learning rate
5๏ธโฃ ์๋ฒฝํด์ง ๋ ๋ฉ์ถ๋ค โ convergence
6๏ธโฃ ๋ง์ ์ฌ๋์๊ฒ ์ ๊ณตํ๋ค โ performance metrics
์ด์ ์ฐจ๋ฅผ ํตํด ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ด ํ์ตํ๊ณ ํ๊ฐ๋๋ ๊ณผ์ ์ ๊ทธ๋๋ก ์ฌํํ์ต๋๋ค! ๐ต
๐ ์ต์ข ์ฐจ ์์ฝ
- Cost Function = ๋ง ์ค๋ฅ
- Gradient Descent = ๋ ์ํผ๋ฅผ ๋จ๊ณ๋ณ๋ก ๊ฐ์
- Learning Rate (ฮฑ) = ๊ฐ ์์ ์ ํฌ๊ธฐ
- Convergence = ๋ ์ํผ๊ฐ ์๋ฒฝํด์ง ๋ ๋ฉ์ถค
- Performance Metrics = ๋ง์ ์ฌ๋๋ค์๊ฒ ์ฐจ ํ์ง์ ํ๊ฐ
๋จธ์ ๋ฌ๋ โ ํผ๋๋ฐฑ๊ณผ ์ ์ง์ ๊ฐ์ ์ ํตํด ํ๋ฅญํ ์ฐจ๋ฅผ ๋ง๋๋ ๋ฐฉ๋ฒ์ ๋ฐฐ์ฐ๋ ๊ฒ ๐ตโจ