๐ฅ๋ง์นจ๋ด ๋๋ ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ๋ง๋ค ์ ์์๋ค๐ฅ
Source: Dev.to
์ฌ๋ฌ ์ฐจ๋ก์ ๋ฐ๋ณต, ์คํ, ๊ทธ๋ฆฌ๊ณ ๋ฐฐ์ด ๊ตํ๋ค์ ๊ฑฐ์ณ, ๋๋ ๋ง์นจ๋ด 550โฏMโํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ์์ ํ ์ฒ์๋ถํฐ ๊ตฌ์ถํ์ต๋๋ค.
์ด๊ฒ์ด ์ฒ์์ผ๋ก ์์ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ ๊ฒ์ ์๋๋๋ค. ์ด์ ์๋ ๋ช ์ฐจ๋ก ๋ง๋ค์์ง๋ง, ๊ทธ๋๋ TinyStories ๊ฐ์ ์ฅ๋๊ฐ ๋ฐ์ดํฐ์ ์ผ๋ก ํ์ตํ์ต๋๋ค. ์ด๊ธฐ ํ๋ก์ ํธ ์ค ์ผ๋ถ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- Qwen
- Gemma
- Rnjโ1
- Meta LLaMA
์ด๋ฒ์๋ ์๋์ ์ผ๋ก ์ ํํ์ต๋๋ค: ์ฅ๋๊ฐ ๋ฐ์ดํฐ์ ์ด ์๋ ์ค์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ์๋ฏธ ์๋ ๋ฌด์ธ๊ฐ๋ฅผ ๋ง๋๋ ๊ฒ.
Dataset
- Pretraining:
- Midโtraining:
- Supervised fineโtuning:
Tokenizer
Tokenizer๋ ์ข ์ข ๊ฐ๊ณผ๋์ง๋ง, ํจ๊ณผ์ ์ธ ์ธ์ด ๋ชจ๋ธ์ ๋ง๋ค๊ธฐ ์ํด์๋ ๋งค์ฐ ์ค์ํ ์ญํ ์ ํฉ๋๋ค. ๋๋ ์ฌ๋ฐ๋ฅธ tokenizer๋ฅผ ์ดํดํ๊ณ ์ ํํ๋ ๊ณผ์ ์ ๊ณต์ ํ๊ธฐ ์ํด ์์์ ๋ง๋ค์์ต๋๋ค.
์ฌ๋ฐ๋ฅธ tokenizer ์ ํ โ ์ ํ ๋ฐฐ๊ฒฝ:
Attention
Attention์ ๋ณต์กํ๊ฒ ๋ค๋ฆด ์ ์์ง๋ง, ํต์ฌ ์์ด๋์ด๋ ๊ฐ๋จํฉ๋๋ค: ์ค์ํ ๊ฒ์ ์ง์คํ๋ค๋ ๊ฒ. Attention์ ์์ ํ ์ดํดํ๋ฉด์ ์ธ์ด ๋ชจ๋ธ์ ๋ณด๋ ์๊ฐ์ด ํฌ๊ฒ ๋ฐ๋์์ต๋๋ค.
- ์ฌ๋ฐ๋ฅธ attention ๋ฉ์ปค๋์ฆ ์ ํ โ ์ค์ ๋ก ์ ์ฉ๋๋ ๋ฐฉ๋ฒ:
- Selfโattention ๋ด๋ถ ๊ตฌ์กฐ โ ๋จ๊ณ๋ณ ์์ธ ์ค๋ช :
Architecture
๋ด๊ฐ ๋ฐ๋ฅธ ์ํคํ ์ฒ๋ ํ๋์ ์ธ ์ฌ์ ์ ๊ทํ(preโnormalized) Transformer ๋ธ๋ก์ผ๋ก, ํจ์จ์ฑ, ์์ ์ฑ, ํ์ฅ์ฑ์ ์ํด ์ต์ ํ๋์์ต๋๋ค. ํนํ 550โฏMโํ๋ผ๋ฏธํฐ์ ๊ฐ์ ์ค๊ฐ ๊ท๋ชจ ๋ชจ๋ธ์ ์ ํฉํฉ๋๋ค.

Training Cost
ํ์ต์๋ RunPod ()๋ฅผ ์ฌ์ฉํ๊ณ , 8โฏรโฏA100 GPU๋ฅผ 1.5โฏ์ผ ๋์ ๋์ฌํ์ผ๋ฉฐ, ์ด ๋น์ฉ์ ์ฝ $405 ์ ๋์์ต๋๋ค.
Note: ๋ฃจํธ ๋์คํฌ์ ์ถฉ๋ถํ ๊ณต๊ฐ์ด ์๋์ง ํ์ธํ์ธ์. ๋์คํฌ ๊ณต๊ฐ์ด ๋ถ์กฑํด ํ ๋ฒ์ ํ์ต์ ์ทจ์ํด์ผ ํ์ต๋๋ค.

Final Output
ํ์ต๊ณผ ์ค์ ์ ๋ง์น ๋ค, ๋ชจ๋ธ์ ์ด์ ์คํ ์ค์ด๋ฉฐ ์ง๋ฌธ์ ๋ต๋ณํ ์ค๋น๊ฐ ๋์์ต๋๋ค.

Book

์ด ์ฌ์ ๋ด๋ด ๊พธ์คํ ๋์์ด ๋ ์์์ ๋ฐ๋ก ๋ด๊ฐ ์ง์ ์ด ์ฑ , Building a Small Language Model from Scratch ์ ๋๋ค. ์ฑ ์ ์ฐ๋ฉด์ ํ ํฌ๋์ด์ , ์ดํ ์ ๋ฉ์ปค๋์ฆ, ์ํคํ ์ฒ ์ ํ, ํ์ต ํ์ดํ๋ผ์ธ, ๋๋ฒ๊น ์คํจ ๋ฑ ๋ชจ๋ ๊ตฌ์ฑ ์์๋ฅผ ์ฒ์ฒํ ๊น์ด ์ดํดํ ์ ์์์ต๋๋ค. 550โฏMโํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ๋ง๋ค ๋๋ ๋๋ ๋ด ์ค๋ช , ๋ค์ด์ด๊ทธ๋จ, ์ฝ๋ walkthrough๋ฅผ ์์ฃผ ์ฐธ๊ณ ํด ๊ฒฐ์ ์ ๊ฒ์ฆํ๊ณ ๊ธํ๊ฒ ๋์ด๊ฐ๋ ์ผ์ ๋ฐฉ์งํ์ต๋๋ค.
- Gumroad:
- Amazon:
- Leanpub:
Summary
์ง๋ 4๊ฐ์ ๋์ ๋๋ ์์ ์ธ์ด ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ๋ง๋๋ ์ผ์ ์ ๋ ํ์ต๋๋ค. ๊ทธ ๊ณผ์ ์์ ์์ฒญ๋ ์์ ๋ฐฐ์ ์ผ๋ฉฐ, ์์ผ๋ก YouTube ์์๊ณผ ๋ธ๋ก๊ทธ ํฌ์คํธ๋ฅผ ํตํด ๊ทธ ๊ตํ๋ค์ ๊ณต์ ํ ์์ ์ ๋๋ค.
์ด ๋ชจ๋ธ์ด ์ต์ฒจ๋จ ์ฐ๊ตฌ์ค ๋ชจ๋ธ๊ณผ ๊ฒฝ์ํ ์ ์์๊น์? ์ ๋ ๊ทธ๋ ์ง ์์ผ๋ฉฐ, ๊ทธ๊ฒ์ด ๋ชฉํ๋ ์๋์์ต๋๋ค. ์ง์ ์ค์ํ ๊ฒ์ ์ฌ์ ์ ๋ชจ๋ ๋จ๊ณ์์ ์ป์ ๊ตํ์ ๋๋ค. ๋ชจ๋ธ์ ์์ง ํ ์คํธ ์ค์ด๋ฉฐ, ๋ชจ๋ ๋ฐ์ดํฐ์ ์ ๋ํ ๊ฒ์ฆ์ด ์๋ฃ๋๋ ๋๋ก HuggingโฏFace์ ๊ณต๊ฐํ ์์ ์ ๋๋ค.