๐Ÿ”ฅ๋งˆ์นจ๋‚ด ๋‚˜๋Š” ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋งŒ๋“ค ์ˆ˜ ์žˆ์—ˆ๋‹ค๐Ÿ”ฅ

๋ฐœํ–‰: (2025๋…„ 12์›” 16์ผ ์˜ค์ „ 01:58 GMT+9)
5 min read
์›๋ฌธ: Dev.to

Source: Dev.to

์—ฌ๋Ÿฌ ์ฐจ๋ก€์˜ ๋ฐ˜๋ณต, ์‹คํ—˜, ๊ทธ๋ฆฌ๊ณ  ๋ฐฐ์šด ๊ตํ›ˆ๋“ค์„ ๊ฑฐ์ณ, ๋‚˜๋Š” ๋งˆ์นจ๋‚ด 550โ€ฏMโ€‘ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์„ ์™„์ „ํžˆ ์ฒ˜์Œ๋ถ€ํ„ฐ ๊ตฌ์ถ•ํ–ˆ์Šต๋‹ˆ๋‹ค.

์ด๊ฒƒ์ด ์ฒ˜์Œ์œผ๋กœ ์ž‘์€ ์–ธ์–ด ๋ชจ๋ธ์„ ๋งŒ๋“  ๊ฒƒ์€ ์•„๋‹™๋‹ˆ๋‹ค. ์ด์ „์—๋„ ๋ช‡ ์ฐจ๋ก€ ๋งŒ๋“ค์—ˆ์ง€๋งŒ, ๊ทธ๋•Œ๋Š” TinyStories ๊ฐ™์€ ์žฅ๋‚œ๊ฐ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ•™์Šตํ–ˆ์Šต๋‹ˆ๋‹ค. ์ดˆ๊ธฐ ํ”„๋กœ์ ํŠธ ์ค‘ ์ผ๋ถ€๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค:

  • Qwen
  • Gemma
  • Rnjโ€‘1
  • Meta LLaMA

์ด๋ฒˆ์—๋Š” ์˜๋„์ ์œผ๋กœ ์„ ํƒํ–ˆ์Šต๋‹ˆ๋‹ค: ์žฅ๋‚œ๊ฐ ๋ฐ์ดํ„ฐ์…‹์ด ์•„๋‹Œ ์‹ค์ œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•ด ์˜๋ฏธ ์žˆ๋Š” ๋ฌด์–ธ๊ฐ€๋ฅผ ๋งŒ๋“œ๋Š” ๊ฒƒ.

Dataset

  • Pretraining:
  • Midโ€‘training:
  • Supervised fineโ€‘tuning:

Tokenizer

Tokenizer๋Š” ์ข…์ข… ๊ฐ„๊ณผ๋˜์ง€๋งŒ, ํšจ๊ณผ์ ์ธ ์–ธ์–ด ๋ชจ๋ธ์„ ๋งŒ๋“ค๊ธฐ ์œ„ํ•ด์„œ๋Š” ๋งค์šฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•ฉ๋‹ˆ๋‹ค. ๋‚˜๋Š” ์˜ฌ๋ฐ”๋ฅธ tokenizer๋ฅผ ์ดํ•ดํ•˜๊ณ  ์„ ํƒํ•˜๋Š” ๊ณผ์ •์„ ๊ณต์œ ํ•˜๊ธฐ ์œ„ํ•ด ์˜์ƒ์„ ๋งŒ๋“ค์—ˆ์Šต๋‹ˆ๋‹ค.

์˜ฌ๋ฐ”๋ฅธ tokenizer ์„ ํƒ โ€“ ์„ ํƒ ๋ฐฐ๊ฒฝ:

Attention

Attention์€ ๋ณต์žกํ•˜๊ฒŒ ๋“ค๋ฆด ์ˆ˜ ์žˆ์ง€๋งŒ, ํ•ต์‹ฌ ์•„์ด๋””์–ด๋Š” ๊ฐ„๋‹จํ•ฉ๋‹ˆ๋‹ค: ์ค‘์š”ํ•œ ๊ฒƒ์— ์ง‘์ค‘ํ•œ๋‹ค๋Š” ๊ฒƒ. Attention์„ ์™„์ „ํžˆ ์ดํ•ดํ•˜๋ฉด์„œ ์–ธ์–ด ๋ชจ๋ธ์„ ๋ณด๋Š” ์‹œ๊ฐ์ด ํฌ๊ฒŒ ๋ฐ”๋€Œ์—ˆ์Šต๋‹ˆ๋‹ค.

  • ์˜ฌ๋ฐ”๋ฅธ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์„ ํƒ โ€“ ์‹ค์ œ๋กœ ์ ์šฉ๋˜๋Š” ๋ฐฉ๋ฒ•:
  • Selfโ€‘attention ๋‚ด๋ถ€ ๊ตฌ์กฐ โ€“ ๋‹จ๊ณ„๋ณ„ ์ƒ์„ธ ์„ค๋ช…:

Architecture

๋‚ด๊ฐ€ ๋”ฐ๋ฅธ ์•„ํ‚คํ…์ฒ˜๋Š” ํ˜„๋Œ€์ ์ธ ์‚ฌ์ „ ์ •๊ทœํ™”(preโ€‘normalized) Transformer ๋ธ”๋ก์œผ๋กœ, ํšจ์œจ์„ฑ, ์•ˆ์ •์„ฑ, ํ™•์žฅ์„ฑ์„ ์œ„ํ•ด ์ตœ์ ํ™”๋˜์—ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ 550โ€ฏMโ€‘ํŒŒ๋ผ๋ฏธํ„ฐ์™€ ๊ฐ™์€ ์ค‘๊ฐ„ ๊ทœ๋ชจ ๋ชจ๋ธ์— ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค.

Transformer block diagram

Training Cost

ํ•™์Šต์—๋Š” RunPod ()๋ฅผ ์‚ฌ์šฉํ–ˆ๊ณ , 8โ€ฏร—โ€ฏA100 GPU๋ฅผ 1.5โ€ฏ์ผ ๋™์•ˆ ๋Œ€์—ฌํ–ˆ์œผ๋ฉฐ, ์ด ๋น„์šฉ์€ ์•ฝ $405 ์ •๋„์˜€์Šต๋‹ˆ๋‹ค.

Note: ๋ฃจํŠธ ๋””์Šคํฌ์— ์ถฉ๋ถ„ํ•œ ๊ณต๊ฐ„์ด ์žˆ๋Š”์ง€ ํ™•์ธํ•˜์„ธ์š”. ๋””์Šคํฌ ๊ณต๊ฐ„์ด ๋ถ€์กฑํ•ด ํ•œ ๋ฒˆ์˜ ํ•™์Šต์„ ์ทจ์†Œํ•ด์•ผ ํ–ˆ์Šต๋‹ˆ๋‹ค.

Training cost screenshot

Final Output

ํ•™์Šต๊ณผ ์„ค์ •์„ ๋งˆ์นœ ๋’ค, ๋ชจ๋ธ์€ ์ด์ œ ์‹คํ–‰ ์ค‘์ด๋ฉฐ ์งˆ๋ฌธ์— ๋‹ต๋ณ€ํ•  ์ค€๋น„๊ฐ€ ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

Model output screenshot

Book

Book cover

์ด ์—ฌ์ • ๋‚ด๋‚ด ๊พธ์ค€ํžˆ ๋„์›€์ด ๋œ ์ž์›์€ ๋ฐ”๋กœ ๋‚ด๊ฐ€ ์ง์ ‘ ์“ด ์ฑ…, Building a Small Language Model from Scratch ์ž…๋‹ˆ๋‹ค. ์ฑ…์„ ์“ฐ๋ฉด์„œ ํ† ํฌ๋‚˜์ด์ €, ์–ดํ…์…˜ ๋ฉ”์ปค๋‹ˆ์ฆ˜, ์•„ํ‚คํ…์ฒ˜ ์„ ํƒ, ํ•™์Šต ํŒŒ์ดํ”„๋ผ์ธ, ๋””๋ฒ„๊น… ์‹คํŒจ ๋“ฑ ๋ชจ๋“  ๊ตฌ์„ฑ ์š”์†Œ๋ฅผ ์ฒœ์ฒœํžˆ ๊นŠ์ด ์ดํ•ดํ•  ์ˆ˜ ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. 550โ€ฏMโ€‘ํŒŒ๋ผ๋ฏธํ„ฐ ๋ชจ๋ธ์„ ๋งŒ๋“ค ๋•Œ๋„ ๋‚˜๋Š” ๋‚ด ์„ค๋ช…, ๋‹ค์ด์–ด๊ทธ๋žจ, ์ฝ”๋“œ walkthrough๋ฅผ ์ž์ฃผ ์ฐธ๊ณ ํ•ด ๊ฒฐ์ •์„ ๊ฒ€์ฆํ•˜๊ณ  ๊ธ‰ํ•˜๊ฒŒ ๋„˜์–ด๊ฐ€๋Š” ์ผ์„ ๋ฐฉ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

  • Gumroad:
  • Amazon:
  • Leanpub:

Summary

์ง€๋‚œ 4๊ฐœ์›” ๋™์•ˆ ๋‚˜๋Š” ์ž‘์€ ์–ธ์–ด ๋ชจ๋ธ์„ ์ฒ˜์Œ๋ถ€ํ„ฐ ๋งŒ๋“œ๋Š” ์ผ์— ์ „๋…ํ–ˆ์Šต๋‹ˆ๋‹ค. ๊ทธ ๊ณผ์ •์—์„œ ์—„์ฒญ๋‚œ ์–‘์„ ๋ฐฐ์› ์œผ๋ฉฐ, ์•ž์œผ๋กœ YouTube ์˜์ƒ๊ณผ ๋ธ”๋กœ๊ทธ ํฌ์ŠคํŠธ๋ฅผ ํ†ตํ•ด ๊ทธ ๊ตํ›ˆ๋“ค์„ ๊ณต์œ ํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์ด ๋ชจ๋ธ์ด ์ตœ์ฒจ๋‹จ ์—ฐ๊ตฌ์‹ค ๋ชจ๋ธ๊ณผ ๊ฒฝ์Ÿํ•  ์ˆ˜ ์žˆ์„๊นŒ์š”? ์ ˆ๋Œ€ ๊ทธ๋ ‡์ง€ ์•Š์œผ๋ฉฐ, ๊ทธ๊ฒƒ์ด ๋ชฉํ‘œ๋„ ์•„๋‹ˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ง„์ • ์ค‘์š”ํ•œ ๊ฒƒ์€ ์—ฌ์ •์˜ ๋ชจ๋“  ๋‹จ๊ณ„์—์„œ ์–ป์€ ๊ตํ›ˆ์ž…๋‹ˆ๋‹ค. ๋ชจ๋ธ์€ ์•„์ง ํ…Œ์ŠคํŠธ ์ค‘์ด๋ฉฐ, ๋ชจ๋“  ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•œ ๊ฒ€์ฆ์ด ์™„๋ฃŒ๋˜๋Š” ๋Œ€๋กœ Huggingโ€ฏFace์— ๊ณต๊ฐœํ•  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

Back to Blog

๊ด€๋ จ ๊ธ€

๋” ๋ณด๊ธฐ ยป

OpenAI์˜ GPT-5.2๊ฐ€ ๋‚˜์™”์Šต๋‹ˆ๋‹ค: ๊ธฐ์—…์ด ์•Œ์•„์•ผ ํ•  ์‚ฌํ•ญ

์†Œ๋ฌธ์€ ์‚ฌ์‹ค์ด์—ˆ๊ณ , โ€˜Code Redโ€™๋Š” ๋๋‚ฌ์Šต๋‹ˆ๋‹ค. OpenAI๋Š” ์˜ค๋Š˜ ์ƒˆ๋กœ์šด ์ตœ์ฒจ๋‹จ large language model LLM ํŒจ๋ฐ€๋ฆฌ์ธ GPTโ€‘5.2์˜ ์ถœ์‹œ๋ฅผ ๋ฐœํ‘œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด๋Š” โ€ฆ

GPT-5.2

๋ฒˆ์—ญํ•˜๋ ค๋Š” ํ…์ŠคํŠธ๋ฅผ ์ง์ ‘ ์ œ๊ณตํ•ด ์ฃผ์‹œ๊ฒ ์–ด์š”? ํ…์ŠคํŠธ๋ฅผ ์•Œ๋ ค์ฃผ์‹œ๋ฉด ํ•œ๊ตญ์–ด๋กœ ๋ฒˆ์—ญํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค.

OpenAI, โ€˜์ฝ”๋“œ ๋ ˆ๋“œโ€™ ๋ฉ”๋ชจ ์ดํ›„ GPT-5.2๋กœ Google์— ๋ฐ˜๊ฒฉ

OpenAI๊ฐ€ ๋ฐฉ๊ธˆ GPT-5.2๋ฅผ ์ถœ์‹œํ–ˆ์Šต๋‹ˆ๋‹ค. ์ด ์ตœ์ฒจ๋‹จ ๋ชจ๋ธ์€ ๊ฐœ๋ฐœ์ž์™€ ์ „๋ฌธ๊ฐ€๋ฅผ ๋Œ€์ƒ์œผ๋กœ ํ•˜๋ฉฐ, Google์˜ Gemini 3๊ณผ ๊ฒฝ์Ÿํ•˜๋ฉด์„œ ์ถ”๋ก  ๋ฐ ์ฝ”๋”ฉ ๋ฒค์น˜๋งˆํฌ๋ฅผ ๋Œ์–ด์˜ฌ๋ฆฌ๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.