소형 언어 모델: 지능이 실제로 필요로 하는 것을 재고하다
출처: Dev.to
“스케일이 모든 것을 해결한다 — 하지만 그렇지 않을 때도 있다.”
2024년 3월, 마이크로소프트는 처음엔 대부분의 연구자들이 진지하게 받아들이기 어려운 주장을 담은 기술 보고서를 발표했다. 그들의 새로운 모델인 Phi‑3 Mini는 38억 파라미터를 가지고 있었다. GPT‑3는 1750억, GPT‑4는 추정치가 1조 이상이다. 그럼에도 불구하고 Phi‑3 Mini는 표준 벤치마크에서 GPT‑3를 앞섰고, 여러 작업에서 GPT‑3.5에 근접했으며, 인터넷 연결 없이 노트북만으로 완전히 실행될 수 있었다.
연구 커뮤니티의 반응은 축하가 아니라 혼란이었다. 수년간 유지돼 온 스케일링 법칙—모델 크기, 데이터, 연산량, 성능 사이의 경험적 관계—은 지능이 어떻게 나타나는지에 대한 가장 신뢰할 만한 이론에 가까웠다. Phi‑3는 스케일링 법칙을 깨뜨린 것은 아니지만, “스케일이 할 수 있는 일을 설명한다”는 점을 강조했으며, “그 일을 수행하기 위해 필요한 스케일은 무엇인가”는 점을 간과하고 있었다.
Phi‑3가 제기한 질문은 “얼마나 작게 만들 수 있나?”가 아니라, 언어 모델이 잘 추론하기 위해 실제로 필요한 것이 무엇인가라는 보다 근본적인 물음이다.
이 글은 바로 그 점에 대해 다룬다. 나는 이번 주에 논문들을 읽고, Kaggle에서 세 가지 실험을 수행했으며, 현재 SLM(소형 언어 모델)이 어디에 서 있는지—진정으로 할 수 있는 일, 할 수 없는 일, 그리고 그 답이 왜 벤치마크 표보다 더 중요한지를 솔직히 정리했다.
대형 모델이 주도하던 시대
2023년까지 AI 패러다임은 명확했다: 더 큰 모델을, 더 많은 데이터와 연산으로 학습한다. GPT‑4, PaLM 2, Gemini Ultra 등은 지구상의 소수 조직만이 감당할 수 있는 인프라를 필요로 했으며, 학습 비용은 수천만에서 수억 달러에 달했다.
이것은 실제 문제를 야기했다. 대부분의 AI 애플리케이션은 1조 파라미터 모델을 필요로 하지 않는다. 대신 신뢰성, 속도, 비용 효율성, 그리고 가능하면 외부 서버에 데이터를 전송하지 않는 로컬 배포가 필요하다. 금융, 법률, 정부 등 가장 강력한 AI 활용 사례를 가진 분야는 가장 엄격한 데이터 프라이버시 요구사항을 가지고 있다. GPT‑4는 로컬 배포 옵션이 전혀 없다.
소형 언어 모델(SLM)의 등장
SLM은 절충이 아니라 의도적인 설계 선택이었다: 특정 작업 집합을 신뢰성 있게 수행할 수 있는 가장 작은 모델을 만든다.
동시에 연구계에서는 조용한 논쟁이 진행되고 있었다. 2023년 최초의 Phi‑1 논문을 시작으로 여러 논문이 제시한 주장은 다음과 같다: 대형 모델이 소형 모델보다 우수한 이유는 단순히 크기 때문이 아니라, 더 많은 데이터(대부분 저품질)를 학습했기 때문이다. 데이터를 적극적으로 필터링하고, 밀집된 추론 중심 콘텐츠만 남기면 훨씬 작은 모델도 놀라울 정도로 좋은 성능을 낼 수 있다.
이는 흔히 교과서 가설이라 불린다: 교과서 수준의 고품질 자료로 학습한 모델이, 인터넷 텍스트를 열 배 많이 학습한 모델보다 더 나은 추론 능력을 갖는다. Phi 시리즈는 이 가설을 검증하는 주요 실증 테스트였으며, 그 결과는 현재 분야 전체에서 진지하게 받아들여지고 있다.
소형 모델 정의 (비공식)
| 카테고리 | 파라미터 | 예시 |
|---|---|---|
| 대형 | >70B | GPT‑4, Claude 3 Opus, Llama 3 70B |
| 중형 | 7B ~ 70B | Mistral 7B, Llama 3 8B |
| 소형 | <7B | Phi‑3 Mini (3.8B), Gemma 2B, TinyLlama 1.1B |
지식 증류(Knowledge Distillation)
고성능 SLM 뒤에 가장 중요한 기술은 지식 증류이며, 단순히 이름만 부르는 것이 아니라 그 원리를 정확히 이해할 필요가 있다.
표준 학습은 정답 라벨에만 초점을 맞춘다: 수학 문제에 정답이 있으면 모델은 그 정답을 생성하도록 학습한다. 이는 모델에게 “정답이 무엇인지”만 알려줄 뿐, 문제 공간의 형태—어떤 오답이 가까운지, 어떤 오답이 먼지, 불확실성 구조는 어떠한지—는 전혀 전달하지 않는다.
대형 교사 모델이 질문에 답할 때는 전체 토큰 확률 분포를 출력한다. 예를 들어 “프랑스 수도는?”이라는 질문에 교사가 “Paris”에 80%, “Lyon”에 15%를 할당한다면, 그 15%는 실제 정보를 담고 있다. “Paris”와 “Lyon”은 의미적으로 연관성이 있지만, “banana”와 “Paris”는 전혀 그렇지 않다. 이러한 분포는 개념 간 관계에 대한 구조화된 지식을 인코딩한다.
증류는 학생 모델이 교사의 전체 분포를 맞추도록 학습한다. 즉, 최고 정답만이 아니라 교사의 불확실성까지 학습한다. 그래서 38억 파라미터 모델이 증류를 통해 70억 파라미터 모델보다 더 좋은 성능을 낼 수 있다.
증류의 성공 사례
- Microsoft Orca (2023): 13B 모델을 GPT‑4의 정답뿐 아니라 **전체 추론 과정(단계별 설명)**을 학습시켰다. Orca는 동일한 추론 벤치마크에서 크기가 5배 큰 모델을 앞섰다.
- Orca 2: 더 작은 모델에게 언제 단계별 추론을, 언제 직접 답변을 사용할지 명시적으로 가르쳤다. 이는 규모에 의존해 자연스럽게 나타난 것이 아니라, 고품질 학습 신호를 통해 의도적으로 가르친 결과다.
- Stanford Alpaca: 7B LLaMA 모델을 52,000개의 GPT‑생성 지시문으로 미세조정했을 때, GPT‑3.5 수준의 지시 수행 능력을 보였다. 1개의 GPU, 몇 시간만에 달성했으며, 오픈·클로즈드 모델 간 격차가 하루아침에 좁혀졌다.
이때 병목 현상은 파라미터 수가 아니라 학습 신호의 품질이었다.
양자화(Quantization)
로컬에서 모델을 실행하려면 메모리에 맞춰야 한다. 32비트 부동소수점 기준 7B 모델은 약 28 GB RAM을 차지한다. 여기서 양자화가 등장한다.
양자화는 수치 정밀도를 낮추는 과정이다. 각 파라미터를 32비트 부동소수점 대신 8비트 혹은 4비트 정수로 저장한다. 메모리 절감 비율은 직접적이다: 8비트는 절반, 4비트는 1/4로 감소한다.
대부분의 언어 작업에서 8비트 양자화는 출력 품질에 거의 차이를 만들지 않는다. 4비트는 특히 정밀한 수치 추론이 필요한 작업에서 품질 저하가 감지된다. GPTQ, AWQ 같은 기술은 비균등 양자화를 적용해 중요한 가중치의 정밀도를 유지한다. 아래 실험 3 결과는 이러한 트레이드오프를 실제로 보여준다.
아키텍처 설계와 효율성
SLM의 아키텍처 선택은 추론 효율성을 목표로 한 의