대형 모델 미세조정: SFT
Source: Dev.to
SFT의 흐름
- 사전 학습 모델(GPT‑2)로드
- 데이터 준비(prompt → target)
- Optimizer(예: Adam, SGD 등)를 사용해 학습
- Loss(교차 엔트로피) 최소화
- 파라미터를 미세 조정하여 모델이 점진적으로 “훈련 데이터처럼 말하도록”
SFT는 RLHF보다 더 간단하지만, 전체 LLM 미세 조정의 “기초”가 됩니다. SFT 학습 단계에서는 다양한 최적화 방법의 학습 동태를 비교할 수 있습니다.
1. SFT의 수학적 목표: 교차 엔트로피 손실 최소화
답변 시퀀스 (y = (y_1, \dots, y_T))에 대해:
[ \text{Loss} = - \sum_{t=1}^{T} \log P_\theta\bigl(y_t \mid y_{ \text{(此处原文缺失)}} \bigr) ]
대형 모델은 사전 학습 단계에서 일반 언어 능력을 배우지만, 인간이 기대하는 방식으로 답변하는 방법을 모릅니다. 미세 조정(SFT)은 모델을 “범용 인재”에서 “전문 인재”로 바꿔 줍니다.
면접관이 “LLM 미세 조정이 정확히 뭐야?” 라고 물으면 이렇게 답할 수 있습니다:
“대형 모델은 사전 학습을 통해 일반 언어 능력을 배우지만, 인간이 기대하는 방식으로 답변하는 방법을 모릅니다. 미세 조정은 특정 작업 데이터에서 교차 엔트로피를 최소화함으로써, 주어진 프롬프트에 대해 기대에 부합하는 답변을 생성하도록 모델을 학습시킵니다.”
선택적 출력(필요에 따라 선택)
- 30초 구두 설명
- 면접관 추가 질문에 대한 Q&A 버전
- 한 장 그림 흐름도(재현에 용이)