인간 피드백을 활용한 강화 학습 이해 파트 1: 대형 언어 모델 사전 학습

발행: 3주 전 (2026년 5월 19일 AM 04:48 GMT+9)

3 분 소요

Source: Dev.to

디코더‑전용 트랜스포머 사전 학습

Human Feedback을 이용한 강화 학습(RLHF)은 ChatGPT와 같은 대형 언어 모델을 훈련시키는 데 사용되는 기술 중 하나입니다.
ChatGPT와 같은 모델을 처음부터 만들려면 먼저 학습되지 않은 디코더‑전용 트랜스포머를 어떻게 훈련시키는지 이해해야 합니다. 이 단계에서는 모델의 가중치와 편향이 무작위로 초기화되어 아직 언어나 의미를 이해하지 못합니다.

대형 언어 모델을 훈련시키는 첫 번째 단계는 아주 방대한 텍스트(예: 위키피디아 기사)를 사용해 다음 토큰을 예측하도록 가르치는 것입니다. 텍스트 조각을 취해 앞부분 단어들을 입력 토큰으로 넣고, 모델이 시퀀스에서 다음 토큰을 예측하도록 학습합니다.

예시

입력: “The cat sat on the …”
모델은 가장 가능성이 높은 다음 단어를 예측하는 방법을 학습합니다.

이 과정을 방대한 양의 텍스트에 반복하면 모델은 점차 다음을 학습합니다:

문법
문장 구조
언어에 내재된 사실과 패턴

이 훈련 단계는 **사전 학습(pre‑training)**이라고 부릅니다. 시간이 지나면서 모델은 텍스트에서 다음 토큰을 예측하는 데 뛰어난 사전 학습된 모델이 됩니다.

왜 다음‑토큰 예측만으로는 채팅에 충분하지 않은가

사전 학습된 모델은 다음 토큰 예측에 뛰어나지만, 이 능력만으로는 질문에 답하거나 대화를 이어가는 데 적합하지 않습니다. 예를 들어, 위키피디아 텍스트를 잘 이어가는 것이 모델이 유용하고 안전하며 대화형 응답을 제공한다는 것을 자동으로 의미하지는 않습니다.

모델을 채팅에 유용하게 만들려면 **인간의 기대에 맞추어 정렬(alignment)**해야 합니다. 이 정렬이 바로 RLHF의 핵심이며, 다음 기사에서 자세히 다룰 예정입니다.

인간 피드백을 활용한 강화 학습 이해 파트 1: 대형 언어 모델 사전 학습

디코더‑전용 트랜스포머 사전 학습

예시

왜 다음‑토큰 예측만으로는 채팅에 충분하지 않은가

관련 글

정렬 사전학습: AI 논의가 자기실현적(오)정렬을 만든다

프롬프트 엔지니어링: AI에서 더 나은 결과를 얻는 방법 (프롬프트를 더 많이 작성하지 않고)

RLHF가 Claude를 장황하게 만들었다. 여기 증거가 있다

KV 캐싱으로 LLM 추론 최적화