RLHF 처음부터

발행: (2026년 2월 10일 오후 08:39 GMT+9)
2 분 소요

Source: Hacker News

코드가 구현하는 내용 (요약)

  • src/ppo/ppo_trainer.py — 언어 모델 정책을 업데이트하기 위한 간단한 PPO 학습 루프.
  • src/ppo/core_utils.py — 헬퍼 함수들 (롤아웃/처리, 어드밴티지/리턴 계산, 보상 래퍼).
  • src/ppo/parse_args.py — 학습 실행을 위한 CLI/실험 인자 파싱.
  • tutorial.ipynb — 이 모든 요소를 연결하는 노트북 (이론, 작은 실험, 위 코드 호출 예시).

노트북에서 다루는 내용 (간략)

  • RLHF 파이프라인 개요: 선호 데이터 → 보상 모델 → 정책 최적화.
  • 보상 모델링, PPO 기반 파인튜닝, 그리고 비교에 대한 짧은 데모.
  • 실용적인 팁과 장난감 실험을 재현할 수 있는 작은 실행 가능한 코드 스니펫.

사용 방법

  • Jupyter에서 tutorial.ipynb를 열고 셀을 인터랙티브하게 실행합니다.
  • src/ppo/ 디렉터리를 살펴보며 노트북이 트레이너와 유틸리티에 어떻게 매핑되는지 확인합니다.

더 짧거나 직접 손으로 해볼 수 있는 예시(예: 단일 스크립트로 실행하는 작은 DPO 또는 PPO 데모)가 필요하면 알려 주세요. 추가해 드리겠습니다.

저장소 링크

0 조회
Back to Blog

관련 글

더 보기 »