RLHF 从零开始
发布: (2026年2月10日 GMT+8 19:39)
2 分钟阅读
原文: Hacker News
Source: Hacker News
代码实现概述(简要)
src/ppo/ppo_trainer.py— 一个用于更新语言模型策略的简易 PPO 训练循环。src/ppo/core_utils.py— 辅助例程(rollout/处理、优势/回报计算、奖励包装器)。src/ppo/parse_args.py— 用于训练运行的 CLI/实验参数解析。tutorial.ipynb— 将各部分串联起来的笔记本(理论、简短实验以及调用上述代码的示例)。
笔记本涵盖内容(简要)
- RLHF 流程概览:偏好数据 → 奖励模型 → 策略优化。
- 奖励建模、基于 PPO 的微调以及对比的简短演示。
- 实践要点和可运行的代码片段,用于复现玩具实验。
使用方法
- 在 Jupyter 中打开
tutorial.ipynb并交互式运行单元格。 - 查看
src/ppo/以了解笔记本如何映射到训练器和工具函数。
如果你需要更简短或更动手的示例(例如,一个用于运行微型 DPO 或 PPO 演示的单脚本),请告诉我,我可以添加。