RLHF 从零开始

发布: 3天前 (2026年2月10日 GMT+8 19:39)

2 分钟阅读

原文: Hacker News

Source: Hacker News

代码实现概述（简要）

src/ppo/ppo_trainer.py — 一个用于更新语言模型策略的简易 PPO 训练循环。
src/ppo/core_utils.py — 辅助例程（rollout/处理、优势/回报计算、奖励包装器）。
src/ppo/parse_args.py — 用于训练运行的 CLI/实验参数解析。
tutorial.ipynb — 将各部分串联起来的笔记本（理论、简短实验以及调用上述代码的示例）。

笔记本涵盖内容（简要）

RLHF 流程概览：偏好数据 → 奖励模型 → 策略优化。
奖励建模、基于 PPO 的微调以及对比的简短演示。
实践要点和可运行的代码片段，用于复现玩具实验。

使用方法

在 Jupyter 中打开 tutorial.ipynb 并交互式运行单元格。
查看 src/ppo/ 以了解笔记本如何映射到训练器和工具函数。

如果你需要更简短或更动手的示例（例如，一个用于运行微型 DPO 或 PPO 演示的单脚本），请告诉我，我可以添加。

仓库链接

相关文章

阅读更多 »

[Paper] 规模化验证在视觉-语言-动作对齐中可能比规模化策略学习更有效

通用机器人长期以来的愿景依赖于它们理解并执行自然语言指令的能力。Vision‑Language‑Action（VLA）……

[Paper] UniT：统一多模态链式思考测试时扩展

统一模型能够在单一架构中同时处理多模态理解和生成，但它们通常在一次前向传播中完成，而不进行迭代……

[Paper] MonarchRT：高效注意力用于实时视频生成

使用 Diffusion Transformers 进行实时视频生成时，受到 3D self-attention 二次成本的瓶颈限制，尤其在实时模式下……

[Paper] 基于 Flow-Guided Neural Operator 的自监督学习在时间序列数据上的应用

Self-supervised learning（SSL）是一种从未标记的时间序列数据中学习的强大范式。然而，像masked autoencoders（MAEs）这样的流行方法……