[Paper] 用细粒度人类反馈对文本片段微调 LLMs

发布: (2025年12月30日 GMT+8 02:51)
8 min read
原文: arXiv

Source: arXiv - 2512.23693v1

概览

Sky CH‑Wang、Justin Svegliato、Helen Appel 和 Jason Eisner 的一项新研究提出了一种更细粒度的方式来使用人类反馈微调大型语言模型(LLMs)。研究者不再让标注员整体选择“更好”的回复,而是标记他们喜欢或不喜欢的具体文本片段并解释原因,让模型仅对有问题的部分进行迭代重写。作者展示了,这种细粒度、逐步的监督方式相较于传统的 A/B 偏好排序或整句重写,能够实现更好的对齐效果。

关键贡献

  • 细粒度反馈格式: 标注者标记“喜欢”和“不喜欢”的跨度并提供简短理由,将单个响应转化为一系列有针对性的编辑。
  • 改进链数据集: 一个新的修订链数据集,其中每一步都是对前一步的最小改写,能够在相邻修订之间直接形成偏好对。
  • 从编辑中构建偏好对: 与全局 A/B 比较不同,该方法从每个增量编辑中创建偏好对,为模型提供更清晰的学习信号。
  • 实证优势: 实验表明,在这些局部编辑上训练的模型优于在标准 A/B 排名或全句对比重写上训练的基线。
  • 开源资源: 作者发布了标注方案、数据集和训练脚本,以促进可重复性和进一步研究。

方法论

  1. 收集反馈: 人类标注者阅读模型生成的答案并突出他们喜欢或不喜欢的文本片段。对于每个不喜欢的片段,他们会写一条简短的评论描述问题(例如,“事实错误”,“措辞别扭”)。
  2. 生成改进链: 从原始答案开始,基础 LLM 根据标注者的评论重写第一个不喜欢的片段,然后从左到右依次处理剩余片段,产生一系列逐步改进的草稿。
  3. 创建偏好对: 链中每一对相邻的版本(原始 → 第一次编辑、第一次编辑 → 第二次编辑,等等)构成二元偏好:后一个版本在特定编辑区域上“更好”。
  4. 训练目标: 使用标准的成对偏好损失(例如 Bradley‑Terry 或 KL‑散度),但应用于这些局部对,鼓励模型复制目标编辑。
  5. 基线比较: 作者还训练了使用传统 A/B 偏好数据(整体响应排名)和全句对比改写的模型,以对性能进行基准测试。

结果与发现

  • 更高的对齐分数: 在细粒度编辑对上微调的模型,在持出评估集上的偏好排名准确率提升约 7–10%,相较于 A/B 训练基线。
  • 更快的收敛速度: 由于每个训练示例只关注一个小的编辑,损失下降更迅速,达到峰值性能所需的 epoch 更少。
  • 更好的事实一致性: 细粒度方法降低了评估任务中的幻觉现象,因为标注者可以直接标记错误事实,模型能够在局部进行纠正学习。
  • 人工评估: 独立评审员在 68% 的案例中认为细粒度训练模型的输出比 A/B 训练对应模型更流畅、更相关。

Practical Implications

  • 更高效的微调流水线: 开发者可以通过让标注员高亮问题区域,而不是编写完整的替代答案,来收集成本更低、信号更强的反馈。
  • 有针对性的模型调试: 改进链格式本身就充当诊断工具——观察哪些片段被反复编辑可以揭示系统性的薄弱环节(例如日期处理、代码语法)。
  • 产品功能的快速迭代: 构建聊天助手、代码生成器或摘要工具的团队可以将此工作流集成进来,以最小的人力投入迭代优化模型输出。
  • 降低标注成本: 由于每条反馈实例会产生多个训练对(每次编辑对应一个),数据‑对‑模型‑性能比提升,从而降低整体对齐成本。
  • 可用于 UI 集成的潜力: 前端工具可以让用户直接在模型回复中高亮问题文本,将这些信号反馈到持续学习循环中。

限制与未来工作

  • 标注开销: 虽然比完整重写更省成本,但该过程仍然要求标注者对模型的输出有足够的理解,以便定位并评论特定的文本片段。
  • 编辑范围: 该方法侧重于局部文本修改;大规模结构性修订(例如重新组织整个答案)可能无法有效捕捉。
  • 对其他模态的泛化: 本研究仅限于文本;将细粒度反馈扩展到代码、表格或多模态输出仍是一个待解的问题。
  • 改进链的可扩展性: 非常长的链条可能会引入噪声,因为早期的编辑会影响后续的上下文;未来工作可以探索层次化或基于注意力的机制,以保持连贯性。

总体而言,本文提供了一种实用且数据高效的方案,将大型语言模型与人类偏好对齐,为更具响应性和可信赖性的 AI 助手打开了大门。

作者

  • Sky CH-Wang
  • Justin Svegliato
  • Helen Appel
  • Jason Eisner

论文信息

  • arXiv 编号: 2512.23693v1
  • 分类: cs.CL
  • 发表日期: 2025年12月29日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »