[Paper] 歧义感知优化:面向 Direct Preference Optimization 的语义消歧

发布: (2025年11月29日 GMT+8 01:32)
6 min read
原文: arXiv

Source: arXiv - 2511.23391v1

概述

直接偏好优化(Direct Preference Optimization,DPO)已成为对齐大语言模型(LLM)与人类偏好的首选技术。新论文 Ambiguity Awareness Optimization 揭示了一个隐藏的陷阱:当相同或语义相似的文本出现在偏好对的两侧时,模型会出现“困惑”,限制了 DPO 的收益。作者提出了一种轻量级的修复方案——自动检测并降低此类模糊内容的权重——在多个流行的对齐基准上实现了持续且显著的提升。

关键贡献

  • 识别“模糊内容” 作为 DPO 训练中系统性噪声的来源,并通过数学分析和实证概念验证实验加以证明。
  • 提出模糊感知优化(Ambiguity Awareness Optimization,AAO),一种简单的重新加权方案,计算每个偏好对中两个回复的语义相似度,并降低高度相似(即模糊)标记的影响。
  • 展示 AAO 与模型无关且易于扩展,可在参数规模从 7 B 到 70 B 的 LLM 上使用,无需额外训练数据或结构改动。
  • 实现强劲的实证增益:在 AlpacaEval 2 上提升最高 +8.9 分,在 Arena‑Hard 上提升 +15.0 分,并在 MT‑Bench 上保持一致的提升,同时响应长度几乎不变。
  • 提供开源实现,只需一行代码即可嵌入现有 DPO 流程。

方法论

  1. 检测模糊 – 对每个偏好对(“首选”与“被拒”回复),作者使用冻结的嵌入模型(如 Sentence‑Transformers)计算标记级语义相似度矩阵。
  2. 计算模糊得分 – 对齐标记的平均相似度得到一个标量,反映两条回复在意义上的重叠程度。
  3. 重新加权损失 – 在 DPO 的 KL 正则化策略梯度步骤中,将该对的损失乘以与模糊得分成反比的因子。高度模糊的对对梯度更新的影响因此被削弱。
  4. 训练循环集成 – 加权在训练时即时完成;除相似度计算外无需额外前向传播或数据预处理,而相似度计算相较于主模型前向传播成本很低。

整体流程仍与标准 DPO 完全相同,只是额外加入了一个“感知”模块,保持了简洁性。

结果与发现

基准基线 (DPO)AAO (Δ)相对提升
AlpacaEval 271.380.2 (+8.9)≈12%
MT‑Bench62.568.1 (+5.6)≈9%
Arena‑Hard45.060.0 (+15.0)≈33%
  • 跨尺度一致性 – 7 B、13 B、34 B 与 70 B 模型均表现出提升,说明模糊是普遍问题,而非小模型特有。
  • 对延迟和标记数影响极小 – 平均响应长度增长 <0.3 %,推理速度保持在基线的 2 % 以内。
  • 消融研究 证实:(a) 使用原始标记重叠而非语义相似度会削弱收益;(b) 加权因子的形状(线性或指数)影响不大,关键在于降低模糊对的权重。

作者还给出理论证明:在一定假设下,模糊对会引入可界定的偏差项,所提出的重新加权能够有效抑制该偏差。

实际意义

  • 更洁净的微调流水线 – 已使用 DPO 的团队可直接插入 AAO,无需重新设计数据收集或奖励建模阶段。
  • 更高效利用有限的人类反馈 – 通过折扣噪声对,每条标注提供的信号更强,可能降低所需偏好标签的数量。
  • 提升用户体验 – 对齐基准分数提升转化为更连贯、帮助性更强且更少自相矛盾的模型输出,适用于真实聊天或助理场景。
  • 跨领域适用性 – 该方法仅依赖语义相似度,可用于任何使用 DPO 的任务,从代码生成到摘要,无需任务特定的调整。

局限性与未来工作

  • 相似度模型依赖 – AAO 的效果取决于所用冻结嵌入模型的质量;若编码器对齐不佳,可能误判模糊对。
  • 计算开销 – 虽然不大,但额外的相似度计算会带来固定成本,在超低延迟场景下需权衡。
  • 模糊范围的局限 – 当前方案将所有高相似度对视为同等模糊,未区分细微差别仍有价值的情况(如风格变体)。
  • 未来方向 包括:(1) 与 DPO 联合学习任务特定相似度度量;(2) 将重新加权扩展至多轮对话;(3) 探索课程式调度,随训练进程逐步收紧模糊阈值。

作者

  • Jian Li
  • Shenglin Yin
  • Yujia Zhang
  • Alan Zhao
  • Xi Chen
  • Xiaohui Zhou
  • Pengfei Xu

论文信息

  • arXiv ID: 2511.23391v1
  • Categories: cs.CL
  • 发表时间: 2025 年 11 月 28 日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »