[Paper] RoParQ:面向对同义问句鲁棒性的语言模型同义句感知对齐
发布: (2025年11月27日 GMT+8 00:40)
6 min read
原文: arXiv
Source: arXiv - 2511.21568v1
Overview
大型语言模型(LLM)在同一问题被重新表述时仍会出现错误,表明它们往往依赖表面文字而非真实含义。本文提出了 RoParQ 基准,用于衡量 LLM 对改写后的多项选择题的一致性,并提供了一套微调方案,使模型对这类变体的鲁棒性大幅提升。
Key Contributions
- RoParQ 基准 – 一个精心挑选的闭卷多项选择问答集合,每个问题都有多个改写版本,旨在暴露“评判”模型的一致性缺失。
- XParaCon 指标 – 一个简单、可解释的统计量(各改写组准确率的标准差),用于量化跨改写的鲁棒性。
- 改写感知的监督微调(SFT) – 一种以推理为中心的训练方式,显式教会模型在表面文字不同的情况下给出相同答案。
- 实证证据 表明轻量级微调模型可以匹配或超越更大、即用型 LLM 的一致性。
Methodology
- 数据创建 – 以现有 QA 数据集(如 RACE、ARC)为起点,作者使用专有的改写生成器为每个问题生成若干改写。
- 不一致性过滤 – 另一个“评判” LLM 对每个变体进行评估;仅保留评判置信度显著变化的变体,确保基准聚焦于真正的歧义案例。
- 指标设计(XParaCon) – 对每个原始问题,计算其所有改写的准确率;这些准确率的标准差即为鲁棒性得分(数值越低表示越一致)。
- 改写感知 SFT – 在微调过程中,每个训练样本会同时包含所有改写及其共享的目标答案。损失函数鼓励模型对每个变体产生相同的 logits,从而将内部推理对齐到底层语义而非文字表述。
Results & Findings
- 基线不一致性 – 即用型 LLM(如 GPT‑3.5、LLaMA‑13B)的 XParaCon 分数约为 0.12–0.15,表明改写之间存在明显差异。
- SFT 之后 – 微调后的 LLaMA‑7B 达到 XParaCon 为 0.04,约降低 70 % 的方差,同时保持相近的整体准确率。
- 规模 vs. 一致性权衡 – 经过改写感知 SFT 的 1.3 B 参数模型,其一致性可匹配未微调的 13 B 模型,说明针对性训练可以弥补模型规模的不足。
- 推理提示 – 在 SFT 中加入链式思考(chain‑of‑thought)式解释进一步降低了方差,验证了显式推理有助于模型聚焦语义。
Practical Implications
- 更可靠的聊天机器人和助手 – 用户经常会重新表述查询;使用 RoParQ 对齐方式训练的模型能够给出稳定答案,降低混淆和支持工单。
- 鲁棒的评估流水线 – 开发者可以将 XParaCon 作为快速 sanity check,检测任何新部署 LLM 的脆弱性,防止上线前出现问题。
- 成本效益的扩展 – 小模型通过微调即可达到大模型的稳定性,从而实现本地或边缘部署,行为可预测且成本更低。
- 提升下游任务 – 依赖 QA 一致性的任务(如自动评分、知识库抽取)可因改写噪声导致的误判减少而受益。
Limitations & Future Work
- 改写生成依赖 – 基准依赖专有的改写模型;相比人工撰写的变体,多样性可能受限。
- 闭卷聚焦 – RoParQ 仅评估不涉及外部检索的多项选择 QA;将其扩展到开放式或检索增强场景仍是未解之题。
- 指标简易性 – XParaCon 捕捉方差但未考虑系统性偏差(例如所有改写均错误的情况)。未来的指标可以将一致性与正确性结合。
- SFT 可扩展性 – 虽对中等规模模型有效,但将相同微调方案应用于最大型 LLM 可能需要更多计算资源,并需谨慎正则化以防过拟合。
Bottom line: 通过显式训练 LLM 将改写输入视为语义相同,RoParQ 及其改写感知微调方案为开发者提供了一条实现更可靠 AI 助手的实用路径——无需追求更大模型规模。
Authors
- Minjoon Choi
Paper Information
- arXiv ID: 2511.21568v1
- Categories: cs.CL
- Published: November 26, 2025
- PDF: Download PDF