[Paper] 幻觉更少是否意味着创造力更低?对LLMs的实证研究

发布: (2025年12月12日 GMT+8 20:14)
7 min read
原文: arXiv

Source: arXiv - 2512.11509v1

Overview

论文 “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs” 提出了一个出人意料的实用问题:当我们抑制大语言模型(LLMs)产生“幻觉”(即生成错误事实)的倾向时,是否也会削弱它们产生新颖、创造性想法的能力?通过在多个模型系列上测试三种流行的幻觉降低技术,作者揭示了答案取决于所选方法——这对构建 AI 辅助研究工具、头脑风暴助理或创意编码助手的任何人都具有重要意义。

Key Contributions

  • 系统比较 三种幻觉降低策略——Chain of Verification (CoVe)、Decoding by Contrasting Layers (DoLa) 和 Retrieval‑Augmented Generation (RAG)——对创造力的影响。
  • 广泛实验覆盖:三大 LLM 系列(LLaMA、Qwen、Mistral),参数规模从 1 B 到 70 B。
  • 双基准评估:使用 NeoCoder(代码生成创造力)和 CS4(开放式创意写作)。
  • 实证发现:幻觉降低方法对发散创造力产生相反的效果:CoVe 提升创造力,DoLa 抑制创造力,而 RAG 基本保持中性。
  • 实用指南:为构建需要事实准确性与创意假设生成共存的 AI 辅助科学发现流水线的开发者提供建议。

Methodology

  1. 幻觉降低技术

    • Chain of Verification (CoVe):模型先生成答案,然后运行一个验证链(自我提问、事实核查),再输出最终结果。
    • Decoding by Contrasting Layers (DoLa):通过对比早期层与后期层的隐藏状态表示来修改解码过程,鼓励“保守”的 token 选择。
    • Retrieval‑Augmented Generation (RAG):在提示中加入从外部知识库检索的 top‑k 相关文档,对生成进行 grounding。
  2. 模型系列与规模

    • LLaMA、Qwen、Mistral——分别在 1 B、7 B、13 B、30 B、70 B(可用时)进行评估。
  3. 创造力基准

    • NeoCoder:需要生成新颖代码片段的提示(例如 “编写一个求解旅行商问题新变体的函数”)。
    • CS4:开放式故事/创意提示,用于衡量发散思维(多种合理续写、原创性评分)。
  4. 指标

    • 幻觉率:通过对金标准知识库的自动事实核查以及人工验证来测量。
    • 创造力:使用标准的发散思维指标——流畅性原创性灵活性——通过 n‑gram 多样性、语义新颖性以及人工评审计算得出。
  5. 实验流程

    • 对每个模型‑技术组合,在每个基准上生成 500 条响应。
    • 相对于基线(普通解码)计算幻觉降低幅度。
    • 在控制模型规模的前提下比较不同技术的创造力得分。

Results & Findings

TechniqueHallucination ↓NeoCoder Creativity ↑CS4 Creativity ↑
CoVe‑28 % (vs. baseline)+12 % (significant)+9 %
DoLa‑22 %‑15 % (significant drop)‑13 %
RAG‑25 %±1 % (no statistical change)±2 %
  • CoVe 不仅降低幻觉,还激发发散思维。验证链类似于一次“自我反思”步骤,促使模型在最终确定答案前探索替代表述。
  • DoLa 在降低幻觉的同时牺牲了创造力;层对比解码将模型推向更安全、更“规范”的 token 选择,限制了新颖性。
  • RAG 在提供事实 grounding 的同时,对创造力的宽度影响不大——当你需要事实依据但仍希望模型保持想象力时非常有用。
  • 这些效应在所有模型系列和规模上保持一致,尽管较大模型(≥30 B)在 DoLa 下的创造力下降略有缓和,表明规模可以在一定程度上补偿。

Practical Implications

  • AI‑辅助研究工具(如假设生成器、文献综述助理)可以采用 CoVe,当工作流既需要事实检查又需要创意跳跃时——比如“生成一个合理但新颖的机制,然后与已知化学事实核对”。
  • 代码生成平台需要可靠且富有创意的代码片段(例如新算法的自动补全)也可倾向于 CoVe,因为它提升了正确性并鼓励跳出框架的解决方案。
  • 安全关键应用(医疗建议、法律起草)对幻觉容忍度极低,应考虑 DoLaRAG。DoLa 适用于可以接受轻微创造力损失的场景;RAG 则在不牺牲想象力的前提下提供 grounding。
  • 产品设计:开发者可以提供一个“创造力‑与‑准确性”切换开关,内部在 CoVe、DoLa、RAG 之间切换,让终端用户自行权衡。
  • 提示工程:研究结果表明,即使是轻量级的验证步骤也能以低成本提升准确性和新颖性,无需额外的检索基础设施。

Limitations & Future Work

  • 领域覆盖:基准聚焦于代码和开放式写作;科学领域(生物、物理)可能表现不同。
  • 验证质量:CoVe 的验证链依赖模型自身的自我评估,仍可能存在偏见;未探索外部事实检查器。
  • 可扩展性:CoVe 增加了额外的推理轮次,提升了延迟——未来工作可致力于为实时应用简化验证过程。
  • 用户研究:本文通过自动指标和专家评审衡量创造力,真实用户满意度及下游影响(如成功的假设生成)仍需验证。
  • 混合方法:将 RAG 的 grounding 与 CoVe 的自我验证相结合可能实现更佳的平衡;作者计划在后续工作中探索此类流水线。

Authors

  • Mohor Banerjee
  • Nadya Yuki Wangsajaya
  • Syed Ali Redha Alsagoff
  • Min Sen Tan
  • Zachary Choy Kit Chun
  • Alvin Chan Guo Wei

Paper Information

  • arXiv ID: 2512.11509v1
  • Categories: cs.CL, cs.AI
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »