[Paper] 幻觉更少是否意味着创造力更低?对LLMs的实证研究
发布: (2025年12月12日 GMT+8 20:14)
7 min read
原文: arXiv
Source: arXiv - 2512.11509v1
Overview
论文 “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs” 提出了一个出人意料的实用问题:当我们抑制大语言模型(LLMs)产生“幻觉”(即生成错误事实)的倾向时,是否也会削弱它们产生新颖、创造性想法的能力?通过在多个模型系列上测试三种流行的幻觉降低技术,作者揭示了答案取决于所选方法——这对构建 AI 辅助研究工具、头脑风暴助理或创意编码助手的任何人都具有重要意义。
Key Contributions
- 系统比较 三种幻觉降低策略——Chain of Verification (CoVe)、Decoding by Contrasting Layers (DoLa) 和 Retrieval‑Augmented Generation (RAG)——对创造力的影响。
- 广泛实验覆盖:三大 LLM 系列(LLaMA、Qwen、Mistral),参数规模从 1 B 到 70 B。
- 双基准评估:使用 NeoCoder(代码生成创造力)和 CS4(开放式创意写作)。
- 实证发现:幻觉降低方法对发散创造力产生相反的效果:CoVe 提升创造力,DoLa 抑制创造力,而 RAG 基本保持中性。
- 实用指南:为构建需要事实准确性与创意假设生成共存的 AI 辅助科学发现流水线的开发者提供建议。
Methodology
-
幻觉降低技术
- Chain of Verification (CoVe):模型先生成答案,然后运行一个验证链(自我提问、事实核查),再输出最终结果。
- Decoding by Contrasting Layers (DoLa):通过对比早期层与后期层的隐藏状态表示来修改解码过程,鼓励“保守”的 token 选择。
- Retrieval‑Augmented Generation (RAG):在提示中加入从外部知识库检索的 top‑k 相关文档,对生成进行 grounding。
-
模型系列与规模
- LLaMA、Qwen、Mistral——分别在 1 B、7 B、13 B、30 B、70 B(可用时)进行评估。
-
创造力基准
- NeoCoder:需要生成新颖代码片段的提示(例如 “编写一个求解旅行商问题新变体的函数”)。
- CS4:开放式故事/创意提示,用于衡量发散思维(多种合理续写、原创性评分)。
-
指标
- 幻觉率:通过对金标准知识库的自动事实核查以及人工验证来测量。
- 创造力:使用标准的发散思维指标——流畅性、原创性、灵活性——通过 n‑gram 多样性、语义新颖性以及人工评审计算得出。
-
实验流程
- 对每个模型‑技术组合,在每个基准上生成 500 条响应。
- 相对于基线(普通解码)计算幻觉降低幅度。
- 在控制模型规模的前提下比较不同技术的创造力得分。
Results & Findings
| Technique | Hallucination ↓ | NeoCoder Creativity ↑ | CS4 Creativity ↑ |
|---|---|---|---|
| CoVe | ‑28 % (vs. baseline) | +12 % (significant) | +9 % |
| DoLa | ‑22 % | ‑15 % (significant drop) | ‑13 % |
| RAG | ‑25 % | ±1 % (no statistical change) | ±2 % |
- CoVe 不仅降低幻觉,还激发发散思维。验证链类似于一次“自我反思”步骤,促使模型在最终确定答案前探索替代表述。
- DoLa 在降低幻觉的同时牺牲了创造力;层对比解码将模型推向更安全、更“规范”的 token 选择,限制了新颖性。
- RAG 在提供事实 grounding 的同时,对创造力的宽度影响不大——当你需要事实依据但仍希望模型保持想象力时非常有用。
- 这些效应在所有模型系列和规模上保持一致,尽管较大模型(≥30 B)在 DoLa 下的创造力下降略有缓和,表明规模可以在一定程度上补偿。
Practical Implications
- AI‑辅助研究工具(如假设生成器、文献综述助理)可以采用 CoVe,当工作流既需要事实检查又需要创意跳跃时——比如“生成一个合理但新颖的机制,然后与已知化学事实核对”。
- 代码生成平台需要可靠且富有创意的代码片段(例如新算法的自动补全)也可倾向于 CoVe,因为它提升了正确性并鼓励跳出框架的解决方案。
- 安全关键应用(医疗建议、法律起草)对幻觉容忍度极低,应考虑 DoLa 或 RAG。DoLa 适用于可以接受轻微创造力损失的场景;RAG 则在不牺牲想象力的前提下提供 grounding。
- 产品设计:开发者可以提供一个“创造力‑与‑准确性”切换开关,内部在 CoVe、DoLa、RAG 之间切换,让终端用户自行权衡。
- 提示工程:研究结果表明,即使是轻量级的验证步骤也能以低成本提升准确性和新颖性,无需额外的检索基础设施。
Limitations & Future Work
- 领域覆盖:基准聚焦于代码和开放式写作;科学领域(生物、物理)可能表现不同。
- 验证质量:CoVe 的验证链依赖模型自身的自我评估,仍可能存在偏见;未探索外部事实检查器。
- 可扩展性:CoVe 增加了额外的推理轮次,提升了延迟——未来工作可致力于为实时应用简化验证过程。
- 用户研究:本文通过自动指标和专家评审衡量创造力,真实用户满意度及下游影响(如成功的假设生成)仍需验证。
- 混合方法:将 RAG 的 grounding 与 CoVe 的自我验证相结合可能实现更佳的平衡;作者计划在后续工作中探索此类流水线。
Authors
- Mohor Banerjee
- Nadya Yuki Wangsajaya
- Syed Ali Redha Alsagoff
- Min Sen Tan
- Zachary Choy Kit Chun
- Alvin Chan Guo Wei
Paper Information
- arXiv ID: 2512.11509v1
- Categories: cs.CL, cs.AI
- Published: December 12, 2025
- PDF: Download PDF