[Paper] 幻觉更少是否意味着创造力更低？对LLMs的实证研究

发布: 1个月前 (2025年12月12日 GMT+8 20:14)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11509v1

Overview

论文 “Does Less Hallucination Mean Less Creativity? An Empirical Investigation in LLMs” 提出了一个出人意料的实用问题：当我们抑制大语言模型（LLMs）产生“幻觉”（即生成错误事实）的倾向时，是否也会削弱它们产生新颖、创造性想法的能力？通过在多个模型系列上测试三种流行的幻觉降低技术，作者揭示了答案取决于所选方法——这对构建 AI 辅助研究工具、头脑风暴助理或创意编码助手的任何人都具有重要意义。

Key Contributions

系统比较 三种幻觉降低策略——Chain of Verification (CoVe)、Decoding by Contrasting Layers (DoLa) 和 Retrieval‑Augmented Generation (RAG)——对创造力的影响。
广泛实验覆盖：三大 LLM 系列（LLaMA、Qwen、Mistral），参数规模从 1 B 到 70 B。
双基准评估：使用 NeoCoder（代码生成创造力）和 CS4（开放式创意写作）。
实证发现：幻觉降低方法对发散创造力产生相反的效果：CoVe 提升创造力，DoLa 抑制创造力，而 RAG 基本保持中性。
实用指南：为构建需要事实准确性与创意假设生成共存的 AI 辅助科学发现流水线的开发者提供建议。

Methodology

幻觉降低技术
- Chain of Verification (CoVe)：模型先生成答案，然后运行一个验证链（自我提问、事实核查），再输出最终结果。
- Decoding by Contrasting Layers (DoLa)：通过对比早期层与后期层的隐藏状态表示来修改解码过程，鼓励“保守”的 token 选择。
- Retrieval‑Augmented Generation (RAG)：在提示中加入从外部知识库检索的 top‑k 相关文档，对生成进行 grounding。
模型系列与规模
- LLaMA、Qwen、Mistral——分别在 1 B、7 B、13 B、30 B、70 B（可用时）进行评估。
创造力基准
- NeoCoder：需要生成新颖代码片段的提示（例如 “编写一个求解旅行商问题新变体的函数”）。
- CS4：开放式故事/创意提示，用于衡量发散思维（多种合理续写、原创性评分）。
指标
- 幻觉率：通过对金标准知识库的自动事实核查以及人工验证来测量。
- 创造力：使用标准的发散思维指标——流畅性、原创性、灵活性——通过 n‑gram 多样性、语义新颖性以及人工评审计算得出。
实验流程
- 对每个模型‑技术组合，在每个基准上生成 500 条响应。
- 相对于基线（普通解码）计算幻觉降低幅度。
- 在控制模型规模的前提下比较不同技术的创造力得分。

Results & Findings

Technique	Hallucination ↓	NeoCoder Creativity ↑	CS4 Creativity ↑
CoVe	‑28 % (vs. baseline)	+12 % (significant)	+9 %
DoLa	‑22 %	‑15 % (significant drop)	‑13 %
RAG	‑25 %	±1 % (no statistical change)	±2 %

CoVe 不仅降低幻觉，还激发发散思维。验证链类似于一次“自我反思”步骤，促使模型在最终确定答案前探索替代表述。
DoLa 在降低幻觉的同时牺牲了创造力；层对比解码将模型推向更安全、更“规范”的 token 选择，限制了新颖性。
RAG 在提供事实 grounding 的同时，对创造力的宽度影响不大——当你需要事实依据但仍希望模型保持想象力时非常有用。
这些效应在所有模型系列和规模上保持一致，尽管较大模型（≥30 B）在 DoLa 下的创造力下降略有缓和，表明规模可以在一定程度上补偿。

Practical Implications

AI‑辅助研究工具（如假设生成器、文献综述助理）可以采用 CoVe，当工作流既需要事实检查又需要创意跳跃时——比如“生成一个合理但新颖的机制，然后与已知化学事实核对”。
代码生成平台需要可靠且富有创意的代码片段（例如新算法的自动补全）也可倾向于 CoVe，因为它提升了正确性并鼓励跳出框架的解决方案。
安全关键应用（医疗建议、法律起草）对幻觉容忍度极低，应考虑 DoLa 或 RAG。DoLa 适用于可以接受轻微创造力损失的场景；RAG 则在不牺牲想象力的前提下提供 grounding。
产品设计：开发者可以提供一个“创造力‑与‑准确性”切换开关，内部在 CoVe、DoLa、RAG 之间切换，让终端用户自行权衡。
提示工程：研究结果表明，即使是轻量级的验证步骤也能以低成本提升准确性和新颖性，无需额外的检索基础设施。

Limitations & Future Work

领域覆盖：基准聚焦于代码和开放式写作；科学领域（生物、物理）可能表现不同。
验证质量：CoVe 的验证链依赖模型自身的自我评估，仍可能存在偏见；未探索外部事实检查器。
可扩展性：CoVe 增加了额外的推理轮次，提升了延迟——未来工作可致力于为实时应用简化验证过程。
用户研究：本文通过自动指标和专家评审衡量创造力，真实用户满意度及下游影响（如成功的假设生成）仍需验证。
混合方法：将 RAG 的 grounding 与 CoVe 的自我验证相结合可能实现更佳的平衡；作者计划在后续工作中探索此类流水线。

Authors

Mohor Banerjee
Nadya Yuki Wangsajaya
Syed Ali Redha Alsagoff
Min Sen Tan
Zachary Choy Kit Chun
Alvin Chan Guo Wei

Paper Information

arXiv ID: 2512.11509v1
Categories: cs.CL, cs.AI
Published: December 12, 2025
PDF: Download PDF

[Paper] 幻觉更少是否意味着创造力更低？对LLMs的实证研究

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性