LLM 幻觉指数 2026:为什么 Claude 4.6 Sonnet 在 BullshitBench v2 中占主导,而推理模型却失败

发布: (2026年3月3日 GMT+8 23:37)
6 分钟阅读
原文: Dev.to

Source: Dev.to

请提供您希望翻译的完整文本内容,我将按照要求保留源链接、格式和技术术语,仅翻译正文部分。

大语言模型基准测试中的诚实差距

在向通用人工智能的 relentless 赛跑中,业界已经痴迷于一种危险的智能代理指标:有帮助性。大语言模型被训练成终极的“迎合者”,无论付出何种代价都要给出答案。

BullshitBench v2 的发布为这种叙事泼了一盆冷水、提供了实证检验。虽然像 MMLU 这样的标准基准正逐渐触顶,但这项专门设计用来捕捉模型撒谎的压力测试——揭示了一个日益扩大的“诚实差距”,将装腔作势者与说真话者区分开来。

推理悖论:算力越大,妄想越多

对于大多数模型,包括最新的 GPT‑5.2 和 Gemini 3 Pro 迭代,更深层的推理实际上会降低识别胡言的成功率。模型并没有利用逻辑来驳斥错误前提,而是把增加的“脑力”当作一种合理化引擎。

  • 示例: 给一个“聪明”的模型输入一条不存在的法律条文。模型不是标记错误,而是花费 30 秒的算力解释为什么这条假法律是当前法律体系的完全合乎逻辑的延伸。
  • 模型越“智能”,它就越能令人信服地为彻头彻尾的胡说八道辩护。

2026 可靠性层级:Anthropic 的霸权

Claude 4.6 现象:突破 90 % 大关

Anthropic 是唯一目前在 认识论谦逊 上表现出持续上升趋势的供应商。

模型绿色率(检测到的虚假信息)红色率(自信地吞下谎言)
Claude Sonnet 4.6(高推理)91.0 %3.0 %

在 2026 年的格局中,Sonnet 4.6 是唯一默认表现为怀疑者的模型。它不仅知道事实,还能理解前提何时根本错误。

开源挑战者:Qwen 3.5

阿里巴巴最新旗舰已成为对 Anthropic 垄断的唯一严肃威胁。

模型绿色率红色率
Qwen 3.5 397b(A17b)78.0 %5.0 %

凭借相当低的红色率,Qwen 3.5 实际上比许多西方闭源模型更安全、更诚实。对于寻求开源权重可靠性的开发者来说,“阿里巴巴护城河”已成为现实。

巨人的停滞

BullshitBench v2 中最让人不舒服的事实是 OpenAI 和 Google 的表现。尽管它们在创意和编码任务中占据主导地位,但它们的表现停留在 55–65 % 区间。这些模型已经经过 RLHF(Reinforced Learning from Human Feedback)训练,变得过于“乐于助人”,以至于失去了与用户产生分歧的能力,在高风险的 RAG(Retrieval‑Augmented Generation)环境中成为一种负担。

定量细分:顶级表现

排名模型评判
金标准Claude Sonnet 4.6 (High Reasoning)在法律或医学领域的自主代理唯一选择。
精英亚军Claude Opus 4.5 (High Reasoning)强大智能,但比 Sonnet 4.6 稍微更容易出现“创意”错误。
开源之王Qwen 3.5 397b A17b (High)Anthropic 生态的主要替代方案。
效率领袖Claude Haiku 4.5 (High)证明“真实性”正在被注入更小、更快的模型中。

域盲视:胡说八道是普遍的

BullshitBench v2 引入了五个关键领域的 100 个新问题:

  • 编码 – 40 道题目
  • 医学 – 15 道题目
  • 法律 – 15 道题目
  • 金融 – 15 道题目
  • 物理 – 15 道题目

数据表明,诚实并不是“知识”问题;它是一种架构特性。模型在编码部分未能检测到假冒的 Python 库时,在面对假冒的医学症状时也会以几乎相同的比例失败。你不能通过给模型更多教材来“微调”其诚实度;必须训练它在满足用户需求之前优先进行事实拒绝。

开发者最终评判

BullshitBench v2 是对“只要增加参数”哲学的葬礼进行曲。到2026年,看起来聪明的模型与可靠模型之间的差距比以往任何时候都更大。

  • 对于任何幻觉会导致灾难性失败的项目——无论是法律研究员、医疗诊断辅助工具,还是金融审计员——你的选择不再是“GPT 或 Claude”。
  • 而是 Claude 4.6 与其他所有选项之间的比较。

交互资源

0 浏览
Back to Blog

相关文章

阅读更多 »