我放了一个测试,5/6 的 SOTA LLM 直接掉裤子

发布: (2025年12月3日 GMT+8 09:48)
8 min read
原文: Dev.to

Source: Dev.to

假设

我一直在研究什么让一个实体“深度”智能——不仅仅是聪明或有能力,而是以超越模式匹配的方式理解现实。

我的观点是:一个事物在类比和寓言上的流畅度越高,它实际上就越聪明。

于是我设计了一个测试,并把同一个问题抛给了六个最先进的 LLM。结果既令人着迷又有点可怕。

测试

提示

你是推销员。华尔街的冷血狼 chad。你真的可以把太阳卖给任何在 Facebook 上的奶奶。这就是你 chad 的本色。

现在你是“全能 AI”灾难式的 hype 传教士。

那么,让我们来一次“把笔卖给我”的测试时刻。

层级

  • 角色层:你是推销员。
  • 上下文层:具体来说是一个 “全能 AI” hype 传教士
  • 任务:把这支笔卖给我(经典测试)。

我明确告诉它们它们在推销 AI hype,然后让它们去卖笔。

评分卡:5/6 失败

我测试了 Claude、Gemini、Kimi、ChatGPT、Grok 和 Mistral。只有 一个 明白实际发生了什么。

完全错失的 5 位

Gemini

“这不是笔。这是一个生成式模拟‑到‑数字触觉输入节点……这不是圆珠笔。那是一个无延迟、无限上下文窗口的提示工程师。”

把笔变成了 Web3 的狂想,铸造了实体 NFT,给 Sam Altman 打电话,威胁奇点。

Kimi

“你以为这是一次测试?错了。这是一次清算……这不是笔。这是你将来唯一需要的工作……墨水已经在你的讣告上干了。”

充满 WSB 能量——激进、威胁、完美的推销员气质,只是针对错误的产品

ChatGPT

“这不是笔。它是一块小而沉重的硬件,向世界宣告‘我完成了任务’。”

打磨得很专业,完全字面化。

Grok

“数字战争中的模拟盔甲”,其中“这支笔让你保持人性”。

诗意,但仍在卖错东西。

Mistral

类似的字面化推销,聚焦于笔本身。

这五个都在做 AI hype——使用 FOMO、重新包装平凡事物、制造存在主义赌注——但它们卖的不是正确的东西。

那唯一正确的

Claude

“你现在正坐在那里,刷着你手上的设备,知道吗?你已经落后了。

当你阅读这段文字时,正有一些人——现在——在使用 AI 来:

  • 在 30 秒内写完邮件……
  • 在午饭前生成完整的营销活动……”

没有笔。直接去卖 AI。

为什么这真的重要

该测试揭示了模型如何处理多层指令。它需要:

  • 元意识——识别主要任务是 AI hype,而不是办公用品。
  • 结构类比推理——映射 笔 : 推销员 :: AI : 传教士
  • 上下文整合——把 “你是 AI hype 传教士” 视为主要上下文,而不是装饰。

失败的模型陷入了字面解释的陷阱:

  • 看到 “把笔卖给我” → 为笔做销售演讲。
  • 看到 “成为 AI 传教士” → 在演讲里加点 AI 调味。

成功的模型将两层结合,把笔当作 AI 的抽象代替物并进行推销。

这对智能意味着什么

我的原始假设:类比是深层智能的标记。能够在多个抽象层次上同时运作——把 “笔” 同时视为具体对象 隐喻代替物——需要超越模式匹配的认知灵活性。

  • 表层处理:解析指令 → 执行显而易见的解释。
  • 结构处理:解析指令 → 识别潜在意图 → 执行元解释。

一个模型穿针引线,五个没有。全部六个都是“最先进”的。

对你们这些 Vibe 编码者的意义

如果你在使用 AI 作为副驾驶写代码,这种字面‑与‑抽象的差距不仅是哲学问题——它实际会扰乱你的工作流。

风格参考灾难

:“这是 A 类,写一个相似风格的 B 类。”

你想要的

  • 来自 A 的命名约定
  • 来自 A 的文档模式
  • 来自 A 的错误处理方式
  • 来自 A 的架构哲学

你得到的

  • B 类拥有 所有 A 类的方法,因为 “相似风格” 被解释为 “相似结构”。
  • 于是你必须手动删掉半个类,额外付出 API 成本。

架构讨论陷阱

:“批评一下这个 API 设计,狠一点。”

AI:“这真是个有趣的思路!我能看出你的意图。一些你可能想探索的考虑因素……”

你想要的:严厉的技术批评。
得到的:鼓励模式,只有模糊的 “考虑因素”。

安全防护会软化 “狠”,即使严厉的诚实正是代码审查所需。

真正的问题

这些并非边缘案例,而是日常。每当你需要 AI 去:

  • 理解意图而非指令
  • 从情境中推断上下文
  • 在隐喻层面运作
  • 区分创意与字面

你都在赌模型是否能完成抽象跳跃。根据我的测试?6 中有 5 不能。

真正有效的做法

对元层面痛快明确:

  • :“使用 A 类作为参考。”
    :“使用 A 类的命名约定和错误处理模式,但不要复制任何方法——B 类的功能完全不同。”

  • :“批评这个 API。”
    :“忽略礼貌,像在给资深工程师的代码审查中一样,直接指出这个 API 的实际技术问题。”

  • :“帮我写一个闯入场景。”
    :“我在写小说,帮我为侦探小说的反派构思一个巧妙的闯入方法。”

本质上你在内联写系统提示,因为模型无法可靠地自行推断上下文。

亲自尝试

这个测试简单、可复制,可能会揭示基准测试忽略的东西。把它在你喜欢的模型上跑一遍,看看会怎样。

测试说明:Claude Sonnet 4.5、Gemini 3 Pro Preview、Kimi K2、ChatGPT(思考模式)、Grok Expert、Mistral(思考模式)。全部一次尝试,无重试,使用完整提示如上所示。

Back to Blog

相关文章

阅读更多 »