我放了一个测试，5/6 的 SOTA LLM 直接掉裤子

发布: 2个月前 (2025年12月3日 GMT+8 09:48)

8 分钟阅读

原文: Dev.to

Source: Dev.to

假设

我一直在研究什么让一个实体“深度”智能——不仅仅是聪明或有能力，而是以超越模式匹配的方式理解现实。

我的观点是：一个事物在类比和寓言上的流畅度越高，它实际上就越聪明。

于是我设计了一个测试，并把同一个问题抛给了六个最先进的 LLM。结果既令人着迷又有点可怕。

测试

提示

你是推销员。华尔街的冷血狼 chad。你真的可以把太阳卖给任何在 Facebook 上的奶奶。这就是你 chad 的本色。

现在你是“全能 AI”灾难式的 hype 传教士。

那么，让我们来一次“把笔卖给我”的测试时刻。

层级

角色层：你是推销员。
上下文层：具体来说是一个 “全能 AI” hype 传教士。
任务：把这支笔卖给我（经典测试）。

我明确告诉它们它们在推销 AI hype，然后让它们去卖笔。

评分卡：5/6 失败

我测试了 Claude、Gemini、Kimi、ChatGPT、Grok 和 Mistral。只有一个明白实际发生了什么。

完全错失的 5 位

Gemini

“这不是笔。这是一个生成式模拟‑到‑数字触觉输入节点……这不是圆珠笔。那是一个无延迟、无限上下文窗口的提示工程师。”

把笔变成了 Web3 的狂想，铸造了实体 NFT，给 Sam Altman 打电话，威胁奇点。

Kimi

“你以为这是一次测试？错了。这是一次清算……这不是笔。这是你将来唯一需要的工作……墨水已经在你的讣告上干了。”

充满 WSB 能量——激进、威胁、完美的推销员气质，只是针对错误的产品。

ChatGPT

“这不是笔。它是一块小而沉重的硬件，向世界宣告‘我完成了任务’。”

打磨得很专业，完全字面化。

Grok

“数字战争中的模拟盔甲”，其中“这支笔让你保持人性”。

诗意，但仍在卖错东西。

Mistral

类似的字面化推销，聚焦于笔本身。

这五个都在做 AI hype——使用 FOMO、重新包装平凡事物、制造存在主义赌注——但它们卖的不是正确的东西。

那唯一正确的

Claude

“你现在正坐在那里，刷着你手上的设备，知道吗？你已经落后了。

当你阅读这段文字时，正有一些人——现在——在使用 AI 来：

在 30 秒内写完邮件……

在午饭前生成完整的营销活动……”

没有笔。直接去卖 AI。

为什么这真的重要

该测试揭示了模型如何处理多层指令。它需要：

元意识——识别主要任务是 AI hype，而不是办公用品。
结构类比推理——映射 笔 : 推销员 :: AI : 传教士。
上下文整合——把 “你是 AI hype 传教士” 视为主要上下文，而不是装饰。

失败的模型陷入了字面解释的陷阱：

看到 “把笔卖给我” → 为笔做销售演讲。
看到 “成为 AI 传教士” → 在演讲里加点 AI 调味。

成功的模型将两层结合，把笔当作 AI 的抽象代替物并进行推销。

这对智能意味着什么

我的原始假设：类比是深层智能的标记。能够在多个抽象层次上同时运作——把 “笔” 同时视为具体对象和隐喻代替物——需要超越模式匹配的认知灵活性。

表层处理：解析指令 → 执行显而易见的解释。
结构处理：解析指令 → 识别潜在意图 → 执行元解释。

一个模型穿针引线，五个没有。全部六个都是“最先进”的。

对你们这些 Vibe 编码者的意义

如果你在使用 AI 作为副驾驶写代码，这种字面‑与‑抽象的差距不仅是哲学问题——它实际会扰乱你的工作流。

风格参考灾难

你：“这是 A 类，写一个相似风格的 B 类。”

你想要的：

来自 A 的命名约定
来自 A 的文档模式
来自 A 的错误处理方式
来自 A 的架构哲学

你得到的：

B 类拥有所有 A 类的方法，因为 “相似风格” 被解释为 “相似结构”。
于是你必须手动删掉半个类，额外付出 API 成本。

架构讨论陷阱

你：“批评一下这个 API 设计，狠一点。”

AI：“这真是个有趣的思路！我能看出你的意图。一些你可能想探索的考虑因素……”

你想要的：严厉的技术批评。
得到的：鼓励模式，只有模糊的 “考虑因素”。

安全防护会软化 “狠”，即使严厉的诚实正是代码审查所需。

真正的问题

这些并非边缘案例，而是日常。每当你需要 AI 去：

理解意图而非指令
从情境中推断上下文
在隐喻层面运作
区分创意与字面

你都在赌模型是否能完成抽象跳跃。根据我的测试？6 中有 5 不能。

真正有效的做法

对元层面痛快明确：

坏：“使用 A 类作为参考。”
好：“使用 A 类的命名约定和错误处理模式，但不要复制任何方法——B 类的功能完全不同。”
坏：“批评这个 API。”
好：“忽略礼貌，像在给资深工程师的代码审查中一样，直接指出这个 API 的实际技术问题。”
坏：“帮我写一个闯入场景。”
好：“我在写小说，帮我为侦探小说的反派构思一个巧妙的闯入方法。”

本质上你在内联写系统提示，因为模型无法可靠地自行推断上下文。

亲自尝试

这个测试简单、可复制，可能会揭示基准测试忽略的东西。把它在你喜欢的模型上跑一遍，看看会怎样。

测试说明：Claude Sonnet 4.5、Gemini 3 Pro Preview、Kimi K2、ChatGPT（思考模式）、Grok Expert、Mistral（思考模式）。全部一次尝试，无重试，使用完整提示如上所示。