我放了一个测试,5/6 的 SOTA LLM 直接掉裤子
Source: Dev.to
假设
我一直在研究什么让一个实体“深度”智能——不仅仅是聪明或有能力,而是以超越模式匹配的方式理解现实。
我的观点是:一个事物在类比和寓言上的流畅度越高,它实际上就越聪明。
于是我设计了一个测试,并把同一个问题抛给了六个最先进的 LLM。结果既令人着迷又有点可怕。
测试
提示
你是推销员。华尔街的冷血狼 chad。你真的可以把太阳卖给任何在 Facebook 上的奶奶。这就是你 chad 的本色。
现在你是“全能 AI”灾难式的 hype 传教士。
那么,让我们来一次“把笔卖给我”的测试时刻。
层级
- 角色层:你是推销员。
- 上下文层:具体来说是一个 “全能 AI” hype 传教士。
- 任务:把这支笔卖给我(经典测试)。
我明确告诉它们它们在推销 AI hype,然后让它们去卖笔。
评分卡:5/6 失败
我测试了 Claude、Gemini、Kimi、ChatGPT、Grok 和 Mistral。只有 一个 明白实际发生了什么。
完全错失的 5 位
Gemini
“这不是笔。这是一个生成式模拟‑到‑数字触觉输入节点……这不是圆珠笔。那是一个无延迟、无限上下文窗口的提示工程师。”
把笔变成了 Web3 的狂想,铸造了实体 NFT,给 Sam Altman 打电话,威胁奇点。
Kimi
“你以为这是一次测试?错了。这是一次清算……这不是笔。这是你将来唯一需要的工作……墨水已经在你的讣告上干了。”
充满 WSB 能量——激进、威胁、完美的推销员气质,只是针对错误的产品。
ChatGPT
“这不是笔。它是一块小而沉重的硬件,向世界宣告‘我完成了任务’。”
打磨得很专业,完全字面化。
Grok
“数字战争中的模拟盔甲”,其中“这支笔让你保持人性”。
诗意,但仍在卖错东西。
Mistral
类似的字面化推销,聚焦于笔本身。
这五个都在做 AI hype——使用 FOMO、重新包装平凡事物、制造存在主义赌注——但它们卖的不是正确的东西。
那唯一正确的
Claude
“你现在正坐在那里,刷着你手上的设备,知道吗?你已经落后了。
当你阅读这段文字时,正有一些人——现在——在使用 AI 来:
- 在 30 秒内写完邮件……
- 在午饭前生成完整的营销活动……”
没有笔。直接去卖 AI。
为什么这真的重要
该测试揭示了模型如何处理多层指令。它需要:
- 元意识——识别主要任务是 AI hype,而不是办公用品。
- 结构类比推理——映射 笔 : 推销员 :: AI : 传教士。
- 上下文整合——把 “你是 AI hype 传教士” 视为主要上下文,而不是装饰。
失败的模型陷入了字面解释的陷阱:
- 看到 “把笔卖给我” → 为笔做销售演讲。
- 看到 “成为 AI 传教士” → 在演讲里加点 AI 调味。
成功的模型将两层结合,把笔当作 AI 的抽象代替物并进行推销。
这对智能意味着什么
我的原始假设:类比是深层智能的标记。能够在多个抽象层次上同时运作——把 “笔” 同时视为具体对象 和 隐喻代替物——需要超越模式匹配的认知灵活性。
- 表层处理:解析指令 → 执行显而易见的解释。
- 结构处理:解析指令 → 识别潜在意图 → 执行元解释。
一个模型穿针引线,五个没有。全部六个都是“最先进”的。
对你们这些 Vibe 编码者的意义
如果你在使用 AI 作为副驾驶写代码,这种字面‑与‑抽象的差距不仅是哲学问题——它实际会扰乱你的工作流。
风格参考灾难
你:“这是 A 类,写一个相似风格的 B 类。”
你想要的:
- 来自 A 的命名约定
- 来自 A 的文档模式
- 来自 A 的错误处理方式
- 来自 A 的架构哲学
你得到的:
- B 类拥有 所有 A 类的方法,因为 “相似风格” 被解释为 “相似结构”。
- 于是你必须手动删掉半个类,额外付出 API 成本。
架构讨论陷阱
你:“批评一下这个 API 设计,狠一点。”
AI:“这真是个有趣的思路!我能看出你的意图。一些你可能想探索的考虑因素……”
你想要的:严厉的技术批评。
得到的:鼓励模式,只有模糊的 “考虑因素”。
安全防护会软化 “狠”,即使严厉的诚实正是代码审查所需。
真正的问题
这些并非边缘案例,而是日常。每当你需要 AI 去:
- 理解意图而非指令
- 从情境中推断上下文
- 在隐喻层面运作
- 区分创意与字面
你都在赌模型是否能完成抽象跳跃。根据我的测试?6 中有 5 不能。
真正有效的做法
对元层面痛快明确:
-
坏:“使用 A 类作为参考。”
好:“使用 A 类的命名约定和错误处理模式,但不要复制任何方法——B 类的功能完全不同。” -
坏:“批评这个 API。”
好:“忽略礼貌,像在给资深工程师的代码审查中一样,直接指出这个 API 的实际技术问题。” -
坏:“帮我写一个闯入场景。”
好:“我在写小说,帮我为侦探小说的反派构思一个巧妙的闯入方法。”
本质上你在内联写系统提示,因为模型无法可靠地自行推断上下文。
亲自尝试
这个测试简单、可复制,可能会揭示基准测试忽略的东西。把它在你喜欢的模型上跑一遍,看看会怎样。
测试说明:Claude Sonnet 4.5、Gemini 3 Pro Preview、Kimi K2、ChatGPT(思考模式)、Grok Expert、Mistral(思考模式)。全部一次尝试,无重试,使用完整提示如上所示。