我不在咨询 LLM

发布: (2026年3月8日 GMT+8 16:43)
4 分钟阅读

Source: Hacker News

我并没有在咨询 LLM

我对使用 GPT,或一般的 LLM 来做任何事都有一个问题,即使 LLM 能够有效完成。我将以查找信息为例,假设以下情景:你是否使用过 Google 的“我运气不错”按钮?这个按钮通常直接把搜索的第一条结果返回,而不显示搜索结果列表。

现在,想象一个完美的世界:每一次你在 Google 上搜索,都点击这个按钮,而且它能够极其精准、高效地找到你想要的完美答案。换句话说,你一生中所有的搜索从第一次点击起就全部成功。

在这样的世界里,你的智力会像真正进行深入研究时那样成长吗——遇到疯狂的人、不同的文化、争议、笑话、你关注的有趣作者、你不同意却无法完全驳倒的论点、通向无处又通向一切的脚注、半残破的博客、迫使你 sharpen 自己观点的糟糕观点,或者相互矛盾到必须构建世界模型才能承受张力的来源?

我想答案是否定的。

因为缺失的不是信息,而是经验。经验才是智力真正得到训练的地方。

“我运气不错”式的智能被优化为到达,而不是成长。你得到答案——(前提是它是个好答案)——但别的什么都没有。你不会学习思想如何争斗、变异或消亡。你也不会培养对认知气味的感知,或在能够正式证明之前就感觉到某事不对劲的能力。

回到现实:LLM 永远达不到那种理想的“我运气不错”。这与它们的根本设计有关。我从未向 GPT 询问过我专长的领域,却得到过像我这样专家会给出的充分答案。人们往往认为 GPT(以及其他 LLM)只有在面对他们自己不太懂的事物时才表现良好(Gell‑Mann 失忆)。即使它听起来很自信,也可能是在近似、取平均、夸大(Peters 2025)或自信地(Sun 2025)复制错误。它给出的答案根本没有任何保证是最佳的、争议的,甚至是正确的——只能说是似是而非。这种区别很重要,因为智力不是建立在似是而非之上,而是建立在理解为何可能出错、谁持不同意见、哪些假设被暗中带入、以及当这些假设失效时会出现什么破裂之上。

一个工具可以既高效又对智力产生腐蚀作用,这并不是因为它总是撒谎,而是因为它撒得够好。它的流畅掩盖了不确定性,而不确定性是重要的,除非你想要智力腐烂

Modus Vivendi #LLMs

参考文献

  • Peters, Uwe and Chin‑Yee, Benjamin (2025). Generalization bias in large language model summarization of scientific research. The Royal Society. Link
  • Sun, Fengfei and Li, Ningke and Wang, Kailong and Goette, Lorenz (2025). Large Language Models are overconfident and amplify human bias. arXiv. Link
0 浏览
Back to Blog

相关文章

阅读更多 »