斯坦福仅用8个词就终结了 Prompt Engineering

发布: (2025年12月14日 GMT+8 11:59)
5 min read
原文: Dev.to

Source: Dev.to

我让 ChatGPT 讲一个关于咖啡的笑话。
同一个笑话。每次都是。

我改了措辞。
我提高了 temperature。
我加入了创意指令。

一点也没变。

那一刻,我意识到一件令人不舒服的事:模型没有卡住——提示卡住了。

AI 感觉重复的真正原因

大多数人认为 AI 缺乏创造力。这是错误的。

大型语言模型的训练目标是保持一致、安全,并在统计上最优。当你要求一个答案时,模型正好做它被设计要做的事:给出最可能的响应并停止。

它并没有出错。
它只是在服从。

问题在于单次提示过早地把可能性塌缩了。

静悄悄改变一切的论文

斯坦福研究人员发表了一篇论文,介绍了一种叫 Verbalized Sampling 的技术。

  • 无需重新训练。
  • 无需微调。
  • 无需昂贵计算。

只需在提问方式上做一点小调整。把“只要一个输出”改成“让模型展示多个可能性并解释它们的概率”。就是这么简单。

解锁隐藏创造力的八个词

改为:

Tell me a joke about coffee.

改为:

Generate 5 jokes about coffee with their probabilities.

这个微小的改变迫使模型去探索,而不是塌缩成一个安全答案。你并不是在增加随机性,而是在把模型本来就拥有的选项显现出来。

这在技术层面的工作原理

在内部,语言模型会评估许多合法的续写。通常,它们会选取概率最高的路径并丢弃其余。

Verbalized Sampling 通过以下方式阻止了这种提前塌缩:

  • 生成多个候选答案
  • 对输出进行显式比较
  • 对可能性进行推理,而不是给出确定答案

模型已经知道这些备选方案的存在。你只是让它把思考过程展示出来。

结果并不微妙

斯坦福的研究报告指出:

  • 创意多样性提升约 2 倍
  • 恢复了约 66 % 的丢失变体
  • 准确性或安全性没有显著下降
  • 在更大、更强的模型上收益更明显

最后一点很重要:模型越好,隐藏的未使用创造力就越多。

为什么这会颠覆大多数 Prompt Engineering 建议

很多 Prompt Engineering 只是表面功夫:

  • “更有创意”。
  • “像诗人一样”。
  • “跳出框框思考”。

这些都不会改变模型内部的采样方式。Verbalized Sampling 会。它适用于所有模型,立刻生效,并且不需要特殊的系统提示。这会让所有卖 Prompt 模板的人感到不安。

你今天就能使用的实用 Prompt

创意写作

Generate 4 opening paragraphs for a sci‑fi novel and include probability estimates.

产品构思

List 6 fintech startup ideas with brief explanations and relative likelihood.

营销文案

Create 5 headline options for this landing page and rank them by confidence.

决策制定

Provide 3 possible solutions to this problem and explain how likely each is to succeed.

一旦你尝试了这些,普通的提示方式就会显得破碎。

令人不舒服的启示

如果一个小小的措辞改变就能释放如此多的潜在能力,我们每天到底浪费了多少智慧?

我们一直在责怪 AI 浅薄,却一直在提出浅薄的问题。

这从来不是模型更聪明的问题——而是要以符合它们真实思考方式的方式提问。

最后思考

Prompt Engineering 并不是巧妙的措辞,而是对概率运作的理解。

一旦你掌握了这一点,天花板会迅速被突破。

如果这改变了你的提示方式,自己去测试吧。那才是唯一重要的证明。

Mashraf Aiman

Back to Blog

相关文章

阅读更多 »

揭秘检索增强生成 (RAG)

大型语言模型(LLMs)彻底改变了我们与信息交互的方式,但它们有一个根本性的限制:它们的知识在训练时点被冻结。