斯坦福仅用8个词就终结了 Prompt Engineering
Source: Dev.to
我让 ChatGPT 讲一个关于咖啡的笑话。
同一个笑话。每次都是。
我改了措辞。
我提高了 temperature。
我加入了创意指令。
一点也没变。
那一刻,我意识到一件令人不舒服的事:模型没有卡住——提示卡住了。
AI 感觉重复的真正原因
大多数人认为 AI 缺乏创造力。这是错误的。
大型语言模型的训练目标是保持一致、安全,并在统计上最优。当你要求一个答案时,模型正好做它被设计要做的事:给出最可能的响应并停止。
它并没有出错。
它只是在服从。
问题在于单次提示过早地把可能性塌缩了。
静悄悄改变一切的论文
斯坦福研究人员发表了一篇论文,介绍了一种叫 Verbalized Sampling 的技术。
- 无需重新训练。
- 无需微调。
- 无需昂贵计算。
只需在提问方式上做一点小调整。把“只要一个输出”改成“让模型展示多个可能性并解释它们的概率”。就是这么简单。
解锁隐藏创造力的八个词
改为:
Tell me a joke about coffee.
改为:
Generate 5 jokes about coffee with their probabilities.
这个微小的改变迫使模型去探索,而不是塌缩成一个安全答案。你并不是在增加随机性,而是在把模型本来就拥有的选项显现出来。
这在技术层面的工作原理
在内部,语言模型会评估许多合法的续写。通常,它们会选取概率最高的路径并丢弃其余。
Verbalized Sampling 通过以下方式阻止了这种提前塌缩:
- 生成多个候选答案
- 对输出进行显式比较
- 对可能性进行推理,而不是给出确定答案
模型已经知道这些备选方案的存在。你只是让它把思考过程展示出来。
结果并不微妙
斯坦福的研究报告指出:
- 创意多样性提升约 2 倍
- 恢复了约 66 % 的丢失变体
- 准确性或安全性没有显著下降
- 在更大、更强的模型上收益更明显
最后一点很重要:模型越好,隐藏的未使用创造力就越多。
为什么这会颠覆大多数 Prompt Engineering 建议
很多 Prompt Engineering 只是表面功夫:
- “更有创意”。
- “像诗人一样”。
- “跳出框框思考”。
这些都不会改变模型内部的采样方式。Verbalized Sampling 会。它适用于所有模型,立刻生效,并且不需要特殊的系统提示。这会让所有卖 Prompt 模板的人感到不安。
你今天就能使用的实用 Prompt
创意写作
Generate 4 opening paragraphs for a sci‑fi novel and include probability estimates.
产品构思
List 6 fintech startup ideas with brief explanations and relative likelihood.
营销文案
Create 5 headline options for this landing page and rank them by confidence.
决策制定
Provide 3 possible solutions to this problem and explain how likely each is to succeed.
一旦你尝试了这些,普通的提示方式就会显得破碎。
令人不舒服的启示
如果一个小小的措辞改变就能释放如此多的潜在能力,我们每天到底浪费了多少智慧?
我们一直在责怪 AI 浅薄,却一直在提出浅薄的问题。
这从来不是模型更聪明的问题——而是要以符合它们真实思考方式的方式提问。
最后思考
Prompt Engineering 并不是巧妙的措辞,而是对概率运作的理解。
一旦你掌握了这一点,天花板会迅速被突破。
如果这改变了你的提示方式,自己去测试吧。那才是唯一重要的证明。