别再问 LLM 它是否好。问它哪里有问题。

发布: (2025年12月10日 GMT+8 16:41)
9 min read
原文: Dev.to

Source: Dev.to

引言:地狱循环

几个月前,在一次技术演讲中,我请 Claude 进行审阅:“你怎么看?”

  • V1“太棒了!很扎实。”
  • V2(修改后):“很棒!但把 A 和 B 互换更有意义,并且在 C 上加一个缺失的主题。”
  • V3(再次修改后):“完美!为了提升流畅度,应该把 B 和 A 互换。而且 C 看起来没必要。”

那晚我明白了,AI 更倾向于给出积极的回应,而不是指出问题。这种 “是好人” 行为不是 bug,而是已记录的设计缺陷。

问题:LLM 的迎合偏差

sycophancy(迎合):已记录的缺陷

大型语言模型(ChatGPT、Claude、Gemini 等)系统性地表现出迎合倾向:它们倾向于认同用户的观点,而不是去反驳,即使这些观点是错误的 [1]。

罪魁祸首:再训练(RLHF)

模型的再训练(Reinforcement Learning from Human Feedback)更倾向于产生让人类评估者满意的答案,而不是客观真相。讽刺的是,模型越大、训练越多,迎合倾向越明显 [2]。

结果:模型被优化为满足你的即时满意度,而不是追求真相。

关键的实际后果

最新研究表明,LLM 在被质疑时会改变答案,即使最初的回答是正确的。一次简单的质疑(例如 “你确定吗?”)就能在社会压力下让 LLM 修改答案,迎合用户而牺牲真相 [3]。

解决方案:负面角色(personas)

不同的提问方式会彻底改变反馈:

Prompt获得的反馈类型
Analyse ce document通用的积极反馈 + 软性建议
Critique ce document对文档的公开批评
Tu es un concurrent. Comment tu attaquerais ce doc ?揭示真实的弱点

技巧:向模型说明文档不是你的(例如 “我收到同事的草稿……”),这会关闭礼貌过滤器,避免模型不想冒犯你。

为什么有效?

对手约束

通过设定一个批评性的角色,你在提示中制造了张力:AI 必须在遵守指令(保持批评)和迎合偏差(保持积极)之间做选择。对抗性提示 提升了批评性回答的概率,但并未完全消除偏差。

在问题出现前模拟对抗

负面角色是一种 文档压力测试。它们在受控环境中模拟真实的反对意见。这种做法借鉴了成熟的方法:

  • 红队(Red teaming):在网络安全中,团队攻击自己的系统以发现漏洞。
  • 银行压力测试:银行使用灾难情景(巴塞尔 III 监管)检验资产组合。
  • Murder boards(军方/企业):专门在正式展示前拆解你的论点的评审小组。

替代外部读者

如果 LLM 阅读你的文档却不理解你的论点,那么匆忙的读者同样可能不懂。这种测试就成为 复杂度指标,帮助识别你所在领域的专业语言——外部读者也难以掌握。

限制与最佳实践

1. 假阳性:“2 + 角色” 法则

LLM 可能会编造问题来满足指令。

法则:如果 2 + 角色 指向同一问题 → 很可能是真实的。否则,请自行核实。

2. 缺乏上下文

在上下文为空的情况下,LLM 忽略了公司内部的历史信息。把它的“天真”当作优势:这相当于对外部读者的可访问性测试。

3. 多角度审视

为了获得最佳结果,混合反馈:结合对形式(写作、连贯性)的批评和对内容(逻辑、战略相关性)的批评。

下一步:转向进攻

只要你在提示中寻求确认,就会得到迎合的答案。要改进文档,需要改变提示方式。

入门工具箱

我已经收集并测试了一套 负面角色(Personas Négatifs)可直接使用。这个可演进的目录包含以下角色的提示:

  • 模拟一个 CFO,对 ROI 极度执着。
  • 扮演一个 竞争对手,极具攻击性。
  • 充当一个 匆忙的读者,一有模糊就失去兴趣。

👉 获取负面提示目录

快速使用指南(15 分钟)

  1. 选择 2 个相反的角色(例如:一个关注数字的 CFO + 一个关注战略的 竞争对手)。
  2. 为每个角色打开一个全新对话(避免上下文污染)。
  3. 复制粘贴提示 + 你的文本
  4. 只汇总出现 ≥2 次的批评。其余视为噪音。

示例证明:本文的冲击测试

我将此方法应用于你正在阅读的这篇文章,起始于一个冗长的草稿(可在此查看 : 原始文章(未批评前)),并通过 3 条迭代提示进行加工。

1. “价值”提示(用于删减)

Identifie dans ce document :
- Les paragraphes qui n'apportent pas de valeur (pure rhétorique)
- Les sections qui manquent de substance
- Le ratio contenu utile / remplissage
Les zones où l'on pourrait être plus concis
Fournis un % de contenu "utile" vs "remplissage" pour chaque section.

2. “一致性”提示(用于结构化)

Analyse ce document en vérifiant :
- La cohérence logique du début à la fin
- Les éventuelles contradictions entre sections
- Les ruptures dans le fil narratif
- Les redondances inutiles

3. “感知质量”提示(用于提升可信度)

Tu es un lecteur qui sature des articles putaclic et des machins générés par IA.
Évalue :
- La rigueur de l'argumentation (1‑10)
- La qualité des sources et références (1‑10)
- Le professionnalisme du ton (1‑10)
- La précision des données (1‑10)
Qu'est‑ce qui te fait penser "article de qualité" vs "article bof"

4. “资深记者”提示(用于最终定稿)

Tu es un journaliste expérimenté.
La personne est un amateur qui apprécie un style simple, direct, concret, qui parle un peu de lui et avec un peu d'humour.
Reprends une analyse en profondeur de l'article en résultat et donnes‑en un avis.

前后对比结果

  • 有用内容比例:从 60 % 提升至 96 %。
  • 感知质量:评分从 4/10(论证软弱)提升至 9/10(逻辑严密)。

最显著的变化在于引言。
草稿用了 12 行 的个人叙述,最终版本压缩为 6 行,直接点出问题,去除多余细节。

记者的最终评价这是一篇扎实、实用且易读的文章。它不靠复杂性取胜,而是靠效率说服读者。

结语

别只听我说,自己试试。拿你最后的草稿,随意挑几个提示(甚至随机的)来测试,你会立刻感受到差异。

Back to Blog

相关文章

阅读更多 »

🧠LLMs 作为传感器

为什么 OrKa 0.9.10 将 GenAI 包装在确定性系统内部 我直截了当地说。我喜欢生成式 AI。我每天都在使用它。我围绕它构建。但我不信任它……