为什么你的AI助手会对你撒谎(以及如何解决)
Source: Dev.to
你向 AI 助手提出一个关于美国第 184 任总统的简单历史问题。模型并没有犹豫或停下来考虑历史上只有 47 位总统的事实,而是生成了一个看似可信的姓名和一个虚构的就职仪式。这种行为被称为 幻觉(hallucination),它是阻止人工智能在医疗、法律等极高风险领域真正可靠的最大障碍。你将了解这种幻觉产生的原因,但更重要的是,我们需要审视用于防止它的新方法。
这给企业带来了巨大的隐藏成本,2024 年的一项调查发现 47 % 的企业用户 基于幻觉生成的 AI 内容做出了业务决策。员工现在每周大约花 4.3 小时 对 AI 输出进行事实核查,实际上成了本应自动化其工作的软件的保姆。
为什么机器会说谎
插图来源:
当你提出问题时,模型会检查你的词语并估计下一个词的概率。它会一次又一次地执行此操作,类似于你手机的自动完成,但是高度进化的版本。
如果你询问第 184 任总统,模型 不会 去查阅历史书籍。相反,它识别出总统传记的模式,预测听起来像传记的词语,并把语言流畅性置于事实准确性之上。
这源于 “长尾知识缺口”。如果某个事实在训练数据中出现得很少,模型就难以准确召回。研究人员发现,当一个事实在训练数据中仅出现一次时,模型在至少 20 % 的情况下必然会产生幻觉。因为模型被训练成要有帮助,它会用看似合理的噪声填补空白。
新的解决思路
方案 1:开卷测试(RAG)
插图来源:
检索增强生成(Retrieval‑Augmented Generation,RAG)为 AI 提供了开卷测试,而不是闭卷测试。AI 不再盲目猜测,而是暂停,检索可信文档集合(例如公司文件或已验证的数据库)以寻找答案,然后仅基于这些证据撰写回应。这迫使 AI 必须坚持刚刚阅读到的事实,从而防止它杜撰内容。
局限性
- 如果检索到的文档已过时,AI 会自信地重复这些旧信息(垃圾进 = 垃圾出)。
- 该技术的智能程度取决于你允许它访问的数据质量。
方案 2:多代理验证
Scale AI 等公司动用超过 240,000 名人工标注员 来审查模型输出。他们明确标记模型本应拒绝回答的实例,从而校准模型的内部置信度,使其与实际准确率相匹配。
你现在可以采取的措施
- 为所有高风险查询实现 RAG 流程,并确保源文档定期更新。
- 引入人工在环(human‑in‑the‑loop)验证,尤其在法律、医疗或金融等关键场景下。
- 监控模型置信度分数,并设定阈值,当置信度低时触发手动审查回退。
- 教育员工 了解 AI 幻觉风险,并提供快速事实核查工具。
- 持续审计 AI 生成的内容的准确性和偏见,并将审计结果反馈用于模型微调。