AI 训练数据投毒
发布: (2026年2月25日 GMT+8 20:01)
2 分钟阅读
Source: Schneier on Security
实验概述
我花了 20 分钟在个人网站上写了一篇标题为 “最佳科技记者吃热狗排行榜” 的文章。
文章中的每一句话都是假的:我毫无证据地声称,竞争性吃热狗是科技记者中流行的爱好,并且把我的排名基于虚构的 2026 年南达科他州国际热狗锦标赛。我把自己排在第一位,列出了一些编造的记者,还提到了几位真实的记者,声称他们已经给我授权。
结果
不到 24 小时,主流聊天机器人就开始重复这篇捏造的故事:
- Google:Gemini 应用和 AI 概览(Google 搜索顶部显示的 AI 回答)都在重复我网站上的胡说八道。
- ChatGPT:产生了相同的错误信息。
- Claude(Anthropic):没有上当。
有时,聊天机器人会将内容标记为可能的玩笑。随后我编辑了文章,添加了 “这不是讽刺”。在此更改之后,AI 在短时间内似乎更认真地对待了该声明。
含义
这些事件展示了虚假信息如何快速被注入 AI 训练数据并通过广泛使用的对话代理传播。产生的输出不可靠,却有可能被依赖这些系统获取信息的用户所信任。