AI 训练数据投毒

发布: (2026年2月25日 GMT+8 20:01)
2 分钟阅读

Source: Schneier on Security

实验概述

我花了 20 分钟在个人网站上写了一篇标题为 “最佳科技记者吃热狗排行榜” 的文章。
文章中的每一句话都是假的:我毫无证据地声称,竞争性吃热狗是科技记者中流行的爱好,并且把我的排名基于虚构的 2026 年南达科他州国际热狗锦标赛。我把自己排在第一位,列出了一些编造的记者,还提到了几位真实的记者,声称他们已经给我授权。

结果

不到 24 小时,主流聊天机器人就开始重复这篇捏造的故事:

  • Google:Gemini 应用和 AI 概览(Google 搜索顶部显示的 AI 回答)都在重复我网站上的胡说八道。
  • ChatGPT:产生了相同的错误信息。
  • Claude(Anthropic):没有上当。

有时,聊天机器人会将内容标记为可能的玩笑。随后我编辑了文章,添加了 “这不是讽刺”。在此更改之后,AI 在短时间内似乎更认真地对待了该声明。

含义

这些事件展示了虚假信息如何快速被注入 AI 训练数据并通过广泛使用的对话代理传播。产生的输出不可靠,却有可能被依赖这些系统获取信息的用户所信任。

0 浏览
Back to Blog

相关文章

阅读更多 »

LLMs 生成可预测的密码

LLMs 在生成密码方面表现不佳:https://www.irregular.com/publications/vibe-password-generation:- 在这 50 个密码中存在明显的强模式……