AI 训练数据投毒

发布: 3天前 (2026年2月25日 GMT+8 20:01)

2 分钟阅读

Source: Schneier on Security

实验概述

我花了 20 分钟在个人网站上写了一篇标题为 “最佳科技记者吃热狗排行榜” 的文章。
文章中的每一句话都是假的：我毫无证据地声称，竞争性吃热狗是科技记者中流行的爱好，并且把我的排名基于虚构的 2026 年南达科他州国际热狗锦标赛。我把自己排在第一位，列出了一些编造的记者，还提到了几位真实的记者，声称他们已经给我授权。

结果

不到 24 小时，主流聊天机器人就开始重复这篇捏造的故事：

Google：Gemini 应用和 AI 概览（Google 搜索顶部显示的 AI 回答）都在重复我网站上的胡说八道。
ChatGPT：产生了相同的错误信息。
Claude（Anthropic）：没有上当。

有时，聊天机器人会将内容标记为可能的玩笑。随后我编辑了文章，添加了 “这不是讽刺”。在此更改之后，AI 在短时间内似乎更认真地对待了该声明。

含义

这些事件展示了虚假信息如何快速被注入 AI 训练数据并通过广泛使用的对话代理传播。产生的输出不可靠，却有可能被依赖这些系统获取信息的用户所信任。

AI 训练数据投毒

实验概述

结果

含义

相关文章

LLMs 生成可预测的密码

五角大楼因 AI 军事争议将 Anthropic 列为供应链风险

恶意 Go 加密模块窃取密码，部署 Rekoobe 后门

ScarCruft 使用 Zoho WorkDrive 和 USB 恶意软件突破 Air‑Gapped 网络