为什么 Memory Poisoning 是 AI 安全的新前沿

发布: 1个月前 (2026年1月7日 GMT+8 16:42)

7 分钟阅读

Source: Dev.to

关于为何记忆投毒是 AI 安全新前沿的封面图

想象一下，你拥有一个出色的全新 AI 代理。它可以处理你的邮件、管理你的日程，甚至帮助进行代码审查。它之所以出色，是因为它记得你的偏好，并从每一次交互中学习。但如果有人能够在它的耳边“低语”一个永远不会忘记的谎言，会怎样？

这不仅仅是一个假设情景。随着我们从无状态的大语言模型（LLM）转向使用检索增强生成（RAG）和持久记忆的自主代理，我们正打开通往一种更危险攻击类型的大门：记忆与上下文投毒（Memory and Context Poisoning）。

什么是记忆与上下文投毒？

在 AI 安全领域，我们经常讨论 prompt injection。你应该很熟悉这种手法：用户试图欺骗模型“忽略之前的指令”。虽然令人烦恼，但 prompt injection 通常是瞬时的。会话结束后，使用的“海盗模式”或其他利用手段就会消失。

记忆投毒 (ASI06) 则不同。它是对代理长期知识的结构性破坏。它不像一次性的技巧，而更像是给一名可信员工一套伪造的操作指南，让他们永远遵循。

该威胁之所以跃升至优先级列表首位（在 OWASP 2026 代理应用十大风险中被标记为 ASI06），是因为我们当前构建代理的方式。现代代理依赖于三个核心支柱，而这些支柱不幸也成为了攻击向量：

检索增强生成（RAG）
RAG 是代理的“真相来源”。如果攻击者能够将恶意文档注入你的向量数据库，代理就会检索到它并将其视为事实。这不仅仅是一个错误答案，而是一个被破坏的基础。
工具使用放大
代理不仅仅是对话，它们会执行操作。它们调用 API、运行代码并移动数据。如果代理的记忆被投毒，使其相信某个特定的恶意账户是“可信供应商”，它将毫不犹豫地使用其工具向该账户发送金钱或数据。
自主决策循环
代理经常将自己的日志或摘要写回记忆中。这会形成一个反馈循环，最初的微小“毒药”会随时间增长并自我强化，使得追溯到最初的攻击变得极其困难。

这不仅仅是学术上的讨论。对于构建企业级代理的开发者来说，风险是具体且实际的：

构建弹性代理需要从“保护模型”转向“保护上下文”。

您正在实施哪些具体的架构改动来保护您的 RAG 流水线和代理记忆，以免受到 ASI06 的影响？