AI记忆的悖论:记住一切很容易,明智地记住很难。

发布: (2026年3月5日 GMT+8 14:07)
4 分钟阅读
原文: Dev.to

Source: Dev.to

对天真记忆的困扰

但没有人谈论这一点:天真的记忆代价高昂。而且不仅仅是金钱上的代价。

给一个代理提供一个巨大的上下文窗口,并把它填满它曾经见过的所有内容。更多的上下文并不意味着更好的理解——它只会带来更多噪声。信噪比会崩塌。代理会在不相关的事物之间产生幻觉连接,失去对当前重要信息的把握,并且在变慢的同时准确度下降。

上下文不仅仅是一种资源——它是一种认知环境。污染它,你的代理就会变得更笨,知道的越多反而越糊涂。

人类大脑并不是这样工作的。你在回答问题时并不会把所有曾经的对话全部重放。你会忘记大多数事情。忘记并不是缺陷——而是架构本身。

更类人化的记忆架构

结构化抽取

  • 将事实独立抽取并存储。
  • 决策记录包括置信度、推理过程和结果。
  • 对话结束时进行摘要——洞见保留下来,逐字记录则被删除。

帧感知预算

  • 每一次交互都会被归类到一个认知帧(对话、任务、决策、调试、研究)。
  • 每个帧拥有不同的 token 预算:
    • 随意聊天大约加载 3 K token 的上下文。
    • 复杂决策大约加载 12 K token,并额外拉取三倍的历史决策。
  • 记忆的多少不是由代理自行决定——而是由帧决定。

批量检索

当代理需要从多个来源获取数据时,单个嵌入脚本会一次性执行所有查询,过滤并压缩结果,只返回真正重要的内容。
原本需要三次工具调用、每次都把完整结果塞进上下文的情况,变成一次紧凑的摘要。

激进修剪

  • 工具输出会随时间自动裁剪。
  • 超过 4 K 字符的结果会软裁剪为前后各 1 500 字符。
  • 在六次工具调用后,旧的输出会被彻底清除。
  • 代理永远不会背负死重。

有意遗忘

有些信息会被刻意遗忘。

结果

一个能够在数百次对话中记住用户信息的代理,却比没有记忆的普通聊天每轮使用的 token 更少。

这才是代理式 AI 的真正挑战:不仅要让代理能够完成任务——这基本已经解决——更要让代理能够经济地思考,在不增加成本的前提下携带上下文,像值得信赖的同事而不是法庭速记员那样记忆。

结论

我们正进入一个 AI 记忆架构比模型本身更重要的时代。即使是最聪明的模型,如果记忆浪费,也会输给记忆智能的优秀模型。

构建能够明智记忆的代理,而不是记住一切的代理。

GitHub repository: tfatykhov/nous

P.S. 仍在进行中,但已经完成了很多工作。

0 浏览
Back to Blog

相关文章

阅读更多 »

有事在 Qwen 的土地上酝酿

最近在阿里巴巴的 Qwen 团队的最新进展 我在撰写关于 Qwen 3.5 的文章上有些落后,Qwen 3.5 是阿里巴巴 Qwen 团队发布的一个卓越的 open‑weight 模型系列,……