SuperLocalMemory V3:生产级代理记忆的数学基础

发布: (2026年3月18日 GMT+8 12:00)
9 分钟阅读
原文: Dev.to

Source: Dev.to

(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。)

概述

我们将 信息几何代数拓扑随机动力学 应用于 AI 代理的记忆。

  • 74.8 %LoCoMo 上,数据保持本地 – 这是在不依赖云的情况下报告的最高分。
  • 87.7 % 在全功率模式下。
  • 60.4 %无 LLM 的任何阶段。

开源,采用 MIT 许可证。

记忆问题

每个 AI 编码助手 — Claude、Cursor、Copilot、ChatGPT — 都从零开始每个会话。

  • 现有的记忆层(例如 Mem0、Zep、Letta)对个人开发者和小团队效果良好。
  • 生产规模 的使用仍未得到解决。

大规模下的症状

规模问题
10 k 记忆余弦相似度不再区分相关和不相关的结果。
100 k 记忆静默矛盾累积(例如 “Alice moved to London” and “Alice lives in Paris”)。
企业级硬编码的生命周期阈值(“30 天后归档”)失效,因为使用模式在团队、项目和领域之间差异很大。

监管维度

EU AI Act 将于 2026 年 8 月 2 日 完全生效。
任何将数据发送到云端 LLM 进行核心操作的记忆系统都会面临合规性问题,仅靠工程手段无法解决——需要 架构层面 的答案。

Source:

我们的数学方法

1. 置信加权检索

标准做法:余弦相似度把每个嵌入视为同等置信度。

我们的模型

  • 每个记忆嵌入 → 对角高斯(学习得到的均值 & 方差)。
  • 相似度通过 Fisher‑Rao 测地距离(统计流形上的自然度量)来衡量。

关键特性

  • 重复访问 → 方差收缩(贝叶斯共轭更新)。
  • 使用频率更高的记忆会 更精确
  • 已证明随着使用量增长可提升检索效果。

消融实验 – 去除 Fisher‑Rao 会使多跳准确率下降 12 个百分点

2. 代数一致性检查

标准做法:成对矛盾检查的时间复杂度为 O(n²),且会遗漏传递性矛盾。

我们的模型

  • 将知识图表示为 细胞层(节点和边上的向量空间)。
  • 计算 第一上同调群 (H^{1}(G,F)):
结果解释
(H^{1}=0)所有记忆在全局上是一致的
(H^{1}\neq0)存在矛盾,即使每一对局部看起来都没有问题
  • 代数级别 的扩展性,而非平方级别,能够捕获成对方法无法发现的矛盾。

3. 自组织生命周期管理

标准做法:硬编码阈值(“30 天后归档”,“10 次访问后提升”)。

我们的模型

  • 庞加莱球 上进行随机梯度流动。
  • 潜在函数编码 访问频率、可信度评分、最近度
  • 动力学收敛到 稳态分布 → 在生命周期状态之间实现数学上的最优分配
Active → Warm → Cold → Archived
  • 无需人工调参;系统依据实际使用模式自行组织。

基准结果

LoCoMo(长对话记忆)

配置分数含义
Mode A Retrieval74.8 %数据保留在本机。最高的本地优先得分。
Mode C (Full Power)87.7 %每一层均使用云端 LLM。可与行业系统相媲美。
Mode A Raw60.4 %任一阶段均不使用 LLM。业界首创。

竞争格局

系统分数是否需要云 LLM
EverMemOS92.3 %
MemMachine91.7 %
Hindsight89.6 %
SLM V3 Mode C87.7 %是(每一层)
Zep~85 %
SLM V3 Mode A74.8 %
Mem0~58‑66 %
SLM V3 Mode A Raw60.4 %否(零 LLM)

Mode A Raw(60.4 %)与 Mode A Retrieval(74.8 %)之间的差距表明,四通道数学检索管线在几乎不依赖云端的情况下捕获了基准需求的绝大部分。剩余的差距(74.8 % → 87.7 %)来源于 答案合成质量,而非知识检索。

Source:

生产规模优势

问题传统方法我们的解决方案影响
大规模检索质量余弦相似度失去判别能力Fisher‑Rao distance当成千上万条记忆竞争时仍保持相关性
大规模一致性成对检查遗漏传递性矛盾Sheaf cohomology (H¹)通过代数方式检测全局不一致
生命周期管理固定阈值在工作负载变化下失效Langevin dynamics on Poincaré ball自动组织记忆分配,无需手动调参

这些改进在基准测试中 可量化,且随着记忆数量的增长 效果更加显著

隐私‑准确性光谱

模式描述云依赖性LoCoMo 分数
Mode A – Local Guardian所有处理均在本地完成。架构符合欧盟 AI 法案。74.8 %
Mode B – Smart Local在 Mode A 基础上加入 Ollama 本地大模型。仍然完全私密。(同 Mode A)
Mode C – Full Power每一层均使用云端大模型。87.7 %

随时切换——记忆在所有模式间保持一致。

快速开始

npm install -g superlocalmemory   # install the CLI
slm setup                         # initial configuration
slm warmup    # optional: pre‑download embedding model
slm dashboard # launch 17‑tab web dashboard at http://localhost:8765

兼容性

支持 17+ AI 工具,包括:

  • Claude Code
  • Cursor
  • VS Code Copilot
  • Windsurf
  • ChatGPT Desktop
  • Gemini CLI
  • JetBrains IDEs
  • Zed
  • Continue
  • Cody
  • …以及更多。

最后说明

当前的记忆系统是令人印象深刻的工程壮举。我们的 数学基础(V3) 解决了三个核心的生产规模挑战——检索、一致性和生命周期——并提供可证明、可衡量的改进。选择符合您隐私和性能需求的模式,让系统处理其余工作。

概览

表格如下,代表 为真实用户解决实际问题的有意义工作
我们的贡献是 数学的。我们相信,代理记忆的未来不在于更多的启发式方法,而在于 有原则的数学——提供保证、可预测扩展并且可被任何系统采用的技术。

核心理念

V3 中的三种技术(Fisher‑Rao、层叠上同调、朗之万动力学)并非我们产品特有;它们是通用的数学工具。我们已在 MIT 许可证下开源所有内容,因为我们相信整个领域都能受益于坚实的数学基础。

如果这些技术能让其他记忆系统变得更好,我们就成功了。

资源

作者

Varun Pratap Bhardwaj — 独立研究员
Qualixar 成员


Qualixar 成员 | 作者: Varun Pratap Bhardwaj

0 浏览
Back to Blog

相关文章

阅读更多 »