揭开 MEMORY-NATIVE-NEURAL-NETWORK (MNNN) 家族的面纱:重塑 AI 对记忆的方式
Source: Dev.to
我疯狂的实验,作者: @hejhdiss。
注:仓库中的代码库最初由 Claude Sonnet 编写,但我根据需要进行了编辑和测试。这是一个实验性项目,但它可以运行!
问题:记忆成为瓶颈
多年来,对真正智能 AI 的追求一直受到一个根本性瓶颈的制约:记忆。虽然像 Transformers 这样的强大模型主导了整个领域,但它们对外部、“bolted‑on”记忆系统的依赖导致效率低下,限制了长期理解,并且需要巨大的计算资源。
介绍 MEMORY‑NATIVE‑NEURAL‑NETWORK (MNNN) 系列
今天我们带来一次范式转变:MEMORY‑NATIVE‑NEURAL‑NETWORK (MNNN) 系列。这不仅是一次增量改进,而是对神经网络处理信息方式的根本性重新构想——从被动的数据存储转向随每次交互而演化的主动、内在记忆。
核心理念:记忆是内嵌的,而非后加的
MNNN 系列的指导原则既简单又深刻:记忆应当是神经网络架构的固有属性,而不是事后补上的想法。想象一下人脑需要外部硬盘才能记住一次对话;这既低效又不自然。MNNN 旨在模拟生物大脑将过去经验直接整合进其动态状态的能力,从而培养真正的长期理解和可适应的智能。
与现有模型的区别
| 模型 | 记忆处理 |
|---|---|
| Transformers | 通过注意力机制和键值缓存管理上下文,这本质上是随输入线性增长、最终会丢弃旧信息的外部查找表。 |
| RNNs / LSTMs | 具有内部状态,但常受梯度消失影响,导致长期记忆快速衰减。 |
| MNNNs | 将记忆直接嵌入微分方程和神经元动力学,确保过去的信息不仅被引用,而是成为网络本身身份的一部分。 |
Source: …
MNNN 家族的首批成员
初始的 MNNN 家族包括三种开创性的架构,它们都基于“记忆原生”原则,提供独特的能力。
1. AMRC – 持久理解的基础单元
自适应记忆递归单元 (Adaptive Memory Recurrent Cell, AMRC) 是 MNNN 家族的基石。它在单个神经元层面引入了记忆保持的基本概念。不同于仅仅激活并传递信号的传统神经元,AMRC 神经元具备固有的保留过去激活部分信息的能力。
关键机制
- 记忆保持激活 ($\beta$): 使神经元能够有选择地保留其先前输出的元素。
- 有状态神经元 ($\alpha$): 内部参数会动态演化,确保神经元的“身份”是其历史的连续函数。
AMRC 证明了一个简单而稳健的递归单元即可在无需外部记忆结构的情况下保持重要上下文,为需要紧凑却智能处理的场景提供了卓越的效率。
2. PMRC – 经验的智能策展人
在 AMRC 基础上,持久记忆递归单元 (Persistent Memory Recurrent Cell, PMRC) 增加了关键的智能层面:可学习的记忆门。AMRC 神经元仅仅是保留信息,而 PMRC 神经元则决定保留什么以及保留的强度。
这类似于生物记忆对信息进行选择性过滤和优先级排序的方式。PMRC 能根据输入数据动态调整其记忆保持策略,使其能够:
- 在对话中聚焦关键事实。
- 丢弃无关的“填充”词。
- 随时间发展出对用户沟通风格的个性化理解。
理想使用场景: 自适应个性化和终身学习——网络必须基于持续交互智能地策划内部记忆。
3. AMN – 深度类人认知的构建者
自适应记忆网络 (Adaptive Memory Network, AMN) 是 MNNN 家族的旗舰模型,代表了最先进、最具生物启发性的成员。它整合了三种前沿机制,以实现深度记忆和上下文理解:
- 液体常数 (LC) 神经元 – 自适应时间常数,使“思考速度”能够根据信息的重要性或紧迫性动态调整。
- 线性递归单元 (LRU) – 提供高效、稳定的序列数据处理,消除传统 RNN 中常见的梯度消失或爆炸问题。
- 关联记忆流形 (AMM) – 为整个网络提供的高维全局“白板”。它不仅存储序列数据,还将概念和经验之间的关系映射并组织成持久、演化的心理景观。这使得 AMN 能够把握长对话的“要旨”或“氛围”,而不仅仅是原始片段。
设计目标: 复杂的长篇对话、精细的模式识别以及任何需要把握整体上下文的场景。
成为 MNNN 家族成员:记忆原生条件
虽然任何人都可以在这些理念的基础上进行构建,但任何声称加入 MEMORY‑NATIVE‑NEURAL‑NETWORK (MNNN) 家族的新架构必须遵守一个关键条件:其记忆必须根本性地嵌入到计算核心中,而不是作为外部模块添加。
必要条件
- 内在状态: 模型必须保持一个持久且不断演化的内部状态,直接编码过去的信息。
- 自包含动态: 记忆处理应来源于模型自身的方程或神经动态,而非辅助缓存、外部数据库或事后注意力查找。
- 可扩展集成: 记忆机制应随模型的深度/宽度扩展,而不导致外部存储需求线性增长。
只有满足这些约束的架构才能被合法地视为 MNNN 家族的成员。
架构集成
记忆机制(例如 $\alpha$, $\beta$, 可学习门,或流形投影)必须与神经元的数学定义不可分割——而不是网络访问的独立数据结构。
自适应动力学
理想情况下,记忆行为应当是动态的,使网络能够根据输入流本身来调整其保持和召回。
探索代码并加入运动
MNNN 系列的基础代码——包括 AMRC、PMRC 和 AMN 的实现——已公开供大家探索和协作。仓库提供了清晰的示例以及高效执行的强大 C 后端。
仓库链接: GitHub – MNNN (如有实际 URL 请替换)
仓库内容
api.py– 演示如何与这些模型交互,展示其核心功能。test_*.py– 完整的测试套件,用于验证它们独特的记忆属性。LICENSE– 在 GPL v3 下开源,鼓励广泛采用和创新。
请记住:这是我(@hejhdiss)的实验项目,但它是可运行的!原始代码由 Claude Sonnet 编写,我对其进行了必要的测试和改进。