[Paper] 统一动力系统和图论以机制性地理解神经网络中的计算

发布: 6天前 (2026年5月5日 GMT+8 18:18)

7 分钟阅读

原文: arXiv

请提供您希望翻译的正文内容（除保留在顶部的 Source: 链接外），我会按照要求将其翻译成简体中文并保持原有的格式。

概览

本文弥合了两个传统上相互独立的领域——动力系统理论和图分析——以揭示循环神经网络（RNN）如何通过其连线进行计算。通过将 RNN 视为有向图，并检查输入与输出之间的多跳路径（连接链），作者展示了信息的时间流动可以被恢复，甚至可以通过针对整条路径而非单个权重的正则化来引导。

关键贡献

基于图的RNN动态视角： 将循环权重矩阵建模为图，并研究支撑计算的多跳（多步）通信路径。
跳长分解： 证明将路径拆分为“跳”能够揭示网络在层次化、模块化任务上的时间路由策略。
对标准L1正则化的批评： 表明L1惩罚单条边的权重，却忽视了实际实现功能的多跳路径结构。
Resolvent‑RNN（R‑RNN）架构： 引入一种正则化器，直接约束 resolvent（所有多跳贡献的总和），鼓励在功能路径上的稀疏性。
实证收益： 与传统L1相比，R‑RNN在更高的准确率、稀疏性与任务结构的更好匹配以及在强正则化下更强的鲁棒性方面表现出优势。

方法论

任务套件： 作者在一组层次模块化的序列预测问题上训练普通 RNN，这些问题的最优解自然会分解为时间上分离的子任务。
图构建： 训练完成后，将循环权重矩阵 (W) 解释为一个加权有向图 (G(V,E))，其中神经元为节点，突触权重为边。
多跳分析：
- k‑跳邻接矩阵 (W^{k}) 捕获所有恰好经过 (k) 步的路径。
- 对跳数求和得到解析子 (R = (I - \alpha W)^{-1} = I + \alpha W + \alpha^{2}W^{2} + \dots)，其中 (\alpha) 为缩放因子。
- 通过检查每个 (W^{k})（或 (R) 的级数项）中条目的幅度，作者识别出哪些跳数在输入‑输出信号流中占主导。
解析子正则化： 在训练期间，额外的损失项对解析子的 Frobenius 范数（或其截断版本）进行惩罚，而不是对原始权重进行惩罚。这促使优化器剪枝整个不必要的多跳路径。
基线： 与标准 L1 正则化 RNN 和未正则化的对照组进行比较，使用相同的网络结构和超参数。

结果与发现

Metric	L1‑regularised RNN	Resolvent‑RNN (R‑RNN)
Test accuracy (sparse task)	84 %	91 %
Average number of active hops per input‑output pair	4.3	2.1
Robustness to weight‑pruning (up to 70 % removal)	62 % retained performance	78 % retained performance
Sparsity‑function alignment (correlation)	0.41	0.68

时间稀疏性: R‑RNN 自动将计算集中在任务所需的最少时间步上，匹配已知的层次结构。
鲁棒性: 由于正则化器会移除整条路径，剩余的连接形成更连贯的计算框架，使网络在进一步剪枝或量化权重时不易脆弱。
可解释性: 可视化主导跳跃长度可以得到清晰、易于人类阅读的信息传播图，而标准的权重大小图很少提供这种信息。

实际意义

更高效的 RNN 部署： 通过鼓励时间稀疏性，R‑RNN 可以在更少的活跃时间步下实现相同（或更好）的性能，从而降低在运行递归推理的边缘设备上的延迟。
更佳的剪枝与量化流水线： 由于正则化器已经消除了不必要的路径，下游模型压缩工具可以在更干净的基底上工作，在不牺牲准确率的前提下实现更高的压缩比。
序列模型的可解释 AI： 开发者可以提取跳步长度热图，以诊断模型为何做出特定预测，帮助在受监管领域（如金融、医疗）进行调试和合规。
神经形态硬件的设计： 多跳稀疏性与事件驱动架构高度契合，后者的通信成本按跳数计费；R‑RNN 可以直接映射到此类硬件上，降低能耗。

限制与未来工作

可扩展性： 计算完整的 resolvent（或 (W) 的高阶幂）在非常大的隐藏层上代价高昂；作者采用低秩近似，这可能会遗漏细微的路径。
任务多样性： 实验聚焦于合成的层次任务；尚不清楚 resolvent 正则化在真实世界的语言或控制问题中（其模块结构不那么明显）表现如何。
超出 RNN 的扩展： 论文暗示将多跳分析应用于 Transformer 或图神经网络，但具体公式仍留待未来研究。

底线： 通过将正则化视角从单个权重转向功能路径，这项工作提供了一套新颖的图论工具箱，用于构建更快、更稳健且更易解释的循环模型——这一进步可能在仍依赖序列神经计算的任何领域产生广泛影响。

作者

Jatin Sharma
Dan F. M Goodman
Danyal Akarca

论文信息

arXiv ID: 2605.03598v2
分类: cs.NE, cs.AI
出版日期: 2026年5月5日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 归一化轨迹模型

基于扩散的模型将采样分解为许多小的高斯去噪步骤——这一假设在生成被压缩到少数粗…

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

解码 imagined speech 从 non‑invasive brain recordings 是具有挑战性的，因为 imagined 数据集稀缺且难以在受试者之间进行时间对齐。

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

Conformal prediction (CP) 提供了一种无分布假设的、不依赖于特定分布的、不确定性量化方法，并具备有限样本保证。然而，将 CP 应用于图神经网络...

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择

一种用于扩展推理时推理的标准技术是 Self-Consistency，即从 LLM 中采样多个候选答案，并选择最常见的……