[Paper] 关于预测编码网络的无限宽度和深度极限

发布: 3天前 (2026年2月8日 GMT+8 04:47)

6 分钟阅读

原文: arXiv

Source: arXiv - 2602.07697v1

概述

预测编码网络（PCNs）提供了一种受生物启发的替代反向传播（BP）的方法，其先将神经活动稳定到能量最小点，然后再更新权重。本文研究了 PCNs 是否能够扩展到现代深度学习模型所拥有的同等大规模宽度和深度，以及它们的学习动态是否最终与 BP 相匹配。

Key Contributions

Theoretical equivalence: 理论等价性： 证明了对于线性残差结构，使 PCN 可训练的 宽度和深度稳定 参数化集合与标准 BP 的集合 完全相同。
Infinite‑width/depth analysis: 无限宽度/深度分析： 表明当网络宽度远大于深度时，活动平衡时的 PC 能量收敛到常规 BP 损失，这意味着在该情形下 PCN 计算的梯度与 BP 相同。
Unified view of prior work: 对已有工作的统一视角： 将早期的经验技巧（受 BP 启发的重新参数化）与近期的理论成果统一到同一框架下。
Empirical validation on nonlinear nets: 对非线性网络的实证验证： 证明只要活动动力学达到平衡，理论预测在深层非线性 PCN 中仍然成立。

方法论

模型选择： 作者从 线性残差 网络开始，因为它们在分析上可处理且能够捕捉深度架构的本质。
参数化分析： 他们考察了使用宽度（(1/\sqrt{n})）和深度（(1/L)）对权重进行缩放时，对活动动力学（能量最小化）和权重更新动力学的稳定性产生的影响。
无限极限微积分： 通过让隐藏维度 (n \to \infty) 而保持深度 (L) 有限（或远小于 (n)），他们推导出 PC 能量的极限形式，并展示其与 BP 损失相匹配。
向非线性网络的扩展： 使用相同的缩放规则，在标准视觉基准上训练深度卷积 PCN，监测活动动力学是否收敛（即“平衡”条件）。
对比实验： 比较 PCN 与 BP 训练的对应模型的梯度范数、训练曲线和最终测试精度。

结果与发现

稳定区域匹配BP: 使PCN训练保持稳定的可接受缩放规则正是已知的BP规则（例如He型初始化）。
能量 → 损失收敛: 在宽深 regime 中，活动平衡后的PC能量在数学上与BP损失无法区分，意味着梯度信号相同。
经验等价: 在CIFAR‑10/100和ImageNet子集实验中，使用推导的缩放训练的深度PCN只要迭代活动更新运行至收敛，就能达到与BP相当的准确率和收敛速度。
平衡重要: 当活动动力学提前停止（即未达到平衡）时，梯度不匹配会增大，导致训练变慢或不稳定。

实际意义

可扩展的 PCN： 开发者现在可以构建与现代 Transformer 或 ResNet 同样宽度和深度的 PCN，使用熟悉的初始化方案。
硬件友好的训练： 由于 PCN 将活动推断（固定点迭代）与权重更新分离，它们为异步或神经形态硬件打开了大门——推断可以持续运行，而学习则以更慢的速度进行。
基于能量的正则化： 明确的能量函数提供了一种自然方式来加入额外约束（例如稀疏性、鲁棒性），而无需重新设计损失函数。
混合训练流水线： 可以先使用 BP 进行快速训练，然后切换到仅 PC 推断模式，以实现持续学习或设备端适应，利用已证明的梯度等价性。

限制与未来工作

平衡要求： 理论保证依赖于达到真实的活动平衡，这在非常深或循环结构中可能代价高昂。
缺乏非线性证明： 严格等价性仅在线性残差网络中得到证明；将该证明扩展到任意非线性仍是一个未解决的挑战。
内存和计算开销： 与反向传播一次前向传播相比，迭代的活动更新会增加运行时间和内存开销。
未来方向： 作者建议探索近似平衡方案（例如截断迭代、学习型求解器），将分析扩展到 Transformer 风格的注意力层，并研究能量形式化如何用于持续学习或元学习场景。

作者

Francesco Innocenti
El Mehdi Achour
Rafal Bogacz

论文信息

arXiv ID: 2602.07697v1
分类: cs.LG, cs.AI, cs.NE
发布日期: 2026年2月7日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] 鲁棒性是函数，而非数值：对视觉驱动中 OOD 鲁棒性的因式化综合研究

在自动驾驶中，分布外（OOD）鲁棒性常常被简化为一个单一数字，掩盖了导致策略失效的因素。我们沿着五…

[Paper] 下一代 CAPTCHA：利用认知差距实现可扩展且多样化的 GUI-Agent 防御

GUI-enabled agents的快速演进已经使传统的CAPTCHA变得过时。虽然之前的基准测试如OpenCaptchaWorld为…

[Paper] ShapeCond：快速Shapelet引导的Dataset Condensation用于时间序列分类

时间序列数据支持许多领域（例如金融和气候科学），但其快速增长给存储和计算带来压力。Dataset condensation 可以缓解……

[Paper] 群体同调的通用系数定理与 Mayer-Vietoris 序列

我们通过神经复形的紧支撑 Moore 复形来研究 ample groupoids 的同调。设 (A) 为一个拓扑阿贝尔群。对于 (n ge 0)，设 (C_n(mathcal G;A)) ……