[Paper] 关于预测编码网络的无限宽度和深度极限

发布: (2026年2月8日 GMT+8 04:47)
6 分钟阅读
原文: arXiv

Source: arXiv - 2602.07697v1

概述

预测编码网络(PCNs)提供了一种受生物启发的替代反向传播(BP)的方法,其先将神经活动稳定到能量最小点,然后再更新权重。本文研究了 PCNs 是否能够扩展到现代深度学习模型所拥有的同等大规模宽度和深度,以及它们的学习动态是否最终与 BP 相匹配。

Key Contributions

  • Theoretical equivalence: 理论等价性: 证明了对于线性残差结构,使 PCN 可训练的 宽度和深度稳定 参数化集合与标准 BP 的集合 完全相同
  • Infinite‑width/depth analysis: 无限宽度/深度分析: 表明当网络宽度远大于深度时,活动平衡时的 PC 能量收敛到常规 BP 损失,这意味着在该情形下 PCN 计算的梯度与 BP 相同。
  • Unified view of prior work: 对已有工作的统一视角: 将早期的经验技巧(受 BP 启发的重新参数化)与近期的理论成果统一到同一框架下。
  • Empirical validation on nonlinear nets: 对非线性网络的实证验证: 证明只要活动动力学达到平衡,理论预测在深层非线性 PCN 中仍然成立。

方法论

  1. 模型选择: 作者从 线性残差 网络开始,因为它们在分析上可处理且能够捕捉深度架构的本质。
  2. 参数化分析: 他们考察了使用宽度((1/\sqrt{n}))和深度((1/L))对权重进行缩放时,对活动动力学(能量最小化)和权重更新动力学的稳定性产生的影响。
  3. 无限极限微积分: 通过让隐藏维度 (n \to \infty) 而保持深度 (L) 有限(或远小于 (n)),他们推导出 PC 能量的极限形式,并展示其与 BP 损失相匹配。
  4. 向非线性网络的扩展: 使用相同的缩放规则,在标准视觉基准上训练深度卷积 PCN,监测活动动力学是否收敛(即“平衡”条件)。
  5. 对比实验: 比较 PCN 与 BP 训练的对应模型的梯度范数、训练曲线和最终测试精度。

结果与发现

  • 稳定区域匹配BP: 使PCN训练保持稳定的可接受缩放规则正是已知的BP规则(例如He型初始化)。
  • 能量 → 损失收敛: 在宽深 regime 中,活动平衡后的PC能量在数学上与BP损失无法区分,意味着梯度信号相同。
  • 经验等价: 在CIFAR‑10/100和ImageNet子集实验中,使用推导的缩放训练的深度PCN只要迭代活动更新运行至收敛,就能达到与BP相当的准确率和收敛速度。
  • 平衡重要: 当活动动力学提前停止(即未达到平衡)时,梯度不匹配会增大,导致训练变慢或不稳定。

实际意义

  • 可扩展的 PCN: 开发者现在可以构建与现代 Transformer 或 ResNet 同样宽度和深度的 PCN,使用熟悉的初始化方案。
  • 硬件友好的训练: 由于 PCN 将活动推断(固定点迭代)与权重更新分离,它们为异步或神经形态硬件打开了大门——推断可以持续运行,而学习则以更慢的速度进行。
  • 基于能量的正则化: 明确的能量函数提供了一种自然方式来加入额外约束(例如稀疏性、鲁棒性),而无需重新设计损失函数。
  • 混合训练流水线: 可以先使用 BP 进行快速训练,然后切换到仅 PC 推断模式,以实现持续学习或设备端适应,利用已证明的梯度等价性。

限制与未来工作

  • 平衡要求: 理论保证依赖于达到真实的活动平衡,这在非常深或循环结构中可能代价高昂。
  • 缺乏非线性证明: 严格等价性仅在线性残差网络中得到证明;将该证明扩展到任意非线性仍是一个未解决的挑战。
  • 内存和计算开销: 与反向传播一次前向传播相比,迭代的活动更新会增加运行时间和内存开销。
  • 未来方向: 作者建议探索近似平衡方案(例如截断迭代、学习型求解器),将分析扩展到 Transformer 风格的注意力层,并研究能量形式化如何用于持续学习或元学习场景。

作者

  • Francesco Innocenti
  • El Mehdi Achour
  • Rafal Bogacz

论文信息

  • arXiv ID: 2602.07697v1
  • 分类: cs.LG, cs.AI, cs.NE
  • 发布日期: 2026年2月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »