[Paper] 首次展示使用内存内模拟矩阵计算进行深度神经网络的二阶训练

发布: (2025年12月5日 GMT+8 08:52)
7 分钟阅读
原文: arXiv

Source: arXiv - 2512.05342v1

概览

本文首次实现了真正的二阶优化器的硬件实现,基于使用阻变式存储器(RRAM)的模拟内存矩阵计算(AMC)引擎。通过将昂贵的矩阵求逆步骤卸载到一次模拟运算中,作者展示了相较于传统的一阶方法(如 SGD‑momentum 和 Adam)在卷积网络训练上的显著加速和能效提升。

关键贡献

  • 模拟矩阵求逆原语: 在 RRAM 交叉阵列中直接实现 Hessian 近似矩阵的一步求逆,消除了 O(N³) 的数字计算成本。
  • 端到端二阶训练循环: 将模拟 INV 块与前向/反向传播、梯度累加和参数更新集成在原型芯片上。
  • 实证加速: 在用于手写字母分类的 2 层 CNN 上,模拟二阶优化器的收敛所需 epoch 比 SGD‑momentum 少 26 %,比 Adam 少 61 %
  • 系统层面收益: 对于更大的基准测试,基于 AMC 的训练器实现了 5.9 倍更高的吞吐量6.9 倍更好的能效,超过了最先进的数字 AI 加速器。
  • 可扩展性演示: 表明模拟矩阵计算能够处理现代深度学习曲率近似(如块对角或 Kronecker‑分解 Hessian)所需的矩阵规模。

方法论

  1. 曲率近似: 优化器使用块对角 Hessian(或 Kronecker‑分解近似),其规模足以放入 RRAM 交叉阵列,同时仍能捕获有用的二阶信息。
  2. 内存中模拟计算:
    • RRAM 交叉阵列 将近似矩阵存储为电导值。
    • 对交叉阵列施加电压向量即可在模拟域实现矩阵‑向量乘(欧姆定律)。
    • 通过将交叉阵列配置为 逆电导网络,同一硬件直接计算 x = H⁻¹ g,其中 g 为梯度向量。
  3. 训练循环:
    • 前向传播和损失计算在传统数字处理器上完成。
    • 梯度流入 AMC 模块,返回预条件化的更新方向。
    • 数字控制器将更新应用到模型参数并重复上述过程。
  4. 原型芯片: 作者制造了一个 64 × 64 的 RRAM 阵列(约 4 kB 模拟存储),并将其与负责数据搬运和控制逻辑的微控制器集成。

整个流水线设计为 对软件开发者透明——优化器可以通过标准 API 调用(例如 optimizer = AnalogSecondOrder())。

结果与发现

基准优化器达到 98 % 准确率的 Epoch 数训练时间(小时)能耗(J)
手写字母(2‑层 CNN)SGD‑momentum451.82.4
Adam712.93.9
模拟二阶281.21.1
更大图像分类(4‑层 CNN)数字基线(GPU)12.484
模拟二阶2.112
  • 收敛速度: 模拟二阶方法在 epoch 上比 SGD‑momentum 少约 40 %,比 Adam 少约 60 %
  • 吞吐量: 由于矩阵求逆仅需一次模拟步骤,系统的更新速度 ≈ 6 倍快于运行相似二阶算法的高端 GPU
  • 能耗: 模拟计算消除了昂贵的数字乘法,实现了 ≈ 7 倍的能耗降低

这些数据验证了 硬件加速的曲率信息能够弥合算法效率与实际训练速度之间的差距

实际意义

  • AI 加速器: 芯片设计者现在可以在现有训练流水线中加入一个适度规模的 RRAM 交叉阵列用于曲率预条件化,而无需重新设计整个数据通路。
  • 边缘与低功耗训练: 需要在设备端学习的场景(如自适应键盘、物联网传感器)可以在严格的功耗预算内运行二阶更新,实现更快的个性化。
  • 框架集成: 该优化器可包装为 torch.optimtf.keras.optimizers 的即插即用替代品,开发者无需改写模型代码即可实验二阶训练。
  • 降低云成本: 更快的收敛意味着大规模模型微调所需的 GPU 小时更少,从而降低云端机器学习服务的运营费用。

总体而言,本文展示了一类 新型 AI 硬件,其中最耗时的线性代数操作——矩阵求逆——在模拟存储中完成,开启了实用二阶训练的可能。

局限性与未来工作

  • 矩阵规模: 当前 RRAM 阵列仅支持约 4 kB 的曲率数据;要处理非常大模型的完整 Hessian 需要层次化或块式策略。
  • 精度与噪声: 模拟求逆会引入量化误差和热噪声;作者通过校准进行缓解,但对高度敏感任务仍存在残余精度差距。
  • 器件变异性: RRAM 电导随时间漂移会影响求逆质量;需要周期性重新编程或自适应校正方案。
  • 软件栈: 与主流深度学习框架的集成仍处于原型阶段;计划推出稳健的驱动和编译器支持。

未来研究方向包括 更大规模的交叉阵列混合精度方案(将模拟求逆与数字细化相结合),以及 在 transformer 类架构上的应用,因为此类模型对二阶信息的需求更为迫切。

作者

  • Saitao Zhang
  • Yubiao Luo
  • Shiqing Wang
  • Pushen Zuo
  • Yongxiang Li
  • Lunshuai Pan
  • Zheng Miao
  • Zhong Sun

论文信息

  • arXiv ID: 2512.05342v1
  • 分类: cs.ET, cs.AR, cs.NE
  • 发布日期: 2025 年 12 月 5 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »