[Paper] 二次无约束二进制优化用于二值神经网络的训练与正则化
发布: (2026年1月2日 GMT+8 03:21)
7 min read
原文: arXiv
Source: arXiv - 2601.00449v1
Overview
一项新研究展示了如何将二进制神经网络(BNNs)的训练表述为**二次无约束二进制优化(QUBO)**问题,从而打开了利用高速伊辛‑机器硬件进行深度学习工作负载的大门。通过将 QUBO 形式扩展到任意网络拓扑,并引入两种全新的正则化技巧,作者在一个小型图像分类任务上展示了可观的泛化提升——这表明在边缘设备上实现能源高效 AI 的实用路径。
关键贡献
- 通用 QUBO 公式 用于训练 BNN,适用于任意层结构(不仅限于浅层或前馈网络)。
- 最大化间隔正则化器 将神经元的预激活值推离零点,鼓励更明确的二进制决策。
- 迭代 dropout 风格正则化器 训练缩减子网络并动态调整权重的线性惩罚。
- 基于 GPU 的 Ising 机实现 高效求解得到的 QUBO 问题,展示了在普通硬件上的可行性。
- 实证验证 在二进制图像分类基准上进行,显示在应用新正则化器时测试集准确率提升。
方法论
- Binary Network Encoding – 在二值神经网络(BNN)中,每个权重和偏置都用二进制变量(±1)表示。损失函数(例如交叉熵)以及所有正则化项都被写成这些二进制变量的二次函数,从而得到 QUBO 矩阵 Q。
- 扩展到任意拓扑结构 – 通过系统地为每一层的线性变换和激活构造 Q‑块,作者组装出一个全局 Q,能够捕获整个网络的行为,无论网络深度或是否存在跳连。
- 正则化策略
- Margin regularisation 添加一个惩罚项,惩罚绝对值较小的前激活,从而有效扩大每个神经元的决策间隔。
- Iterative dropout regularisation 通过反复求解较小的 QUBO(随机丢弃一部分神经元),并利用得到的解来更新线性惩罚系数,模拟 dropout 的随机正则化效果。
- 求解 QUBO – 将 Q 矩阵输入 GPU 加速的模拟退火 Ising 求解器,搜索低能量的二进制配置(即一组网络参数)。该过程在多个训练 epoch 中重复进行,并使用当前解得到的最新梯度类信息来更新 Q 矩阵。
结果与发现
- 在一个 binary MNIST‑style 分类任务(10 类,28×28 二值化图像)中,基线 QUBO 训练的 BNN 达到了 ≈84 % 的测试准确率。
- 加入 margin regulariser 将准确率提升至 ≈87 %,表明对未见输入的鲁棒性更好。
- iterative dropout regulariser 带来了相当的提升(≈86 %),同时减少了在小训练集上的过拟合。
- 同时使用两种正则化器获得了最高性能(≈88 %),确认它们具有协同作用。
- GPU‑基的 Ising 求解器在每个 epoch 几秒 内收敛,展示了基于 QUBO 的训练在小规模问题上可以与传统的基于梯度的方法竞争。
实际意义
- Edge AI 部署 – 通过在二进制空间直接训练 BNN,得到的模型已经量化,可在微控制器、FPGA 或新兴的 Ising‑芯片加速器上实现超低功耗推理。
- 硬件感知优化 – 开发者现在可以将组合优化步骤卸载到专用的 Ising 机器(例如 D‑Wave、富士通的 Digital Annealer)或高吞吐量 GPU 上,相比浮点反向传播,训练能耗可能降低数个数量级。
- 通过间隔提升鲁棒性 – 间隔正则化器使网络对传感器数据噪声的敏感度降低,这在机器人、物联网和自主系统中尤为重要。
- 无需随机梯度的 Dropout‑式正则化 – 该迭代方案提供了一种确定性的方式来实现 Dropout 的正则化效果,便于在安全关键的流水线中进行分析和调试。
- 工具链集成 – QUBO 构建是算法化的,可封装进现有深度学习框架(PyTorch、TensorFlow)作为自定义优化器,实现混合工作流,开发者可根据需要在梯度下降和 QUBO 求解之间切换。
限制与未来工作
- 可扩展性 – 实验仅限于非常小的网络;QUBO 的规模随二进制参数数量呈二次增长,因此对于现代深度网络,朴素的公式化很快就变得难以处理。
- 求解器依赖 – 性能取决于底层 Ising 求解器的质量和速度;硬件限制或求解器启发式方法可能影响可重复性。
- 训练动态 – 当前方法在每个 epoch 只更新一次 Q 矩阵,缺乏标准反向传播的细粒度反馈回路,这可能阻碍在更复杂任务上的收敛。
- 作者提出的未来方向 包括:层次化 QUBO 分解以处理更大规模的架构、为 BNN 训练共同设计定制 ASIC Ising 加速器,以及将正则化思路扩展到多位量化网络。
作者
- Jonas Christoffer Villumsen
- Yusuke Sugita
论文信息
- arXiv ID: 2601.00449v1
- 分类: math.OC, cs.NE
- 出版时间: 2026年1月1日
- PDF: 下载 PDF