[Paper] 使用 $β$-divergences 的可证明鲁棒回归神经网络学习

发布: (2026年2月10日 GMT+8 01:32)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.08933v1

概述

本文介绍了 rRNet,一种针对回归型神经网络的新训练框架,已被证明对异常值和受污染的数据具有鲁棒性。通过利用 β‑散度(亦称密度幂散度),作者用一族损失函数取代了常用的均方误差损失,这些损失函数能够自动降低可疑样本的权重,同时仍保留熟悉的最大似然情形作为特例。

关键贡献

  • β‑散度损失用于回归神经网络 – 一个统一的目标函数,适用于平滑或非平滑激活函数以及广泛的误差分布。
  • 交替优化算法,在温和且可检查的条件下可证明收敛到驻点。
  • 理论鲁棒性保证:参数和预测的影响函数有界,并且对任意 β ∈ (0, 1] 的渐近破坏点为 50 %
  • 当 β → 0 时恢复经典最大似然估计,因此现有流水线只需调整一个超参数即可切换到 rRNet。
  • 广泛的实证验证,在合成基准和真实回归任务上展示了相较于标准 MSE 训练和多种临时鲁棒技巧(如 Huber 损失、数据裁剪)的优越性能。

方法论

  1. Loss formulation – 与最小化

    [ \frac{1}{n}\sum_{i}(y_i-\hat y_i)^2, ]

    不同,rRNet 最小化经验数据分布与模型隐含分布之间的 β‑散度:

    [ L_\beta(\theta)=\frac{1}{\beta(\beta+1)}\Big[ \sum_i f_\theta(y_i)^{\beta+1} - (\beta+1)\sum_i f_\theta(y_i)^\beta \Big], ]

    其中 (f_\theta) 是由神经网络输出隐含的条件密度,β > 0 控制鲁棒性。

  2. Alternating optimization – 该损失函数在网络权重和 β‑散度引入的辅助尺度变量上并非联合凸。作者将问题拆分为两个块:

    • Weight update(对神经网络参数进行基于梯度的更新)。
    • Auxiliary variable update(从 β‑散度推导出的闭式解)。

    交替执行这些步骤会使目标函数单调下降,并收敛到一个驻点。

  3. Robustness analysis – 通过经典的影响函数微积分,论文表明在适当选择 β 的情况下,估计量对极小污染的导数是有界的。这等价于 breakdown point 为 50 %:估计量能够容忍多达一半的数据被任意破坏而仍保持有效。

  4. Implementation details – 作者提供了一个轻量级的 PyTorch 兼容模块,可包装任意现有的回归神经网络架构。唯一新增的超参数是 β(通常取值范围为 0.1–0.5)。

结果与发现

实验基线 (MSE)Huber 损失rRNet (β=0.3)相对 RMSE 降低
合成 1‑维 回归,含 30 % 异常值1.421.080.7150 %
UCI 波士顿房价(10 % 标签噪声)3.122.872.3126 %
时间序列需求预测(真实场景,传感器故障)5.6 % MAPE5.1 %4.2 %25 %
  • 收敛性:交替方案在 30–50 个 epoch 内达到稳态点,典型网络规模下与标准 SGD 在 MSE 上的表现相当。
  • 影响函数:实测灵敏度与理论有界曲线吻合,验证了鲁棒性声明。
  • β 的消融实验:较小的 β(≈0.1)表现得像 MLE(在污染下方差较大);较大的 β(≈0.7)会对合法数据赋予过低权重,略微增加偏差。0.3–0.5 左右的最佳取值在各任务中均表现良好。

实际意义

  • 易出现异常值的流水线 – 数据驱动的服务(例如传感器分析、金融预测、A/B 测试结果建模)可以将损失函数替换为 rRNet,从而在无需手工编写数据清洗规则的情况下自动防护被损坏的条目。
  • 最小的代码改动 – 由于 rRNet 是对损失项的直接替换,现有的 PyTorch / TensorFlow 模型只需添加一次导入并设置 β 超参数即可。
  • 安全关键的机器学习 – 在单个错误观测可能导致灾难性决策的领域(自动驾驶感知、医疗剂量预测),50 % 崩溃保证提供了大多数当前神经网络训练方案所缺乏的正式安全裕度。
  • 模型无关的鲁棒性 – 该框架兼容 ReLU、leaky‑ReLU、tanh,甚至分段线性激活,并且不要求平滑误差密度假设,适用于现代深度回归架构(例如残差网络、基于 Transformer 的回归器)。

限制与未来工作

  • 局部最优 – 收敛证明保证达到一个驻点,而非全局最优;和任何非凸神经网络训练一样,最终解可能取决于初始化。
  • β 的选择 – 虽然作者基于假设的误差密度提供了理论指导,但在实际中选择 β 仍需要进行适度的验证搜索。
  • 对大规模数据集的可扩展性 – 交替方案会引入每批额外的更新步骤;对于中等规模数据来说开销适中,但在数十亿样本的情况下可能变得显著。
  • 向分类的扩展 – 现有理论仅限于连续输出的回归任务;将 β‑散度鲁棒性适配到分类(例如 softmax 输出)仍是一个待探索的方向。

总体而言,rRNet 提供了一个理论上有依据、易于集成的工具,使回归神经网络能够抵御噪声、对抗性或单纯混乱的数据——这一直是构建真实世界机器学习系统的开发者常见的痛点。

作者

  • Abhik Ghosh
  • Suryasis Jana

论文信息

  • arXiv ID: 2602.08933v1
  • 分类: stat.ML, cs.LG, cs.NE, stat.ME
  • 发布日期: 2026年2月9日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »