[Paper] 使用 $β$-divergences 的可证明鲁棒回归神经网络学习

发布: 3天前 (2026年2月10日 GMT+8 01:32)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.08933v1

概述

本文介绍了 rRNet，一种针对回归型神经网络的新训练框架，已被证明对异常值和受污染的数据具有鲁棒性。通过利用 β‑散度（亦称密度幂散度），作者用一族损失函数取代了常用的均方误差损失，这些损失函数能够自动降低可疑样本的权重，同时仍保留熟悉的最大似然情形作为特例。

Loss formulation – 与最小化

[ \frac{1}{n}\sum_{i}(y_i-\hat y_i)^2, ]

不同，rRNet 最小化经验数据分布与模型隐含分布之间的 β‑散度：

[ L_\beta(\theta)=\frac{1}{\beta(\beta+1)}\Big[ \sum_i f_\theta(y_i)^{\beta+1} - (\beta+1)\sum_i f_\theta(y_i)^\beta \Big], ]

其中 (f_\theta) 是由神经网络输出隐含的条件密度，β > 0 控制鲁棒性。
Alternating optimization – 该损失函数在网络权重和 β‑散度引入的辅助尺度变量上并非联合凸。作者将问题拆分为两个块：
- Weight update（对神经网络参数进行基于梯度的更新）。
- Auxiliary variable update（从 β‑散度推导出的闭式解）。
交替执行这些步骤会使目标函数单调下降，并收敛到一个驻点。
Robustness analysis – 通过经典的影响函数微积分，论文表明在适当选择 β 的情况下，估计量对极小污染的导数是有界的。这等价于 breakdown point 为 50 %：估计量能够容忍多达一半的数据被任意破坏而仍保持有效。
Implementation details – 作者提供了一个轻量级的 PyTorch 兼容模块，可包装任意现有的回归神经网络架构。唯一新增的超参数是 β（通常取值范围为 0.1–0.5）。

实验	基线 (MSE)	Huber 损失	rRNet (β=0.3)	相对 RMSE 降低
合成 1‑维回归，含 30 % 异常值	1.42	1.08	0.71	50 %
UCI 波士顿房价（10 % 标签噪声）	3.12	2.87	2.31	26 %
时间序列需求预测（真实场景，传感器故障）	5.6 % MAPE	5.1 %	4.2 %	25 %

收敛性：交替方案在 30–50 个 epoch 内达到稳态点，典型网络规模下与标准 SGD 在 MSE 上的表现相当。
影响函数：实测灵敏度与理论有界曲线吻合，验证了鲁棒性声明。
β 的消融实验：较小的 β（≈0.1）表现得像 MLE（在污染下方差较大）；较大的 β（≈0.7）会对合法数据赋予过低权重，略微增加偏差。0.3–0.5 左右的最佳取值在各任务中均表现良好。

易出现异常值的流水线 – 数据驱动的服务（例如传感器分析、金融预测、A/B 测试结果建模）可以将损失函数替换为 rRNet，从而在无需手工编写数据清洗规则的情况下自动防护被损坏的条目。
最小的代码改动 – 由于 rRNet 是对损失项的直接替换，现有的 PyTorch / TensorFlow 模型只需添加一次导入并设置 β 超参数即可。
安全关键的机器学习 – 在单个错误观测可能导致灾难性决策的领域（自动驾驶感知、医疗剂量预测），50 % 崩溃保证提供了大多数当前神经网络训练方案所缺乏的正式安全裕度。
模型无关的鲁棒性 – 该框架兼容 ReLU、leaky‑ReLU、tanh，甚至分段线性激活，并且不要求平滑误差密度假设，适用于现代深度回归架构（例如残差网络、基于 Transformer 的回归器）。

总体而言，rRNet 提供了一个理论上有依据、易于集成的工具，使回归神经网络能够抵御噪声、对抗性或单纯混乱的数据——这一直是构建真实世界机器学习系统的开发者常见的痛点。