[Paper] 二分类不平衡的理论与实证分类体系

发布: 1个月前 (2026年1月8日 GMT+8 02:02)

8 分钟阅读

原文: arXiv

Source: arXiv - 2601.04149v1

概述

本文提出了一种统一的、理论驱动的方法，来理解在类别不平衡时二元分类器为何会表现不佳。通过将问题归结为三个直观的量——类别频率的偏斜程度、特征数量相对于样本的比例以及数据的自然可分性——作者推导出具体的“区间”，能够精确预测性能指标将如何下降。

Triplet taxonomy – 引入一个三维框架 ((\eta, \kappa, \Delta))，捕捉类别频率不平衡 ((\eta))、样本‑维度比例 ((\kappa))，以及内在可分性 ((\Delta))。
Closed‑form Bayes error analysis – 从高斯贝叶斯分类器出发，推导最优错误的解析表达式，并展示决策边界如何随不平衡而移动。
Four deterioration regimes – 基于关系 (\log(\eta) \gtrless \Delta\sqrt{\kappa}) 定义 Normal、Mild、Extreme 和 Catastrophic 四种退化 regime。
Empirical validation on high‑dimensional genomics data – 在保持 (\kappa) 和 (\Delta) 固定的情况下扫描 (\eta)；观察到召回率、精确率、F1 和 PR‑AUC 在线性、树模型和核模型上均遵循理论预测。
Model‑agnostic insight – 表明该分类法在分类器是参数化的（如逻辑回归）还是非参数的（如随机森林）时均成立。

理论基础 – 假设数据由两个具有相同协方差的多元高斯分布生成。在此设定下，贝叶斯最优分类器具有已知的线性判别式。通过在类别先验中加入不平衡系数 (\eta = \frac{n_{\text{minor}}}{n_{\text{major}}})，作者得到一个平移的决策超平面以及一个闭式的贝叶斯错误率，该错误率依赖于 (\eta)、维度‑样本比 (\kappa = \frac{p}{n}) 和类均值之间的马氏距离 (\Delta)。
区间推导 – 对错误率表达式进行分析得到一个临界阈值 (\log(\eta) = \Delta\sqrt{\kappa})。当 (\eta) 低于该阈值时，分类器表现“正常”；跨过阈值后，性能会逐步急剧下降，最终进入“灾难性”区间，此时少数类基本上不可见。
实验设置 – 使用公开的高维基因组数据集（约 10 k 特征，数百样本），先进行平衡处理，然后通过对少数类进行子抽样人为制造不平衡，以实现目标 (\eta) 值，同时保持 (\kappa) 和 (\Delta) 不变。对每个版本训练多种学习器（逻辑回归、SVM、随机森林、k‑NN）。
跟踪指标 – 报告少数类的召回率（灵敏度）、精确率、F1‑分数以及精确率‑召回率曲线下面积（PR‑AUC），并将这些指标随 (\eta) 的变化情况呈现。

方案	条件（以 (\log\eta) 与 (\Delta\sqrt{\kappa}) 的关系）	观察到的行为
正常	(\log\eta < \Delta\sqrt{\kappa} - 1)	少数类召回率保持在高位 (> 0.9)；精确率和 F1 稳定。
轻度	(\Delta\sqrt{\kappa} - 1 \le \log\eta < \Delta\sqrt{\kappa})	召回率开始温和下降；由于误报减少，精确率略有上升。
极端	(\Delta\sqrt{\kappa} \le \log\eta < \Delta\sqrt{\kappa} + 1)	召回率急剧崩溃（常 < 0.2）；精确率变得不稳定；F1 和 PR‑AUC 下降 > 30 %。
灾难性	(\log\eta \ge \Delta\sqrt{\kappa} + 1)	少数类基本被忽视；召回率≈ 0，精确率≈ 1（仅剩真负例）。

在所有模型中，少数类召回曲线几乎完美地符合理论预测

[ \text{Recall} \approx \Phi\bigl(\Delta\sqrt{\kappa} - \log\eta\bigr) ]

（其中 (\Phi) 为高斯累计分布函数）。由于分母（预测为正例的数量）收缩速度快于误报，精确率呈现不对称上升。复合指标（F1、PR‑AUC）反映了这些转折点，进一步验证了该分类法是 模型无关 的。

Metric‑driven monitoring – 开发者可以计算 (\eta)、(\kappa) 以及 (\Delta) 的估计值（例如通过快速线性判别分析），以预判其流水线正进入的退化 regime，从而在性能崩溃前进行主动缓解。
Guidance for data collection – 该框架量化了获取更多特征（提升 (\kappa)）与保持可分性的权衡。在高维领域（基因组学、文本嵌入），仅仅增加特征而不相应扩大样本量，即使不平衡程度适中，也可能将你推入 Extreme regime。
Algorithm selection – 由于 regime 效应与模型无关，这一分类暗示“高级”不平衡感知算法（代价敏感损失、SMOTE）仅在 Normal 或 Mild regime 中有效；一旦跨入 Extreme regime，就需要 data‑level 干预（收集更多少数类样本、降低维度）。
Automated alerts – 生产环境的机器学习监控工具可以将 (\log(\eta) > \Delta\sqrt{\kappa}) 检查嵌入为健康检查规则，触发警报或自动再平衡流水线。
Explainability for stakeholders – 几何解释（边界位移）为产品经理提供了一个简洁的可视化故事：“你的模型仍然是最优的，只是决策线因为少数类样本不足而移动了”。

Gaussian assumption – 闭式推导依赖于等协方差的高斯类别分布；实际数据常常违背此假设，可能导致区间边界发生偏移。
Estimating (\Delta) in practice – 计算真实的马氏距离需要已知类别均值和协方差，而在小样本情况下这些信息可能噪声较大。近似策略仍需验证。
Only binary classification – 将该分类法扩展到多类别或多标签情形并非易事，留待后续研究。
Dynamic data streams – 当前分析是静态的；若要处理随时间变化的类别比例（概念漂移），需要框架的时变版本。