[Paper] 演化多通道置信度感知激活函数用于缺失数据的通道传播
Source: arXiv - 2602.13864v1
概述
缺失数据是构建机器学习流水线时的长期难题,神经网络也不例外。在一篇新论文中,Shahabi Sani 等人提出了 三通道进化激活函数 (3C‑EA)——这是一类激活函数,显式地不仅接受原始特征值,还接受 缺失指示器 和 插补置信度分数。结合一种称为 ChannelProp 的确定性传播方案,该方法在整个网络中保持这些“可靠性信号”,在各种不完整数据集上实现了显著更好的分类结果。
关键贡献
- 多通道激活函数:通过遗传编程进化,计算
f(x, m, c),其中x为特征,m标记缺失,c量化对任何插补值的置信度。 - ChannelProp 算法:一种轻量级、基于线性层的方法,向前传播缺失 (
m) 和置信度 (c),使用权重幅度决定信号携带量。 - 端到端评估:在自然不完整基准和合成损坏版本(MCAR、MAR、MNAR)上进行系统实验,覆盖多个缺失率场景。
- 开源实现:作者发布了基于 GP 的激活搜索和 ChannelProp 代码,便于实践者将其插入现有的 PyTorch/TensorFlow 模型。
方法论
-
数据准备 – 为每个输入向量添加两个额外通道:
m ∈ {0,1}(1 = 缺失,0 = 已观测)c ∈ [0,1](值越高表示插补值越可信)。
标准插补方法(例如均值、k‑NN)填补缺失条目,生成网络实际看到的x值。
-
遗传编程 (GP) 搜索 –
- 搜索空间由算术和基础函数(加、乘、sin、max 等)组成,这些函数可以组合三个输入。
- 个体是树形结构的表达式;适应度通过下游分类任务的验证准确率来衡量。
- 进化在固定代数内进行,产生一组在紧凑性和高性能之间的 Pareto 前沿激活函数。
-
ChannelProp 传播 –
- 在每个线性层之后,缺失性和置信度通道以确定性方式更新:
[ m’ = \sigma\big(|W| \cdot m\big), \qquad c’ = \sigma\big(|W| \cdot c\big) ]
其中 |W| 为权重的绝对值大小,σ 为软阈值函数,用于保持信号的有界性。
- 此步骤确保下游层接收到的是 渐进 的特征可靠性信息,而不是在第一层隐藏层后就会丢失的二元 “存在/缺失” 标记。
- 训练 – 网络(例如 3 层 MLP 或小型 CNN)使用标准反向传播进行训练;只有激活函数在 GP 搜索后被固定。
结果与发现
| 数据集(缺失情况) | 基线(ReLU) | 3C‑EA + ChannelProp | 相对提升 |
|---|---|---|---|
| UCI Adult (MCAR 30%) | 81.2 % acc | 84.5 % | +3.3 % |
| MNIST (MNAR 40%) | 92.1 % acc | 94.8 % | +2.7 % |
| Credit Card (natural) | 88.6 % acc | 90.9 % | +2.3 % |
- 一致的改进 在 MCAR、MAR 和 MNAR 场景中,尤其是缺失率超过 30 % 时。
- 消融实验 表明,仅使用缺失标记 (
f(x,m)) 能带来适度提升,而加入置信度通道 (c) 则贡献了大部分性能提升。 - 计算开销 可忽略不计:演化的激活树通常包含 ≤ 5 个节点,ChannelProp 在每层增加一次线性计算(≈ 1 % 额外 FLOPs)。
实际意义
- 即插即用的可靠性: 开发者可以在任何现有的前馈或卷积模型上添加三个额外通道,并直接替换为 3C‑EA 激活函数,而无需重新设计架构。
- 生产流水线的鲁棒性: 那些经常摄取噪声、部分缺失数据的系统(例如 IoT 传感器流、医疗记录、推荐系统),能够将量化的置信度信号一直传递到输出层,从而降低过度自信的错误预测风险。
- 降低对复杂插补的需求: 因为置信度通道捕获了插补值的可信程度,即使是简单的插补策略(均值、中位数)也变得可行,节省计算和工程成本。
- 模型可解释性: 基于树的激活函数是人类可读的,工程师可以检查缺失情况和置信度如何影响神经元激活,这是一小步朝着透明深度模型迈进。
限制与未来工作
- 架构范围: 实验聚焦于相对浅层的MLP和小型CNN;将该方法扩展到大型Transformer或图神经网络仍是一个未解之问。
- GP搜索成本: 虽然最终的激活计算成本低,但在非常大的数据集上进化搜索可能耗时;未来工作可以探索基于强化学习或梯度感知的搜索方法。
- 置信度估计: 当前流水线依赖外部的插补置信度分数;将学习到的置信度估计器直接集成到网络中可能进一步收紧反馈回路。
- 理论保证: 论文提供了实证证据,但缺乏对传播置信度界限误差传播的形式化分析——这是更深入统计研究的方向。
结论: 通过将缺失性和置信度视为激活函数中的一等公民,3C‑EA + ChannelProp 为在数据不完美时实现更可靠的深度学习模型提供了一条务实、低开销的路径——这种情形开发者遇到的频率远高于教材中的“完整”数据集。
作者
- Naeem Shahabi Sani
- Ferial Najiantabriz
- Shayan Shafaei
- Dean F. Hougen
论文信息
- arXiv ID: 2602.13864v1
- 分类: cs.NE, cs.LG
- 出版日期: 2026年2月14日
- PDF: Download PDF