[Paper] 超越准确性:对 Imputation 中 Uncertainty Estimation 的实证研究

发布: (2025年11月27日 GMT+8 01:27)
7 min read
原文: arXiv

Source: arXiv - 2511.21607v1

概览

缺失值是现实数据集中的常见现象,而我们填补缺失值的方式(插补)会极大影响后续分析。近期的插补技术虽然侧重于重建精度,但也声称能够提供不确定性估计——即模型对每个插补条目的置信程度。本文首次在大规模、系统性层面比较了统计、最优传输和深度生成模型三大类方法的不确定性估计,揭示了高精度并不等同于可信的不确定性。

主要贡献

  • 全面基准:覆盖 6 种代表性插补方法(MICE、SoftImpute、OT‑Impute、GAIN、MIWAE、TabCSDI),在数十个公开表格数据集上进行评估。
  • 三种不确定性估计流水线并行比较:
    1. 多次运行的变异性,
    2. 从模型的条件分布中抽样,
    3. 显式的预测分布建模。
  • 以校准为中心的评估:使用可靠性图(reliability diagrams)和期望校准误差(Expected Calibration Error,ECE),该指标在分类任务中更常见,本文将其迁移到连续插补场景。
  • 经验洞察:重建误差与校准往往是正交的;外观最好的插补器可能在量化自身不确定性方面表现最差。
  • 实用指南:基于精度、校准和运行时的权衡提供插补器选择建议,并给出在不同缺失机制(MCAR、MAR、MNAR)下表现稳健的“配置”。

方法论

  1. 数据集与缺失机制 – 作者采集了多样化的表格基准(如 UCI、医疗、金融),并在三种典型缺失机制下人工引入缺失值:

    • MCAR(完全随机缺失)
    • MAR(随机缺失)
    • MNAR(非随机缺失)
      缺失率在 10 % 到 50 % 之间。
  2. 插补家族

    • 统计类:链式方程多重插补(MICE)和 SoftImpute(矩阵完成)。
    • 分布对齐:OT‑Impute,通过最优传输对齐观测分布与潜在分布。
    • 深度生成:GAIN(基于 GAN)、MIWAE(带重要性加权的变分自编码器)和 TabCSDI(条件扩散模型)。
  3. 不确定性估计

    • 多次运行变异性:使用不同随机种子多次训练同一模型,插补结果的离散程度作为不确定性代理。
    • 条件抽样:从模型的条件分布中多次抽样(如多次 GAN 或扩散抽样)。
    • 预测分布建模:直接使用模型学习到的后验方差(例如 VAE 的高斯解码器方差)。
  4. 评估指标

    • 校准曲线:绘制预测置信区间与实际覆盖率的对应关系。
    • 期望校准误差(ECE):量化预测置信度与观测置信度之间的平均偏差。
    • 重建误差:在保留的真实值上计算均方根误差(RMSE)。
    • 运行时:在单 GPU/CPU 配置下的实际耗时。

结果与发现

插补器RMSE(越低越好)ECE(越低越好)典型运行时
MICE★★★★★★★★
SoftImpute★★★★★
OT‑Impute★★★★★★★
GAIN★★★★★★★★★
MIWAE★★★★★★★
TabCSDI★★★★★★★★★★★
  • 精度 vs. 校准:MIWAE 与 TabCSDI 取得了最佳校准(最低 ECE),但并不总是 RMSE 最低。相反,GAIN 常常获得低 RMSE,却表现出较差的校准。
  • 缺失机制的影响:在 MNAR 场景下,OT‑Impute 基于传输的对齐能够保持相对稳定的校准,而统计方法的校准则急剧下降。
  • 不确定性估计路径:对于深度生成模型,条件抽样始终优于多次运行变异性;而预测分布建模在 VAE(MIWAE)上效果最佳。
  • 运行时权衡:简单的统计方法速度快但不确定性信号弱;基于扩散的 TabCSDI 提供强校准,却伴随高计算成本。

实际意义

  • 数据清洗流水线:当下游模型对插补误差敏感(如风险评分),应优先选择校准良好的不确定性(MIWAE 或 TabCSDI),并对高不确定性条目进行人工审查。
  • 主动学习与实验设计:利用校准后的不确定性指导有选择的数据收集——重点补充插补方差大的特征,以降低整体模型风险。
  • 基于模型的决策系统:在金融、医疗等受监管领域,报告校准的置信区间能够满足仅提供点估计无法满足的合规要求。
  • 资源分配:对于对延迟敏感的大规模批处理任务,OT‑Impute 提供了一个折中方案——精度适中、校准尚可、运行时适中。
  • 工具链:作者开源了基准套件,可直接接入常用的 Python 数据栈(pandas、scikit‑learn、PyTorch),工程师可以轻松切换插补器并自动获取校准诊断。

局限性与未来工作

  • 合成缺失:所有实验均基于人为构造的缺失模式;真实世界的 MNAR 可能更为复杂。
  • 校准指标范围:ECE 虽然信息丰富,但是对所有变量的整体聚合;对每个特征单独进行校准评估可能会揭示隐藏偏差。
  • 可扩展性:基于扩散的 TabCSDI 在超过 100 万行的数据上表现吃力;未来工作可探索层次化或流式变体。
  • 超越表格:将研究扩展到混合类型(文本+数值)或时间序列数据仍是未解挑战。
Back to Blog

相关文章

阅读更多 »