关于‘Dumb’均值插补的惊人真相
发布: (2026年1月18日 GMT+8 19:44)
2 min read
原文: Dev.to
Source: Dev.to
大多数数据团队都沉迷于花哨的插补模型。
它们悄悄毁掉了你真正关心的唯一东西:可信的信号。
隐藏的陷阱
想象一个精美的 3D 拼图。
现在把它砸碎。
然后用米色的乐高砖填满所有空隙。
这就是均值插补。你的数据看起来完整了,但关键的结构已经消失。
插补的测试
我在真实数据集上进行了测试。
均值和中位数插补在预测准确率上实际上超过了 KNN 和 MICE。
纸面上,它们“有效”。但在内部,它们破坏了特征之间的相关性。
- 模型变得更好。
- 数据变得更差。
选择你的插补方法
- 纯预测: 你可以容忍一定的失真,但要明确记录。
- 洞察或因果分析: 首先保护相关性,即使准确率下降。
- 利益相关者驱动的决策: 将插补视为业务决策,而不仅仅是技术决策。
结论
事实是:没有“最佳”插补方法。只有最适合你目标的插补方法,而大多数团队从未定义目标。
在你的工作中,你更优化哪一点:更干净的预测还是数据中更真实的关系?