为什么基于树的模型在表格数据上仍然优于深度学习?
发布: (2026年2月8日 GMT+8 05:10)
2 分钟阅读
原文: Dev.to
Source: Dev.to
Introduction
深度神经网络已经彻底改变了图像和文本处理,但在面对电子表格式的表格数据时,经典的基于树的模型往往仍然占据优势。
Empirical Findings
一个涵盖众多数据集的大规模基准测试表明,基于树的模型(如 XGBoost 和 随机森林)在中等规模的表格(约 10 k 行)上始终优于深度学习模型,即使对神经网络进行了大量超参数调优。该趋势在各种设置和检验中均保持一致。
Why Trees Perform Better
- 对无关特征的鲁棒性——树模型可以忽略无用的列而不影响性能。
- 保持数据形状——树算法直接使用原始的表格结构,无需进行大量预处理。
- 捕捉不规则模式的能力——决策树能够建模异质交互和非线性关系,这些在表格数据上对标准前馈网络来说更难学习。
Implications
这些结果凸显 深度学习并非万能方案;针对表格问题仍需专门的方法。作者已公开完整的实验套件、原始结果和配置细节,以便实现可重复性并推动进一步研究。
Takeaway
当你的数据以行列形式组织时,不要自动假设深度神经网络是最佳选择——基于树的模型仍可能是更聪明的选择。