你的模型选择并不像你想的那样重要……这其实是个好消息

发布: 1个月前 (2026年1月9日 GMT+8 23:51)

10 分钟阅读

原文: Dev.to

Source: Dev.to

引言

我在 Twitter 上看到这项研究，脑子里一直挥之不去。

2009 年，神经科学家把一条死去的大西洋鲑鱼放进 fMRI 扫描仪，给它展示了人类在社交场景中的图片，并让它判断这些人感受到的情绪。扫描仪检测到了大脑活动，鲑鱼似乎在思考。

显然，这条鱼并没有在思考——所谓的“活动”只是随机噪声。关键是 如果没有适当的统计控制，你的工具会在不存在的地方发现模式。

LLM 基准中的空模型

这个问题正发生在机器学习领域。我们在加入合适的基线后，原本被庆祝的模型改进会消失。这就像在死鱼体内发现脑活动，只是现在我们把它称作 架构创新。

研究者向 LLM 基准提交了 空模型。这些模型无论输入是什么，都会输出恒定的响应；它们根本不读取问题，只是生成看起来格式良好的文本。
这些空模型在 AlpacaEval 上取得了 80‑90 % 的胜率。

“一个完全忽略输入的模型也能达到 90 % 的胜率。这并不是在衡量智能，而是在衡量你对 markdown 的格式化能力。”

论文 “Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates”（arXiv: 2410.07137）应该让所有依据排行榜位置做决策的人感到恐慌。

视觉中的捷径学习

这个问题并非孤立。论文 “Shortcut Learning in Deep Neural Networks” (arXiv: 2004.07780) 表明 ImageNet 模型学习的是纹理而不是形状。给它们看一只带有猫纹理的大象，它们会自信地说“猫”。它们完全学错了东西，但基准测试从未发现这一点。

简单基线胜过复杂方法

有一类论文的标题中带有*“一种极其简单的方法”*。它们通过根本不使用复杂方法不断超越最先进的技术。

Task	What “simple” did	Result
零样本学习	线性回归胜过花哨的元学习架构	创下新纪录
单样本学习	从预训练模型中剪枝无关特征	在 miniImageNet 与 tieredImageNet 上击败所有复杂的元学习网络
不平衡半监督学习	基础重采样	比复杂的平衡技术提升 12‑16 %

模式显而易见：这些论文并未发现新技术；它们只是实现了大家都忽略的基线。

表格数据：深度学习并非总是最佳

最有力的证据来自表格数据。

“Tabular Data: Deep Learning Is Not All You Need” (arXiv: 2106.03253) 将花哨的深度学习模型与 XGBoost（一种 2016 年的算法，已为大多数实践者所熟知）进行比较。
XGBoost 在大多数数据集上获胜，训练速度显著更快，且只有那些最初针对各自数据集开发的深度模型在其“本土”数据集上表现最佳。

当研究人员在十一组新数据集上测试四篇近期论文中的模型时，每个“新颖架构”仅在其原始数据集上占优势，其他地方全部失效。

“这不是创新，而是使用神经网络进行 p‑hacking。”

当深度学习真的有帮助时

深度学习在表格数据上 在特定情况下 能够取得优势：

大规模数据集（≥ 100 万行），手动特征工程不可行。
需要自动学习复杂特征交互的情形。

但这些情形比 hype 所暗示的要少得多。对于大多数表格问题，使用良好特征的 XGBoost 能击败使用糟糕特征的任何深度模型。

Andrew Ng：“提升数据质量往往胜过开发更好的模型架构。”

Microsoft 的 Phi models 证明了这一点：一个在高质量合成教材上训练的微型模型，表现优于在嘈杂网络抓取数据上训练的大型模型——这并非因为架构，而是因为数据。

更大的图景

这种模式在各处都成立：

XGBoost + 优秀特征 能击败任何使用劣质特征的深度模型。
在 GPT‑3.5 上使用的优秀提示 能胜过在 GPT‑4 上的劣质提示。
干净的数据 能胜过新颖的架构。

我们为何忽视这一点？因为 “我们更好地清理了数据” 并不能赢得最佳论文奖，而 “具有架构创新的全新注意力机制” 却可以。

《机器学习学术中的令人担忧的趋势》 (arXiv: 1807.03341) 记录了这一问题：

论文声称架构创新，实际上只是更好的超参数调优。
作者将调优后的模型与未调优的基线进行比较并宣称胜利。
他们挑选自己的方法有效的数据集。
他们跳过能够暴露弱点的简单基线。
他们使用数学把平凡的想法包装得深奥。

我们正被那些在原始论文之外无法复现的“创新”所淹没。

AI 实践者的实用要点

在尝试最新的 Transformer 之前，先建立一个强基线。
- 表格数据 → XGBoost。
- 文本分类 → TF‑IDF + Logistic Regression。
- 代码搜索 → Cosine similarity。
掌控你能控制的部分。模型选择是暂时的；数据管道和评估框架才是长期资产。
投入数据质量。
- 清晰、一致的标注。
- 删除重复数据。
- 修复类别不平衡。
- 添加合适的空值处理。
精通 Prompt Engineering。它与模型无关，可在 Claude、GPT、Gemini 等之间迁移。
- 将问题拆解为步骤。
- 提供明确的示例。
- 使用结构化输出。
- 根据失败进行迭代。
加入适当的对照。死亡三文鱼实验教会神经科学家检验零假设——对你的机器学习实验也要如此。

Final Thought

如果你的模型无法令人信服地超越 简单、精心设计的基线，那基本上就是一条死鱼。专注于数据、基线和严格的评估，你就能避免“架构炒作”的陷阱。

你的改进是否足够大以产生实际意义？
它是否超越了简单基线？
你是在比较调优后 vs 调优后，还是调优后 vs 原始模型？
它是否在训练分布之外也能有效？

如果在加入这些控制后你的收益消失了，那你只是在庆祝噪声。

那篇可解释性论文也表达了同样的观点。如果你的可解释性工具在随机初始化、未训练的模型中发现了令人信服的模式，你并没有发现意义——而是发现了统计噪声。(arXiv:2512.18792)

显著性图在随机网络上看起来也很合理。稀疏自编码器在随机 Transformer 中找到“可解释特征”。基准分数在空模型下也会提升。某些架构击败了从未被正确调优的基线。

在追逐最新模型发布之前，先尝试简单基线。完善你的数据。投入可迁移的提示。为你的评估添加控制。

你不需要内部渠道或最新模型。你需要掌握自己的数据、提示、检索和评估。模型往往是系统中最不有趣的部分，这正是它被炒作最多的原因。

你的模型选择并不像你想的那样重要。一旦接受这一点，你就可以专注于真正重要的方面。

你的模型选择并不像你想的那样重要……这其实是个好消息

引言

LLM 基准中的空模型

视觉中的捷径学习

简单基线胜过复杂方法

表格数据：深度学习并非总是最佳

当深度学习真的有帮助时

更大的图景

AI 实践者的实用要点

Final Thought

相关文章

[Paper] 评估并改进代码生成基准的代表性：使用编程语言的知识单元（KUs）——实证研究

使用 NeMo Agent Toolkit 衡量关键要素

Artificial Analysis 对其 AI Intelligence Index 进行彻底改革，用“真实世界”测试取代流行的基准测试

马克·扎克伯格称 Meta 正在启动自己的 AI 基础设施倡议