你的模型选择并不像你想的那样重要……这其实是个好消息

发布: (2026年1月9日 GMT+8 23:51)
10 min read
原文: Dev.to

Source: Dev.to

引言

我在 Twitter 上看到这项研究,脑子里一直挥之不去。

2009 年,神经科学家把一条死去的大西洋鲑鱼放进 fMRI 扫描仪,给它展示了人类在社交场景中的图片,并让它判断这些人感受到的情绪。扫描仪检测到了大脑活动,鲑鱼 似乎 在思考。

显然,这条鱼并没有在思考——所谓的“活动”只是随机噪声。关键是 如果没有适当的统计控制,你的工具会在不存在的地方发现模式

LLM 基准中的空模型

这个问题正发生在机器学习领域。我们在加入合适的基线后,原本被庆祝的模型改进会消失。这就像在死鱼体内发现脑活动,只是现在我们把它称作 架构创新

  • 研究者向 LLM 基准提交了 空模型。这些模型无论输入是什么,都会输出恒定的响应;它们根本不读取问题,只是生成看起来格式良好的文本。
  • 这些空模型在 AlpacaEval 上取得了 80‑90 % 的胜率

“一个完全忽略输入的模型也能达到 90 % 的胜率。这并不是在衡量智能,而是在衡量你对 markdown 的格式化能力。”

论文 “Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates”(arXiv: 2410.07137)应该让所有依据排行榜位置做决策的人感到恐慌。

视觉中的捷径学习

这个问题并非孤立。论文 “Shortcut Learning in Deep Neural Networks” (arXiv: 2004.07780) 表明 ImageNet 模型学习的是纹理而不是形状。给它们看一只带有猫纹理的大象,它们会自信地说“猫”。它们完全学错了东西,但基准测试从未发现这一点。

简单基线胜过复杂方法

有一类论文的标题中带有*“一种极其简单的方法”*。它们通过根本不使用复杂方法不断超越最先进的技术。

TaskWhat “simple” didResult
零样本学习线性回归胜过花哨的元学习架构创下新纪录
单样本学习从预训练模型中剪枝无关特征在 miniImageNet 与 tieredImageNet 上击败所有复杂的元学习网络
不平衡半监督学习基础重采样比复杂的平衡技术提升 12‑16 %

模式显而易见:这些论文并未发现新技术;它们只是实现了大家都忽略的基线

表格数据:深度学习并非总是最佳

最有力的证据来自表格数据。

  • “Tabular Data: Deep Learning Is Not All You Need” (arXiv: 2106.03253) 将花哨的深度学习模型与 XGBoost(一种 2016 年的算法,已为大多数实践者所熟知)进行比较。
  • XGBoost 在大多数数据集上获胜,训练速度显著更快,且只有那些最初针对各自数据集开发的深度模型在其“本土”数据集上表现最佳。

当研究人员在十一组新数据集上测试四篇近期论文中的模型时,每个“新颖架构”仅在其原始数据集上占优势,其他地方全部失效

“这不是创新,而是使用神经网络进行 p‑hacking。”

当深度学习真的有帮助时

深度学习在表格数据上 在特定情况下 能够取得优势:

  • 大规模数据集(≥ 100 万行),手动特征工程不可行。
  • 需要自动学习复杂特征交互的情形。

但这些情形比 hype 所暗示的要少得多。对于大多数表格问题,使用良好特征的 XGBoost 能击败使用糟糕特征的任何深度模型

Andrew Ng:“提升数据质量往往胜过开发更好的模型架构。”

Microsoft 的 Phi models 证明了这一点:一个在高质量合成教材上训练的微型模型,表现优于在嘈杂网络抓取数据上训练的大型模型——这并非因为架构,而是因为数据。

更大的图景

这种模式在各处都成立:

  • XGBoost + 优秀特征 能击败任何使用劣质特征的深度模型。
  • 在 GPT‑3.5 上使用的优秀提示 能胜过在 GPT‑4 上的劣质提示。
  • 干净的数据 能胜过新颖的架构。

我们为何忽视这一点?因为 “我们更好地清理了数据” 并不能赢得最佳论文奖,而 “具有架构创新的全新注意力机制” 却可以。

《机器学习学术中的令人担忧的趋势》 (arXiv: 1807.03341) 记录了这一问题:

  • 论文声称架构创新,实际上只是更好的超参数调优。
  • 作者将调优后的模型与未调优的基线进行比较并宣称胜利。
  • 他们挑选自己的方法有效的数据集。
  • 他们跳过能够暴露弱点的简单基线。
  • 他们使用数学把平凡的想法包装得深奥。

我们正被那些在原始论文之外无法复现的“创新”所淹没。

AI 实践者的实用要点

  1. 在尝试最新的 Transformer 之前,先建立一个强基线

    • 表格数据 → XGBoost
    • 文本分类 → TF‑IDF + Logistic Regression
    • 代码搜索 → Cosine similarity
  2. 掌控你能控制的部分。模型选择是暂时的;数据管道和评估框架才是长期资产。

  3. 投入数据质量

    • 清晰、一致的标注。
    • 删除重复数据。
    • 修复类别不平衡。
    • 添加合适的空值处理。
  4. 精通 Prompt Engineering。它与模型无关,可在 Claude、GPT、Gemini 等之间迁移。

    • 将问题拆解为步骤。
    • 提供明确的示例。
    • 使用结构化输出。
    • 根据失败进行迭代。
  5. 加入适当的对照。死亡三文鱼实验教会神经科学家检验零假设——对你的机器学习实验也要如此。

Final Thought

如果你的模型无法令人信服地超越 简单、精心设计的基线,那基本上就是一条死鱼。专注于数据、基线和严格的评估,你就能避免“架构炒作”的陷阱。

  • 你的改进是否足够大以产生实际意义?
  • 它是否超越了简单基线?
  • 你是在比较调优后 vs 调优后,还是调优后 vs 原始模型?
  • 它是否在训练分布之外也能有效?

如果在加入这些控制后你的收益消失了,那你只是在庆祝噪声。

那篇可解释性论文也表达了同样的观点。如果你的可解释性工具在随机初始化、未训练的模型中发现了令人信服的模式,你并没有发现意义——而是发现了统计噪声。(arXiv:2512.18792)

显著性图在随机网络上看起来也很合理。稀疏自编码器在随机 Transformer 中找到“可解释特征”。基准分数在空模型下也会提升。某些架构击败了从未被正确调优的基线。

在追逐最新模型发布之前,先尝试简单基线。完善你的数据。投入可迁移的提示。为你的评估添加控制。

你不需要内部渠道或最新模型。你需要掌握自己的数据、提示、检索和评估。模型往往是系统中最不有趣的部分,这正是它被炒作最多的原因。

你的模型选择并不像你想的那样重要。一旦接受这一点,你就可以专注于真正重要的方面。

Back to Blog

相关文章

阅读更多 »

在 Kaggle 上推出社区基准

《Introducing Community Benchmarks on Kaggle》的封面图片:https://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A...