你的模型选择并不像你想的那样重要……这其实是个好消息
Source: Dev.to
引言
我在 Twitter 上看到这项研究,脑子里一直挥之不去。
2009 年,神经科学家把一条死去的大西洋鲑鱼放进 fMRI 扫描仪,给它展示了人类在社交场景中的图片,并让它判断这些人感受到的情绪。扫描仪检测到了大脑活动,鲑鱼 似乎 在思考。
显然,这条鱼并没有在思考——所谓的“活动”只是随机噪声。关键是 如果没有适当的统计控制,你的工具会在不存在的地方发现模式。
LLM 基准中的空模型
这个问题正发生在机器学习领域。我们在加入合适的基线后,原本被庆祝的模型改进会消失。这就像在死鱼体内发现脑活动,只是现在我们把它称作 架构创新。
- 研究者向 LLM 基准提交了 空模型。这些模型无论输入是什么,都会输出恒定的响应;它们根本不读取问题,只是生成看起来格式良好的文本。
- 这些空模型在 AlpacaEval 上取得了 80‑90 % 的胜率。
“一个完全忽略输入的模型也能达到 90 % 的胜率。这并不是在衡量智能,而是在衡量你对 markdown 的格式化能力。”
论文 “Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates”(arXiv: 2410.07137)应该让所有依据排行榜位置做决策的人感到恐慌。
视觉中的捷径学习
这个问题并非孤立。论文 “Shortcut Learning in Deep Neural Networks” (arXiv: 2004.07780) 表明 ImageNet 模型学习的是纹理而不是形状。给它们看一只带有猫纹理的大象,它们会自信地说“猫”。它们完全学错了东西,但基准测试从未发现这一点。
简单基线胜过复杂方法
有一类论文的标题中带有*“一种极其简单的方法”*。它们通过根本不使用复杂方法不断超越最先进的技术。
| Task | What “simple” did | Result |
|---|---|---|
| 零样本学习 | 线性回归胜过花哨的元学习架构 | 创下新纪录 |
| 单样本学习 | 从预训练模型中剪枝无关特征 | 在 miniImageNet 与 tieredImageNet 上击败所有复杂的元学习网络 |
| 不平衡半监督学习 | 基础重采样 | 比复杂的平衡技术提升 12‑16 % |
模式显而易见:这些论文并未发现新技术;它们只是实现了大家都忽略的基线。
表格数据:深度学习并非总是最佳
最有力的证据来自表格数据。
- “Tabular Data: Deep Learning Is Not All You Need” (arXiv: 2106.03253) 将花哨的深度学习模型与 XGBoost(一种 2016 年的算法,已为大多数实践者所熟知)进行比较。
- XGBoost 在大多数数据集上获胜,训练速度显著更快,且只有那些最初针对各自数据集开发的深度模型在其“本土”数据集上表现最佳。
当研究人员在十一组新数据集上测试四篇近期论文中的模型时,每个“新颖架构”仅在其原始数据集上占优势,其他地方全部失效。
“这不是创新,而是使用神经网络进行 p‑hacking。”
当深度学习真的有帮助时
深度学习在表格数据上 在特定情况下 能够取得优势:
- 大规模数据集(≥ 100 万行),手动特征工程不可行。
- 需要自动学习复杂特征交互的情形。
但这些情形比 hype 所暗示的要少得多。对于大多数表格问题,使用良好特征的 XGBoost 能击败使用糟糕特征的任何深度模型。
Andrew Ng:“提升数据质量往往胜过开发更好的模型架构。”
Microsoft 的 Phi models 证明了这一点:一个在高质量合成教材上训练的微型模型,表现优于在嘈杂网络抓取数据上训练的大型模型——这并非因为架构,而是因为数据。
更大的图景
这种模式在各处都成立:
- XGBoost + 优秀特征 能击败任何使用劣质特征的深度模型。
- 在 GPT‑3.5 上使用的优秀提示 能胜过在 GPT‑4 上的劣质提示。
- 干净的数据 能胜过新颖的架构。
我们为何忽视这一点?因为 “我们更好地清理了数据” 并不能赢得最佳论文奖,而 “具有架构创新的全新注意力机制” 却可以。
《机器学习学术中的令人担忧的趋势》 (arXiv: 1807.03341) 记录了这一问题:
- 论文声称架构创新,实际上只是更好的超参数调优。
- 作者将调优后的模型与未调优的基线进行比较并宣称胜利。
- 他们挑选自己的方法有效的数据集。
- 他们跳过能够暴露弱点的简单基线。
- 他们使用数学把平凡的想法包装得深奥。
我们正被那些在原始论文之外无法复现的“创新”所淹没。
AI 实践者的实用要点
-
在尝试最新的 Transformer 之前,先建立一个强基线。
- 表格数据 → XGBoost。
- 文本分类 → TF‑IDF + Logistic Regression。
- 代码搜索 → Cosine similarity。
-
掌控你能控制的部分。模型选择是暂时的;数据管道和评估框架才是长期资产。
-
投入数据质量。
- 清晰、一致的标注。
- 删除重复数据。
- 修复类别不平衡。
- 添加合适的空值处理。
-
精通 Prompt Engineering。它与模型无关,可在 Claude、GPT、Gemini 等之间迁移。
- 将问题拆解为步骤。
- 提供明确的示例。
- 使用结构化输出。
- 根据失败进行迭代。
-
加入适当的对照。死亡三文鱼实验教会神经科学家检验零假设——对你的机器学习实验也要如此。
Final Thought
如果你的模型无法令人信服地超越 简单、精心设计的基线,那基本上就是一条死鱼。专注于数据、基线和严格的评估,你就能避免“架构炒作”的陷阱。
- 你的改进是否足够大以产生实际意义?
- 它是否超越了简单基线?
- 你是在比较调优后 vs 调优后,还是调优后 vs 原始模型?
- 它是否在训练分布之外也能有效?
如果在加入这些控制后你的收益消失了,那你只是在庆祝噪声。
那篇可解释性论文也表达了同样的观点。如果你的可解释性工具在随机初始化、未训练的模型中发现了令人信服的模式,你并没有发现意义——而是发现了统计噪声。(arXiv:2512.18792)
显著性图在随机网络上看起来也很合理。稀疏自编码器在随机 Transformer 中找到“可解释特征”。基准分数在空模型下也会提升。某些架构击败了从未被正确调优的基线。
在追逐最新模型发布之前,先尝试简单基线。完善你的数据。投入可迁移的提示。为你的评估添加控制。
你不需要内部渠道或最新模型。你需要掌握自己的数据、提示、检索和评估。模型往往是系统中最不有趣的部分,这正是它被炒作最多的原因。
你的模型选择并不像你想的那样重要。一旦接受这一点,你就可以专注于真正重要的方面。