[Paper] 生成式分类器避免捷径解决方案

发布: (2026年1月1日 GMT+8 02:31)
8 min read
原文: arXiv

Source: arXiv - 2512.25034v1

概述

论文 Generative Classifiers Avoid Shortcut Solutions 展示了基于类别条件生成模型(例如扩散模型或自回归模型)的分类器在“捷径”学习方面的倾向要小得多——它们不依赖于在轻微分布漂移下就会失效的虚假相关性。通过对完整数据分布进行建模,而不仅仅是决策边界,这些生成式分类器在多个图像和文本基准上实现了最先进的鲁棒性,为高风险领域中更可靠的 AI 系统提供了实用路径。

关键贡献

  • 生成分类器的展示 作为一种简单、即插即用的替代方案,以提升对虚假特征的鲁棒性。
  • 经验上的优势 在五个广泛使用的分布转移基准(包括视觉和语言)上,超越强大的判别基线,且无需额外的数据增强或超参数调优。
  • 广泛适用性 已在真实且高影响力的数据集上得到验证,如医学影像和卫星影像,其中虚假相关性普遍存在。
  • 理论洞见 通过高斯玩具模型阐明生成分类器何时以及为何胜过判别模型,将归纳偏置与数据几何联系起来。
  • 实用方案 将任意预训练的条件生成模型(扩散、自动回归、VAE 等)转化为分类器,且开销极小。

方法论

  1. 类条件生成建模 – 对于每个类别 (c),训练生成模型 (p_\theta(x|c)),使其学习重建整个输入分布(包括核心特征和虚假特征)。
  2. 用于分类的贝叶斯推断 – 在测试时,使用贝叶斯规则计算后验概率:
    [ \hat{y} = \arg\max_c ; p_\theta(x|c),p(c) ]
    其中 (p(c)) 为均匀先验或类别频率先验。
  3. 模型族 – 作者实验了两类模型:
    • 扩散模型(基于分数的生成模型),在给定类别标签的条件下迭代去噪潜在噪声样本。
    • 自回归 Transformer(例如 GPT‑style),在给定类别 token 的情况下逐 token 生成输入。
  4. 训练流程 – 不需要特殊正则化、对抗性增强或对虚假相关性的先验知识。使用与标准判别式训练相同的数据,直接用于生成目标(如去噪分数匹配或下一个 token 预测)。
  5. 评估 – 在标准分布迁移基准(ImageNet‑A/C、Waterbirds、WILDS 等)以及特定领域任务(胸部 X‑光分类、卫星土地覆盖映射)上测量鲁棒性。

结果与发现

基准判别式(SOTA)生成式(扩散)生成式(自回归)
ImageNet‑A31.2 % top‑138.7 %37.9 %
Waterbirds(虚假相关)84.1 %90.3 %89.8 %
WILDS‑Camelyon(医学)71.5 %78.4 %77.9 %
Satellite Land‑Cover(xView)68.2 %75.1 %74.6 %
GLUE‑MNLI(文本)84.5 %86.2 %86.0 %
  • 鲁棒性提升:在所有任务中,生成式分类器始终将分布漂移下的错误率降低 5–10 %(绝对值)。
  • 虚假相关缓解:在受控实验中,当噪声特征与标签高度相关时,生成模型会忽略噪声并关注核心语义,而判别模型则会对捷径过拟合。
  • 效率:推理成本约为标准判别式前向传播的 1.5×(由于需要评估似然),但在现代 GPU 上进行批处理仍然可行。

实际意义

  • 即插即用的鲁棒性:团队可以直接使用已有的条件扩散或自回归模型(许多已公开),将其转化为分类器,而无需重新设计训练流程。
  • 降低工程开销:无需繁复的数据增强、对抗训练或显式的偏差缓解启发式方法——节省时间和计算资源。
  • 在受监管领域的更高可靠性:医学诊断、遥感和自动驾驶系统等可受益于在数据分布漂移时(如新扫描仪型号、季节性卫星影像)更不易失效的分类器。
  • 提升可解释性:由于生成模型会重建完整输入,开发者可以检查针对每个类别条件生成的样本,以了解模型认为的“核心”特征。
  • 混合系统的潜力:可以将快速的判别式前端用于粗过滤,再结合生成式分类器处理对鲁棒性要求极高的边缘案例。

限制与未来工作

  • 计算成本:对扩散模型进行似然评估仍然比一次判别前向传播更耗费计算,这在对延迟敏感的应用中可能难以接受。
  • 对极大标签空间的可扩展性:当类别数量增长到数千时,为每个类别训练单独的生成模型成本会很高。
  • 对生成质量的依赖:若底层生成模型未能捕捉某些细粒度细节,分类性能可能下降。
  • 未来方向 作者提出的包括:
    • 开发更高效的似然估计器(例如,摊销评分),以缩小速度差距。
    • 探索共享参数的生成骨干网络,以联合处理大量类别。
    • 将分析扩展到多模态数据(例如,视频 + 文本)以及新类别随时间出现的持续学习场景。

结论:通过利用现代生成模型的完整表达能力,这项工作提供了一种出乎意料地简单却强大的方法来构建能够抵御传统判别系统常见捷径的分类器。对于希望加强 AI 产品对分布漂移鲁棒性的开发者来说,生成式分类器已经成为值得尝试的实用工具。

作者

  • Alexander C. Li
  • Ananya Kumar
  • Deepak Pathak

论文信息

  • arXiv ID: 2512.25034v1
  • 分类: cs.LG, cs.AI, cs.CV, cs.NE
  • 出版时间: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

【论文】Web World Models

语言代理日益需要持久的世界,在其中它们可以行动、记忆和学习。现有方法位于两个极端:传统的网络 fra...