NeurIPS 2025 最佳论文奖
Source: Hacker News
最佳论文奖委员会成员由项目主席和数据库与基准赛道主席提名,他们从机器学习各个主题中挑选了领先的研究者。这些提名经大会主席以及下一代与可访问性主席批准。
最佳论文奖委员会的任务是从会议的主赛道和数据集 & 基准赛道中挑选出少数具有高度影响力的论文。
我们很高兴地分享,今年的最佳论文及亚军奖项授予了七篇突破性论文,其中包括四篇最佳论文(其中一篇来自数据集与基准赛道)和三篇亚军论文。这七篇论文突显了扩散模型理论、自监督强化学习、用于大语言模型的注意力机制、LLM 的推理能力、在线学习理论、神经尺度定律以及语言模型多样性基准方法的进展。
获奖论文按标题字母顺序列出。
人工蜂群:语言模型(及其之外)的开放式同质性
作者: Liwei Jiang, Yuanjun Chai, Margaret Li, Mickel Liu, Raymond Fok, Nouha Dziri, Yulia Tsvetkov, Maarten Sap, Yejin Choi
摘要
大型语言模型(LM)常常难以生成多样化、类人创意内容,这引发了对通过反复接触相似输出而导致人类思维长期同质化的担忧。然而,用于评估 LM 输出多样性的可扩展方法仍然有限,尤其是在超出随机数字或姓名生成等狭窄任务,或超出对单一模型的重复抽样的情形。为填补这一空白,我们推出 Infinity‑Chat,一个规模宏大的数据集,包含 26 K 条多样化、真实世界的开放式用户查询,这些查询允许出现大量合理答案且不存在唯一的标准答案。我们提出了首个完整的分类体系,用于表征针对 LM 的开放式提示全谱,涵盖 6 大类(例如创意内容生成、头脑风暴 & 构思),进一步细分为 17 个子类。利用 Infinity‑Chat,我们开展了大规模的模式崩塌研究,揭示了 LM 在开放式生成中出现显著的 人工蜂群 效应,其特征为 (1) 模型内部重复,即单一模型持续生成相似回复;以及更为明显的 (2) 模型间同质化,即不同模型产生惊人相似的输出。Infinity‑Chat 还包括 31 250 条人工标注,涵盖绝对评分和成对偏好,每个示例有 25 条独立人工标注。这使得我们能够研究针对开放式查询的集体与个体特定的人类偏好。我们的发现表明,最先进的 LM、奖励模型和 LM 判官在面对引发不同标注者偏好的模型生成时,与人类评分的校准度较低,尽管整体质量相当。总体而言,INFINITY‑CHAT 提供了首个大规模资源,用于系统研究真实世界的开放式查询,对指导未来研究以缓解人工蜂群带来的长期 AI 安全风险提供了关键洞见。
评选委员会的反思
本文对现代语言模型的多样性、复数性及其社会影响提供了重要且及时的贡献。作者推出了 Infinity‑Chat——一个经过严格构建的 26 K 条真实世界开放式查询与 31 K 条密集人工标注的基准,使得对创意生成、构思以及主观偏好对齐进行系统评估成为可能——这些维度在 AI 评估中历来被忽视。除了发布有价值的数据集外,论文通过首个完整的开放式提示分类体系以及对超过 70 种模型的广泛实证研究,揭示了人工蜂群效应:显著的模型内部与模型间同质化,这对人类创造力、价值多元性以及独立思考的长期风险提出了严峻挑战。研究结果暴露了当前奖励模型、自动判官与多样化人类偏好之间的关键校准失衡,凸显了对齐与多样性之间的张力,并为未来在 AI 系统中保持异质性奠定了基础。总体而言,这项工作为推动科学理解并解决紧迫社会挑战设立了新标准,而非仅仅提升技术性能。
用于大语言模型的门控注意力:非线性、稀疏性与无注意力汇聚
作者: Zihan Qiu, Zekun Wang, Bo Zheng, Zeyu Huang, Kaiyue Wen, Songlin Yang, Rui Men, Le Yu, Fei Huang, Suozhi Huang, Dayiheng Liu, Jingren Zhou, Junyang Lin
摘要
门控机制被广泛使用,从早期的 LSTM 与 Highway 网络到近期的状态空间模型、线性注意力以及 softmax 注意力。然而,现有文献很少专门考察门控的具体效果。在本工作中,我们进行全面实验,系统研究了门控增强的 softmax 注意力变体。具体而言,我们在 3.5 万亿 token 数据集上,对 30 种 15 B 参数的混合专家(MoE)模型和 1.7 B 参数的稠密模型进行全面比较。我们的核心发现是,一个简单的改动——在缩放点积注意力(SDPA)之后对每个头应用特定的 sigmoid 门——能够一致提升性能。该改动还增强了训练稳定性,容忍更大的学习率,并改善了尺度属性。通过比较不同的门控位置和计算变体,我们将这种有效性归因于两个关键因素:(1) 在 softmax 注意力的低秩映射上引入非线性;以及 (2) 应用基于查询的稀疏门控分数来调制 SDPA 输出。值得注意的是,我们发现这种稀疏门控机制能够缓解大规模激活、注意力汇聚问题,并提升长上下文外推性能。我们还发布了相关代码(https://github.com/qiuzh20/gated_attention)和模型(https://huggingface.co/QwQZh/gated_attention),以促进未来研究。此外,最有效的 SDPA 输出门控已在 Qwen3‑Next 模型中使用(https://huggingface.co/collections/Qwen/qwen3-next)。
评选委员会的反思
本文的主要发现是,通过在使用 softmax 注意力的大型语言模型中持续加入门控机制,可以显著提升模型性能。