NeurIPS 2025最佳论文奖

发布: (2025年12月5日 GMT+8 09:15)
8 min read

Source: Hacker News

引言

最佳论文奖委员会成员由项目主席和数据库与基准赛道主席提名,他们从机器学习各主题中挑选了领先的研究者。这些提名经大会主席以及下一代与可访问性主席批准。

最佳论文奖委员会的任务是从大会主赛道和数据集与基准赛道中挑选出少数极具影响力的论文。

我们很高兴地宣布,今年的最佳论文和亚军论文奖共计七篇突破性论文,其中包括四篇最佳论文(其中一篇来自数据集与基准赛道)和三篇亚军论文。这七篇论文突显了扩散模型理论、自监督强化学习、用于大语言模型的注意力机制、LLM 推理能力、在线学习理论、神经尺度定律以及语言模型多样性基准方法的进展。

获奖论文按标题字母顺序列出。

Artificial Hivemind: The Open‑Ended Homogeneity of Language Models (and Beyond)

作者:

摘要

大型语言模型(LM)常常难以生成多样化、具有人类创意的内容,这引发了对通过反复接触相似输出而导致人类思维长期同质化的担忧。然而,用于评估语言模型输出多样性的可扩展方法仍然有限,尤其是在超出随机数字或姓名生成等狭窄任务,或超出对单一模型的重复抽样的情况下。为填补这一空白,我们推出 Infinity‑Chat,一个包含 26 K 条多样化、真实世界、开放式用户查询的大规模数据集,这些查询允许出现大量合理答案且不存在唯一的真实答案。我们提出了首个用于表征语言模型所面对的开放式提示全谱的综合分类体系,包含 6 大类(例如创意内容生成、头脑风暴与构思),进一步细分为 17 个子类。

利用 Infinity‑Chat,我们开展了大规模的语言模型模式崩溃研究,揭示了在开放式生成中出现显著的 Artificial Hivemind 效应,表现为 (1) 模型内部的重复——单一模型持续生成相似响应;以及更为明显的 (2) 模型之间的同质化——不同模型产生惊人相似的输出。Infinity‑Chat 还包含 31 250 条人工标注,覆盖绝对评分和成对偏好,每个示例有 25 位独立标注者。这使得我们能够研究针对开放式查询的集体与个体化人类偏好。

我们的发现表明,最先进的语言模型、奖励模型以及语言模型评审在面对引发标注者偏好差异的生成时,对人类评分的校准程度较低,尽管整体质量相当。总体而言,INFINITY‑CHAT 提供了首个大规模资源,用于系统性研究真实世界的开放式查询,揭示了关键洞见,以指导未来研究缓解由 Artificial Hivemind 带来的长期 AI 安全风险。

评审委员会的反思

本文对现代语言模型的多样性、复数性以及社会影响提供了重要且及时的贡献。作者推出了 Infinity‑Chat——一个经过严格构建的 26 K 条真实世界开放式查询与 31 K 条密集人工标注的基准,使得能够系统评估创意生成、构思以及主观偏好对齐——这些维度在 AI 评估中历来被忽视。

除了发布有价值的数据集之外,本文还通过首个全面的开放式提示分类体系以及对 70 多个模型的广泛实证研究,提供了深刻的分析洞见,揭示了 Artificial Hivemind 效应:显著的模型内部与模型之间的同质化,这对人类创造力、价值多元性以及独立思考的长期风险提出了严峻警示。研究结果暴露了当前奖励模型、自动评审与多样化人类偏好之间的严重校准失衡,凸显了对齐与多样性之间的张力,并为未来在 AI 系统中保持异质性奠定了基础。

总体而言,这项工作为推动科学理解并解决紧迫社会挑战设立了新标准,而不仅仅是提升技术性能。

Gated Attention for Large Language Models: Non‑linearity, Sparsity, and Attention‑Sink‑Free

作者:

摘要

门控机制被广泛使用,从早期的 LSTM 与 Highway Network 到近期的状态空间模型、线性注意力以及 softmax 注意力。然而,现有文献很少专门探讨门控的具体作用。本工作通过全面实验系统地研究了门控增强的 softmax 注意力变体。具体而言,我们在 3.5 万亿 token 数据集上,对 30 种 15 B 参数的 Mixture‑of‑Experts(MoE)模型和 1.7 B 参数的密集模型进行了全面比较。

我们的核心发现是,一个简单的修改——在 Scaled Dot‑Product Attention(SDPA)之后对每个头应用特定的 sigmoid 门——能够一致提升性能。该修改还增强了训练稳定性,容忍更大的学习率,并改善了尺度属性。通过比较不同的门控位置和计算变体,我们将其有效性归因于两个关键因素:(1) 在 softmax 注意力的低秩映射上引入非线性;以及 (2) 使用查询相关的稀疏门控分数来调制 SDPA 输出。值得注意的是,我们发现这种稀疏门控机制能够缓解大规模激活、注意力沉没,并提升长上下文外推性能。

我们还开源了相关代码(https://github.com/qiuzh20/gated_attention)和模型(https://huggingface.co/QwQZh/gated_attention),以促进后续研究。此外,最有效的 SDPA 输出门控已被用于 Qwen3‑Next 系列模型(https://huggingface.co/collections/Qwen/qwen3-next)。

评审委员会的反思

本文的主要发现是,通过在 softmax 注意力中加入门控,可以始终提升大型语言模型的性能。

Back to Blog

相关文章

阅读更多 »

Cloudflare 宕机

文章链接: https://cloudflare.com/ 评论链接: https://news.ycombinator.com/item?id=46158338 积分: 17 评论: 2

UniFi 5G

请提供您希望翻译的文章摘录或摘要文本,我会为您翻译成简体中文。