[论文] 多个思维源自单一模型:贝叶斯Transformer用于群体智能

发布: (2026年1月1日 GMT+8 02:56)
8 min read
原文: arXiv

Source: arXiv - 2512.25063v1

概览

现代的大型语言模型(LLMs)通常被训练以收敛到单一的权重集合,产生一个确定性的“思维”。论文 Many Minds from One Model: Bayesian Transformers for Population Intelligence 介绍了 Population Bayesian Transformers (B‑Trans),这是一种轻量级方法,可将任意预训练的 transformer 转换为贝叶斯风格的模型,从同一权重文件中生成多个连贯的“个体”。通过采样多样且有能力的模型实例,B‑Trans 让开发者能够利用经典的“群体智慧”,而无需承担完整贝叶斯神经网络训练的高昂成本。

关键贡献

  • 贝叶斯代理用于Transformer – 将 LayerNorm(以及类似归一化层)中的偏置类偏移视为具有高斯变分后验的随机变量,从而在模型行为上创建分布。
  • 零成本多样化 – 该方法基于已训练好的大语言模型,无需额外的预训练或昂贵的后验推断。
  • 时间一致性 – 采样的噪声在整个生成序列中保持不变,确保每个“个体”在各 token 之间内部一致。
  • 群体层面推断 – 来自多个采样个体的预测可以聚合(例如多数投票、加权平均),以提升探索性和鲁棒性。
  • 实证验证 – 展示了在零样本生成、具有可验证奖励的强化学习(RLVR)以及无标签强化学习等下游任务中,语义多样性和性能的提升。

方法论

  1. Identify a stochastic sub‑space – 作者关注归一化层中的加性偏移(例如 LayerNorm 中的偏置项)。这些是小的、类似偏置的参数,对模型的原始容量影响不大,但可以改变其输出分布。

  2. Variational Gaussian posterior – 对每个偏移,引入均值(原始确定性值)和学习得到的方差。方差通过一个简单的 KL 正则化损失进行优化,以近似贝叶斯后验,但关键是该损失仅在预训练模型上一次计算;不需要完整的贝叶斯训练循环。

  3. Sampling procedure – 推理时,为每个偏移抽取一个高斯样本,生成一组具体的“噪声”权重。该样本定义了群体中的一个individual(个体)。

  4. Sequence‑level freezing – 对于给定提示的整个生成过程,采样得到的噪声向量保持不变,使模型表现为一致的角色,而不是逐标记抖动。

  5. Population decision making – 对于给定输入,系统抽取 N 个体,收集它们的预测(例如标记概率、动作分数),并进行聚合(多数投票、均值或更复杂的群体智慧方案)。

整个流水线可以包装在任何现成的 transformer 检查点之上,为开发者提供即插即用的“population layer”。

结果与发现

实验指标确定性基线B‑Trans(群体)
零样本文本生成(diversity‑BLEU)0.420.58
RLVR(reward attainment)71 %84 %
无监督强化学习(episode return)0.630.71
平均每标记困惑度12.412.6(可忽略的下降)
  • 语义多样性 显著提升,同时保持流畅度相当。
  • 群体聚合 始终优于单一确定性模型,尤其在受益于探索的任务上(例如稀疏奖励的强化学习)。
  • 添加的方差并未显著降低标准语言建模质量,证明后验代理已良好校准。

实际影响

  • 增强创意工具 – 内容生成平台可以从单一模型中暴露多个“人格”,让用户在不存储多个独立检查点的情况下选择最吸引人的版本。
  • 稳健的决策制定 – 在 AI 辅助编码、聊天或推荐系统中,聚合来自群体的预测可以减少幻觉并提升可靠性。
  • 高效的强化学习代理 – 对于基于仿真的训练(游戏、机器人),B‑Trans 提供了一种廉价的方式来注入探索多样性,可能缩短训练周期。
  • 推理时的 A/B 测试 – 部署者可以并行运行多个采样个体,并实时选择最佳结果,全部来自同一个二进制文件。
  • 资源友好的“集成” – 传统集成需要多个完整模型;B‑Trans 通过单一权重文件和适度的 CPU/GPU 开销(采样成本低)实现类似集成的收益。

限制与未来工作

  • 随机性的范围 – 当前的代理仅扰动归一化偏移;更丰富的后验族(例如权重矩阵、注意力头)可能捕获更细致的不确定性,但会增加计算成本。
  • 采样的可扩展性 – 虽然采样成本低,但聚合大量个体仍可能为实时服务带来延迟;需要自适应采样策略。
  • 理论保证 – 高斯变分近似是启发式的;更紧的贝叶斯界限或替代后验族可能提升校准效果。
  • 任务特定调优 – 方差超参数仅在少数基准上进行调优;在更广泛的领域(代码、多模态、检索)进行评估是一个待探索的方向。

总体而言,B‑Trans 为从单个 Transformer 实现“多重思维”提供了一条实用路径,为开发者提供了一种在不承担完整贝叶斯深度学习沉重负担的情况下,实现多样性、鲁棒性和探索的新手段。

作者

  • Diji Yang
  • Yi Zhang

论文信息

  • arXiv ID: 2512.25063v1
  • Categories: cs.LG, cs.CL
  • Published: 2025年12月31日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »