[Paper] BAMBO:通过贝叶斯自适应多目标块式优化构建能力与效率 LLM Pareto 集
发布: (2025年12月10日 GMT+8 23:32)
6 min read
原文: arXiv
Source: arXiv - 2512.09972v2
概览
本文提出 BAMBO(贝叶斯自适应多目标块级优化),一种用于自动构建大语言模型(LLM)Pareto 集合的新框架,能够在 能力(如准确性、流畅度)与 效率(如延迟、内存)之间取得平衡。通过解决细粒度模型合并中常见的“维度灾难”,BAMBO 提供了更丰富的折衷模型集合,开发者可以根据不同的部署约束进行选择。
主要贡献
- 混合最优块划分:将层级合并问题重新表述为一维聚类任务,并使用动态规划求解,显著缩小搜索空间的同时保留重要的细粒度信息。
- 贝叶斯多目标进化循环:引入 q‑Expected Hypervolume Improvement(qEHVI)获取函数,引导搜索朝向高质量的能力‑效率折衷。
- 自动化 Pareto 集构建:无需人工调参即可生成全面的合并 LLM 集合,实现针对不同硬件或延迟预算的快速模型选择。
- 实证优势:实验表明,BAMBO 相较于现有的粗粒度(模型层面)和细粒度(层级)基线,能够发现更广、更高质量的 Pareto 前沿。
- 开源发布:提供可直接使用的实现(https://github.com/xin8coder/BAMBO),供社区使用。
方法论
- 块级划分 – 与其合并整个模型或单独层,BAMBO 将相邻层聚合为 块。通过将该问题视为一维聚类任务来寻找最优块边界:动态规划算法评估候选划分,平衡块内相似性(使块内部同质)与块间信息分布(确保每块仍携带独特知识)。
- 搜索空间压缩 – 通过块级合并,决策维度从数千个层级决策降至少数块级决策,使优化过程可行。
- 贝叶斯多目标优化 – 进化循环提出新的块级合并配置。每个候选方案在两个目标上进行评估:(a) 能力(如困惑度、下游任务准确率)和 (b) 效率(如 FLOPs、推理延迟)。qEHVI 获取函数预测哪些候选最能提升当前 Pareto 前沿的超体积,引导搜索向有前景的区域收敛。
- 迭代细化 – 循环重复:评估 → 更新代理模型 → 选择新候选 → 扩展 Pareto 集,直至收敛或达到预算上限。
结果与发现
- 更宽的前沿:BAMBO 的 Pareto 前沿比最佳基线多出 30‑40 % 的非支配模型,覆盖更广的延迟‑准确度折衷范围。
- 更高质量的点:在基准任务(如 GLUE、WikiText)上,最佳 BAMBO 模型相较于最强层级合并基线可实现 最高 1.2 % 更低的困惑度,且 FLOPs 减少 15 %。
- 搜索效率:得益于块划分,评估的配置总数下降了 一个数量级,显著降低了构建 Pareto 前沿所需的 GPU 时长。
- 鲁棒性:该方法适用于不同模型族(如 GPT‑2、LLaMA),并能扩展至参数量超过 10 B 的模型。
实际意义
- 定制化部署:团队可以立即从 BAMBO 生成的 Pareto 集中挑选符合硬件预算的模型——例如低延迟的边缘设备或高吞吐的云服务。
- 成本效益的微调:无需从头训练多个变体,开发者可通过合并已有检查点满足新约束,节省计算资源和时间。
- 快速原型:开源工具与主流库(Hugging Face Transformers)集成,工程师只需少量代码即可接入自己的模型和约束。
- 产品路线图:产品经理能够定量可视化能力‑效率折衷,帮助做出关于在特定 SLA 下发布何种模型规模的明智决策。
局限性与未来工作
- 块粒度权衡:块级合并虽降低了维度,但可能遗漏仅层级合并才能捕获的超细粒度交互。
- 评估成本:准确的能力指标仍需在验证数据上运行推理,对超大模型而言成本不菲。
- 目标范围:当前框架聚焦于能力和基于 FLOP 的效率,未来可扩展至其他指标(如内存占用、能耗)。
- 对非 Transformer 架构的泛化:方法已在基于 Transformer 的 LLM 上验证,迁移至其他架构(如检索增强模型)仍是待解问题。
BAMBO 为开发者在日益紧绷的能力‑效率曲线上提供了实用的导航路径,将原本手动、试错的过程转变为自动化、数据驱动的工作流。
作者
- Kesheng Chen
- Wenjian Luo
- Zhenqian Zhu
- Yamin Hu
- Yiya Xi
论文信息
- arXiv ID: 2512.09972v2
- 分类: cs.LG, cs.CL, cs.NE
- 发布日期: 2025 年 12 月 10 日
- PDF: Download PDF