Sakana 如何训练 7B 模型来协同 GPT-5、Claude Sonnet 4 和 Gemini 2.5 Pro
Source: VentureBeat
请提供您希望翻译的具体文本内容,我将按照要求将其翻译成简体中文并保留原始的格式、Markdown 语法以及技术术语。谢谢!
硬编码 LangChain 流水线的问题
“你们团队硬编码的每个 LangChain 流水线,一旦查询分布发生变化就会开始出错——而且这种变化是必然的。”
这个瓶颈正是 Sakana AI 致力于消除的。
介绍 RL Conductor
Sakana AI 的研究人员构建了一个 小型语言模型,通过 强化学习 (RL) 进行训练,能够 自动编排多样化的工作者 LLM 池。
- 对每个输入的动态分析
- 在多个工作者之间的劳动分配
- 代理之间的协同
结果:在困难的推理和编码基准上实现 最先进的性能,超越 如 GPT‑5 和 Claude Sonnet 4 等前沿模型,以及昂贵的人类设计的多代理流水线。所有这些都 以更低的成本 实现,并且 API 调用次数更少,相较于竞争方案。
RL Conductor 是 Fugu 的 核心,Sakana AI 的商业多代理编排服务。
手动代理框架的局限性
大型语言模型拥有强大的潜在能力,但 充分利用这些能力 仍是一个重大挑战。当前的商业 AI 产品在很大程度上依赖 手动设计的代理工作流,而这些工作流存在若干根本性问题:
-
僵化 & 受限的设计
- 硬编码的流水线(例如 LangChain、Mixture‑of‑Agents)适用于狭窄的使用场景,但 在生产环境中 当用户需求变得多样化时会 失效。
-
作者原话
“使用像 LangChain 和 Mixture‑of‑Agents 这类硬编码流水线的框架在特定用例上可能表现良好 … 在生产环境中,当面向拥有非常异构需求的大规模用户群体时,会出现固有的瓶颈。”
— Yujin Tang,合著者(VentureBeat 访谈)Tang 进一步指出:“在如此异构的实际应用中实现泛化,必然需要超越人类硬编码的设计。”
-
没有单一模型能最优化所有任务
- 不同模型在不同领域表现突出(科学推理、代码生成、数学逻辑、高层规划等)。
- 手动预测并硬编码每个查询的理想模型组合在实践中几乎不可能实现。
一个理想的代理框架应当:
- 自动分析问题。
- 将子任务委派给池中最合适的专家。
Source: …
指挥代理乐团
RL Conductor 的构建旨在克服上述限制。顾名思义,它通过以下方式 指挥一支代理乐团:
- 将具有挑战性的问题 拆分 为子任务。
- 将每个子任务 委派 给特定的工作 LLM。
- 设计通信拓扑(谁可以看到哪些先前输出)。
工作原理
- 自然语言工作流生成:对每一步,指挥者输出一条纯英文指令,指定一个代理,并创建一个 访问列表,该列表指明该代理的上下文中包含哪些先前的子任务和响应。
- 灵活的结构:
- 简单的顺序链
- 并行树形结构
- 递归循环(视需要而定)
所有这些 通过强化学习 学得,而非手工规则:
| 训练信号 | 优化目标 |
|---|---|
| 任务 + 工作池 | 正确答案 & 正确的输出格式 |
| 奖励(二元/分级) | 最大化任务成功率 |
通过反复试验,指挥者发现了 高级编排策略,例如:
- 有针对性的提示工程
- 迭代式细化
- 元提示优化
因此,模型 动态调整 其策略,并在 无需任何人工编码路由逻辑 的情况下,利用每个工作者的优势。
Conductor 实战
实验设置
- 基础模型:7 十亿参数的 Qwen2.5‑7B,使用 RL Conductor 框架进行微调。
- 工作池(7 个模型):
- 闭源巨头:Gemini 2.5 Pro、Claude‑Sonnet‑4、GPT‑5
- 开源模型:DeepSeek‑R1‑Distill‑Qwen‑32B、Gemma3‑27B、Qwen3‑32B,以及另一个模型。
Conductor 的任务是设计最多五步的 代理工作流。
基准测试与结果
| 基准 | 分数(Conductor) | 对比 |
|---|---|---|
| 总体平均 | 77.27 % | 新的最先进水平 |
| AIME25(数学) | 93.3 % | 最高报告值 |
| GPQA‑Diamond | 87.5 % | — |
| LiveCodeBench | 83.93 % | — |
效率
- 每题使用的 token 数:
- 基线 MoA:11,203 tokens
- RL Conductor:1,820 tokens(≈ 6× 更少)
- 平均工作流步骤数:3
为什么有效
-
任务难度感知:
- 简单事实查询 → 单步或双代理工作流。
- 复杂编码问题 → 最多四个代理(规划、实现、验证等)。
-
模型强项利用:
- Conductor 学会前沿模型具有 互补优势,并据此分配子任务(例如,用 Claude‑Sonnet‑4 进行推理,用 Gemini 2.5 Pro 进行代码合成)。
要点
- 硬编码的流水线在面对不断变化的查询分布时表现脆弱。
- RL Conductor 展示了一个 小型的、经过强化学习训练的模型 能够 动态编排 异构的 LLM 池,从而实现 更高的准确率 和 显著降低的 token 使用量。
- 该方法为 可扩展、成本效益高的多代理服务(如 Fugu)铺平了道路,超越了手动代理设计的局限。
指挥者驱动的基准成功
为了在编码基准测试中取得创纪录的分数,Conductor 经常指派 Gemini 2.5 Pro 和 Claude Sonnet 4 担任高级规划者,仅在最后阶段才引入 GPT‑5 来编写最终的优化代码。
在一次特别巧妙的适应性展示中,Conductor 有时会 完全放弃自身角色,将整个规划过程交给 Gemini 2.5 Pro,并让它为其余模型池指派子任务。
超越基准 – 企业实用性
“我们一直在内部使用基于 Conductor 技术构建的 Fugu 模型,应用于各种实际企业场景:软件开发、深度研究、战略制定,甚至包括幻灯片生成等视觉任务,”
— Yujin Tang
将编排引入企业:Sakana Fugu
- 研究论文中描述的 7B 模型仅是一个探索性蓝图,未公开发布。
- Sakana AI 已将 Conductor 框架产品化,推出旗舰商业 AI 产品 Sakana Fugu。
当前状态
- Beta 阶段
- 作为 多代理编排系统 提供,支持标准的 OpenAI‑compatible API。
目标市场
“Fugu 面向那些由于当前硬编码流水线的泛化限制而尚未实现显著生产力提升的行业,如金融和国防。”
— Tang
为企业开发者带来的好处
- 无需管理多个 API 密钥或手动在不同供应商之间路由任务,即可无缝集成到现有应用中。
- 在 API 背后,Fugu 自动化复杂的协作拓扑 与 角色分配,在模型池中完成协同工作。
产品变体
| 变体 | 用途 | 关键特性 |
|---|---|---|
| Fugu Mini | 低延迟操作 | 为速度优化,适用于实时使用场景 |
| Fugu Ultra | 在高负载工作中实现最大性能 | 可扩展至重计算负载,适合大规模任务 |
治理与可解释性
- Tang指出,interpretability risks在功能上类似于当前顶级封闭 API 的隐藏推理痕迹。
- 系统通过established guardrails进行管理,以最小化幻觉。
何时使用 RL‑Orchestration 与传统路由
“绝佳的切入点出现在用户及其团队感到他们在指导底层代理上花费了不成比例的时间时,”
— Tang
- 注意: 该框架并非适用于所有场景。
- 经济说明: “对于简单查询来说,直接在用户机器上运行本地模型的经济性难以超越。”
展望未来
- 随着专用开源和闭源 AI 模型的多样性不断增长,静态硬编码的流水线将变得过时。
- 预计动态编排将超越文本和代码。
“的确有巨大的潜力通过跨模态 Conductor 框架来填补这一空白,使其成为更自主、自我协同的物理 AI 系统的基础。”
— Tang