切换到 Secondary 更快

发布: 2天前 (2026年5月2日 GMT+8 14:57)

3 分钟阅读

原文: Dev.to

Source: Dev.to

介绍

在 LLM 工作流的每一步都使用旗舰模型往往不如切换到次要（更小）模型来得快。就像你会在需要快速射击时换用手枪而不是重新装填步枪一样，你可以使用较小的模型来处理模板、规格草稿和初步计划，然后将结果交给更大的模型进行审阅。

Prefill 成本：Prefill 通常是一次前向传播（不考虑分块或序列并行等高级技术）。下一个 token 只需执行 model.forward()。
速度对比：
- 大模型生成速度：约 50 tokens / 秒。
- 小模型生成速度：约 200 tokens / 秒。
示例：
- 提示词：16 k tokens（典型的 Claude Code 会话）。
- 期望输出：另一个 16 k tokens（包括工具调用、读取、编辑）。
- 大模型：16 k / 50 ≈ 320 秒。
- 小模型：16 k / 200 ≈ 80 秒。

因此，小模型可以在四分之一的时间内完成相同的工作。

现代解码器使用 小的草稿模型 提出多个 token，然后 大的模型 并行验证它们。将次要模型用于第一遍相当于将投机解码扩展到长上下文（例如 16 k tokens）。

你可以在我的博客上找到这篇文章及更多内容。