切换到 Secondary 更快
发布: (2026年5月2日 GMT+8 14:57)
3 分钟阅读
原文: Dev.to
Source: Dev.to
介绍
在 LLM 工作流的每一步都使用旗舰模型往往不如切换到次要(更小)模型来得快。就像你会在需要快速射击时换用手枪而不是重新装填步枪一样,你可以使用较小的模型来处理模板、规格草稿和初步计划,然后将结果交给更大的模型进行审阅。
为什么更小的模型可能更快
- Prefill 成本:Prefill 通常是一次前向传播(不考虑分块或序列并行等高级技术)。下一个 token 只需执行
model.forward()。 - 速度对比:
- 大模型生成速度:约 50 tokens / 秒。
- 小模型生成速度:约 200 tokens / 秒。
- 示例:
- 提示词:16 k tokens(典型的 Claude Code 会话)。
- 期望输出:另一个 16 k tokens(包括工具调用、读取、编辑)。
- 大模型:16 k / 50 ≈ 320 秒。
- 小模型:16 k / 200 ≈ 80 秒。
因此,小模型可以在四分之一的时间内完成相同的工作。
投机解码类比
现代解码器使用 小的草稿模型 提出多个 token,然后 大的模型 并行验证它们。将次要模型用于第一遍相当于将投机解码扩展到长上下文(例如 16 k tokens)。
实际工作流
-
计划
- 使用小模型以获得速度 或 使用大模型以获得精度。
- 大模型更准确,但在规划阶段会消耗更多 token。
-
审阅
- 将计划交给大模型并修正任何问题。
-
生成代码
- 让小模型实现已完善的规格。
-
再次审阅
- 使用大模型捕捉小模型遗漏的错误。
模型选择
- 小模型:Qwen 3.6 35B MoE – 足够快,可在本地运行,并能产生合理的模板代码。
- 大模型:主要充当审阅者,而不是第一遍生成器。
限制
- 该方法尚未在全新代码库上进行广泛测试。
- 对于真正全新的问题,先自行编写初始代码,然后让小模型处理重复性任务(例如生成测试和模板)效果最佳。
进一步阅读
你可以在我的 博客 上找到这篇文章及更多内容。