切换到 Secondary 更快

发布: (2026年5月2日 GMT+8 14:57)
3 分钟阅读
原文: Dev.to

Source: Dev.to

介绍

在 LLM 工作流的每一步都使用旗舰模型往往不如切换到次要(更小)模型来得快。就像你会在需要快速射击时换用手枪而不是重新装填步枪一样,你可以使用较小的模型来处理模板、规格草稿和初步计划,然后将结果交给更大的模型进行审阅。

为什么更小的模型可能更快

  • Prefill 成本:Prefill 通常是一次前向传播(不考虑分块或序列并行等高级技术)。下一个 token 只需执行 model.forward()
  • 速度对比
    • 大模型生成速度:约 50 tokens / 秒。
    • 小模型生成速度:约 200 tokens / 秒。
  • 示例
    • 提示词:16 k tokens(典型的 Claude Code 会话)。
    • 期望输出:另一个 16 k tokens(包括工具调用、读取、编辑)。
    • 大模型:16 k / 50 ≈ 320 秒。
    • 小模型:16 k / 200 ≈ 80 秒。

因此,小模型可以在四分之一的时间内完成相同的工作。

投机解码类比

现代解码器使用 小的草稿模型 提出多个 token,然后 大的模型 并行验证它们。将次要模型用于第一遍相当于将投机解码扩展到长上下文(例如 16 k tokens)。

实际工作流

  1. 计划

    • 使用小模型以获得速度 使用大模型以获得精度。
    • 大模型更准确,但在规划阶段会消耗更多 token。
  2. 审阅

    • 将计划交给大模型并修正任何问题。
  3. 生成代码

    • 让小模型实现已完善的规格。
  4. 再次审阅

    • 使用大模型捕捉小模型遗漏的错误。

模型选择

  • 小模型Qwen 3.6 35B MoE – 足够快,可在本地运行,并能产生合理的模板代码。
  • 大模型:主要充当审阅者,而不是第一遍生成器。

限制

  • 该方法尚未在全新代码库上进行广泛测试。
  • 对于真正全新的问题,先自行编写初始代码,然后让小模型处理重复性任务(例如生成测试和模板)效果最佳。

进一步阅读

你可以在我的 博客 上找到这篇文章及更多内容。

0 浏览
Back to Blog

相关文章

阅读更多 »

如何在 Python 中使用 Claude API

你有一个 Python 脚本。你希望它能够思考。这就是全部前提。本教程向你展示如何将你的代码连接到 Claude——Anthropic 的 AI 模型——...