我们评估了13个用于生产的LLM网关。以下是我们的发现

发布: (2025年12月15日 GMT+8 02:35)
5 min read
原文: Dev.to

Source: Dev.to

为什么我们需要它

我们的团队在 Maxim 构建 AI 评估和可观测性工具
我们与运行 生产 AI 系统 的公司合作,反复出现同一个问题:

“我们应该使用哪个 LLM 网关?”

于是我们决定真正去测试它们——而不是仅仅阅读文档或查看 GitHub 星标。
我们在 13 种不同的 LLM 网关 上运行 真实的生产工作负载,并测量实际表现。

Research

我们测试了什么

我们从 五个维度 评估网关:

  • 性能 – 延迟、吞吐量、内存使用
  • 功能 – 路由、缓存、可观测性、故障转移
  • 集成 – 在现有代码中嵌入的难易程度
  • 成本 – 定价模型及隐藏费用
  • 生产就绪度 – 稳定性、监控、企业功能

测试工作负载

  • 持续 500 RPS 流量
  • GPT‑4 与 Claude 请求混合
  • 真实的客户支持查询

结果(实话实说)

Tier 1:大规模生产就绪

1. Bifrost (我们自己开发的——但请听我们解释)

我们构建 Bifrost 是因为没有其他方案能满足我们的规模需求。

优点

  • 在我们的测试中最快(~11 µs 额外开销,5K RPS
  • 内存使用极其稳固(~1.4 GB 在负载下保持不变
  • 语义缓存真正起作用
  • 自适应负载均衡会自动降低性能下降的键的权重
  • 开源(MIT 许可证)

缺点

  • 社区规模小于 LiteLLM
  • 基于 Go(性能好,但对仅使用 Python 的团队来说上手更难)
  • 与老工具相比,提供商集成较少

最适合:高吞吐量生产环境(500+ RPS),优先考虑性能和成本效率的团队

2. Portkey

强大的商业产品,具备完善的企业功能。

优点

  • 出色的可观测性 UI
  • 良好的多提供商支持
  • 可靠性特性(回退、重试)
  • 企业级支持

缺点

  • 随着使用量增长,价格快速上升
  • 平台锁定
  • 相比开源工具有一定的延迟开销

最适合:希望获得全托管解决方案的企业

3. Kong

拥有 LLM 插件的 API 网关巨头。

优点

  • 经过实战检验的基础设施
  • 大量插件生态系统
  • 企业功能(认证、速率限制)
  • 多云支持

缺点

  • 对 LLM 特定工作流的设置较为复杂
  • 如果仅需要 LLM 路由,功能有点过剩
  • 学习曲线陡峭

最适合:已经在使用 Kong 并希望添加 LLM 支持的团队

Tier 2:大多数用例的良好选择

4. LiteLLM

最受欢迎的开源选项。我们在 Bifrost 之前使用过它。

优点

  • 社区庞大
  • 支持几乎所有提供商
  • 对 Python 友好
  • 入门容易

缺点

  • 在约 300 RPS 以上会出现性能问题(我们正是遇到的)
  • 内存使用随时间增长
  • 高负载下 P99 延迟会出现尖峰

最适合:原型开发、低流量应用(P50)

评估标准

  • 总成本(而非标价) – 基础设施 + LLM 使用费 + 工程时间 + 锁定成本。
  • 可观测性 – 能否调试故障、延迟和费用?
  • 可靠性 – 故障转移、速率限制、自动恢复。
  • 迁移路径 – 以后能否离开?能否自托管?

我们的建议

  • 大多数刚起步的团队:先用 LiteLLM → 后期迁移
  • 高速增长的初创公司:从第一天起使用 Bifrost 或 Portkey
  • 企业级用户:Portkey 或 Kong
  • 对成本敏感的团队:Bifrost(开源)或 Helicone(侧重可观测性的方案)
Back to Blog

相关文章

阅读更多 »