我们评估了13个用于生产的LLM网关。以下是我们的发现

发布: 4天前 (2025年12月15日 GMT+8 02:35)

5 min read

原文: Dev.to

Source: Dev.to

为什么我们需要它

我们的团队在 Maxim 构建 AI 评估和可观测性工具。
我们与运行 生产 AI 系统 的公司合作，反复出现同一个问题：

“我们应该使用哪个 LLM 网关？”

于是我们决定真正去测试它们——而不是仅仅阅读文档或查看 GitHub 星标。
我们在 13 种不同的 LLM 网关 上运行 真实的生产工作负载，并测量实际表现。

我们测试了什么

我们从 五个维度 评估网关：

性能 – 延迟、吞吐量、内存使用
功能 – 路由、缓存、可观测性、故障转移
集成 – 在现有代码中嵌入的难易程度
成本 – 定价模型及隐藏费用
生产就绪度 – 稳定性、监控、企业功能

测试工作负载

持续 500 RPS 流量
GPT‑4 与 Claude 请求混合
真实的客户支持查询

结果（实话实说）

Tier 1：大规模生产就绪

1. Bifrost (我们自己开发的——但请听我们解释)

我们构建 Bifrost 是因为没有其他方案能满足我们的规模需求。

优点

在我们的测试中最快（~11 µs 额外开销，5K RPS）
内存使用极其稳固（~1.4 GB 在负载下保持不变）
语义缓存真正起作用
自适应负载均衡会自动降低性能下降的键的权重
开源（MIT 许可证）

缺点

社区规模小于 LiteLLM
基于 Go（性能好，但对仅使用 Python 的团队来说上手更难）
与老工具相比，提供商集成较少

最适合：高吞吐量生产环境（500+ RPS），优先考虑性能和成本效率的团队

2. Portkey

强大的商业产品，具备完善的企业功能。

优点

出色的可观测性 UI
良好的多提供商支持
可靠性特性（回退、重试）
企业级支持

缺点

随着使用量增长，价格快速上升
平台锁定
相比开源工具有一定的延迟开销

最适合：希望获得全托管解决方案的企业

3. Kong

拥有 LLM 插件的 API 网关巨头。

优点

经过实战检验的基础设施
大量插件生态系统
企业功能（认证、速率限制）
多云支持

缺点

对 LLM 特定工作流的设置较为复杂
如果仅需要 LLM 路由，功能有点过剩
学习曲线陡峭

最适合：已经在使用 Kong 并希望添加 LLM 支持的团队

Tier 2：大多数用例的良好选择

4. LiteLLM

最受欢迎的开源选项。我们在 Bifrost 之前使用过它。

优点

社区庞大
支持几乎所有提供商
对 Python 友好
入门容易

缺点

在约 300 RPS 以上会出现性能问题（我们正是遇到的）
内存使用随时间增长
高负载下 P99 延迟会出现尖峰

最适合：原型开发、低流量应用（P50）

评估标准

总成本（而非标价） – 基础设施 + LLM 使用费 + 工程时间 + 锁定成本。
可观测性 – 能否调试故障、延迟和费用？
可靠性 – 故障转移、速率限制、自动恢复。
迁移路径 – 以后能否离开？能否自托管？

我们的建议

大多数刚起步的团队：先用 LiteLLM → 后期迁移
高速增长的初创公司：从第一天起使用 Bifrost 或 Portkey
企业级用户：Portkey 或 Kong
对成本敏感的团队：Bifrost（开源）或 Helicone（侧重可观测性的方案）

我们评估了13个用于生产的LLM网关。以下是我们的发现

为什么我们需要它

我们测试了什么

结果（实话实说）

Tier 1：大规模生产就绪

1. Bifrost (我们自己开发的——但请听我们解释)

2. Portkey

3. Kong

Tier 2：大多数用例的良好选择

4. LiteLLM

评估标准

我们的建议

相关文章

我们发现我们的网站在新加坡很慢，但在欧洲却很完美——原因如下

我把Game Boy放进ChatGPT（ChatGPT Apps）

使用 Microsoft Planner 的营销经理的一天

spaceorbust – 终端RPG，GitHub提交驱动太空文明

为什么我们需要它

我们测试了什么

结果（实话实说）

Tier 1：大规模生产就绪

1. Bifrost (我们自己开发的——但请听我们解释)

2. Portkey

3. Kong

Tier 2：大多数用例的良好选择

4. LiteLLM

评估标准

我们的建议

相关文章

我们发现我们的网站在新加坡很慢，但在欧洲却很完美——原因如下

我把Game Boy放进ChatGPT（ChatGPT Apps）

使用 Microsoft Planner 的营销经理的一天

spaceorbust – 终端RPG，GitHub提交驱动太空文明

Tier 1：大规模生产就绪

Tier 2：大多数用例的良好选择