Promptfoo 退出后 AI Agent 评估工具前5名
Source: Dev.to
请提供您希望翻译的具体文本内容,我将按照要求保留源链接、格式和技术术语,仅翻译正文部分。谢谢!
TL;DR
- DeepEval – 基于 pytest 的开源评估工具。
- Braintrust – 完整生命周期评估,配合 CI/CD 质量门。
- Arize Phoenix – 中立厂商的自托管追踪与评估。
- LangSmith – 完全依赖 LangChain。
- Comet Opik – 为预算敏感的团队提供高吞吐量追踪。
在 3 月 9 日,OpenAI 以 8600 万美元 收购了 Promptfoo。Promptfoo 是使用最广泛的开源 LLM 评估和红队 CLI(拥有 10.8k GitHub 星标),被数千个团队用于测试提示、模型输出以及跨所有主要供应商的代理行为。
此收购立即引发了一个问题:对使用非 OpenAI 模型的用户来说,**Promptfoo 能否保持厂商中立?**团队表示会,但激励结构暗示可能不会。
无论你是在 Nebula、LangGraph、CrewAI 上运行代理,还是使用自己的框架,评估工具都是不可或缺的。调用工具、做出决策并与生产系统交互的代理需要自动化测试,以在用户发现问题之前捕获故障。
以下是 五个独立的替代方案——均不归任何模型供应商所有。
Comparison Table
| 功能 | DeepEval | Braintrust | Arize Phoenix | LangSmith | Comet Opik |
|---|---|---|---|---|---|
| 类型 | OSS 框架 | 托管平台 | OSS + 云 | 云 + 自托管 | OSS + 云 |
| 代理指标 | 6(DAG,工具调用) | 自定义 + 8 RAG | 专用评估器 | 步骤级评分 | 代理优化器 |
| CI/CD 集成 | 原生 pytest | GitHub Actions 门禁 | 通过 API | 通过 API | 通过 API |
| 生产监控 | 否(仅评估) | 是(追踪 + 评分) | 是(OTel 追踪) | 是(追踪) | 是(每日 40 M) |
| 自托管选项 | OSS 本地 | 仅企业版 | 免费,无功能门禁 | 企业层 | Apache 2.0 |
| 框架支持 | Python 优先 | 25+ 集成 | 通过 OTel 的 15+ | LangChain 原生 | LangChain、OpenAI、自定义 |
| 定价 | 免费 OSS / $19.99 /用户 | 免费 1 M 跨度 / $249 /每月 | 免费自托管 / $50 /每月 | $39/座位 /每月 | 免费 / $19 /每月 |
DeepEval
DeepEval 是一个 Python 原生评估框架,在 pytest 中运行。如果你的团队已经使用 pytest 编写测试,DeepEval 可以直接嵌入,无需更改工作流。定义指标、编写测试用例,并与现有测试套件一起运行。
- 指标库:>50 个指标,包括 6 个针对 DAG 评估、工具调用正确性和多步骤推理的代理专用指标。
- 社区:13.9 k GitHub 星,活跃度高,持续开发。
优势
- 与 pytest 集成 → 对 Python 团队零采纳摩擦。
- 像编写单元测试一样编写评估测试。
- CI/CD 集成免费 – 只需将 DeepEval 测试加入现有流水线。
劣势
- 仅限 Python。
- 除非付费使用 Confident AI($19.99 / 用户 / 月),否则没有持久化仪表盘。
- 仅用于评估 – 不提供生产环境追踪或监控;需要另行工具实现运行时可观测性。
适用对象
希望 开源评估 直接集成到测试套件和 CI 流水线中的 Python 团队。
定价
- 免费(开源)。
- Confident AI 仪表盘:$19.99 每用户 / 月。
Braintrust
Braintrust 超越了评估,涵盖 完整生命周期:提示管理、评估打分、CI/CD 质量门、生产追踪,以及 Loop AI 功能,可自动化提示优化。
- CI/CD 质量门:定义最低分数阈值;Braintrust 会阻止未通过的部署。
- 客户:Stripe、Notion 以及其他生产密集型团队。
- 集成:25+ 框架。
优势
- 本列表中唯一在单一平台上同时覆盖 评估、生产监控和自动化提示优化 的工具。
- 与 GitHub Actions 的集成将评估从手动步骤转变为自动化安全网。
劣势
- Pro 计划 每月 $249,是本列表中最贵的选项。
- 免费层(1 M 日志跨度)对原型开发慷慨,但生产团队很快会超出。
- 自托管仅限 企业版。
适用场景
需要 单一平台 来管理从评估到生产全流程,并且有相应预算的团队。
定价
- 免费层:1 M 日志跨度。
- Pro:$249 /月。
- 企业版:需咨询报价。
Source: …
Arize Phoenix
Arize Phoenix 基于 OpenTelemetry 构建,因此可以很好地与您已经使用的任何可观测性堆栈配合。自托管版本 完全免费,没有功能限制——无论是否付费,您都能获得相同的能力。
- 专用代理评估器:工具调用准确性、检索质量、响应忠实度。
- 嵌入可视化:发现聚类问题和随时间的漂移。
- 背靠 7000 万美元的 C 轮融资;已被 Uber 和 Booking.com 使用。
优势
- 最真正的 供应商中立 选项。
- OTel 原生 → 跟踪可移植;无锁定。
- 自托管是一等功能,而非企业版附加。
- 适合数据驻留或合规性要求。
劣势
- 评估能力 不如 DeepEval 的指标库专门化。
- 起初是观测工具;针对评估的特性(自定义指标、断言框架)不如专为评估构建的工具成熟。
适用场景
需要 自托管、供应商中立的跟踪和评估 的团队,尤其是已有 OTel 基础设施或有严格合规需求的团队。
定价
- 免费自托管(无功能门槛)。
- Arize Cloud:起价 $50 / 月。
LangSmith
LangSmith 是由 LangChain 团队构建的评估与可观测性平台。如果你在使用 LangGraph 构建代理,LangSmith 为你提供最深度的集成:多轮代理评估、图中每个节点的步骤级评分,以及 400 天追踪保留。
- 数据集管理与标注:强大的功能,可从生产追踪中构建评估数据集。
优势
- 与 LangGraph 和 LangChain 的集成深度无可匹敌。
- 在 无需额外仪器代码 的情况下,提供对每一步、工具调用和决策点的可视化。
劣势
- 生态系统锁定——最佳(有时唯一)在基于 LangChain 的代理上使用。
- $39/座位 / 月 的定价对较大团队来说可能累积成本。
适用对象
已经使用 LangGraph 或 LangChain 构建的团队,想要最紧密的评估和可观测性集成。
定价
- 开发者计划:免费
- 专业计划:$39 / 座位 / 月
- 企业版:需咨询
Comet Opik
标语: “最新的入场者,以价格和规模为定位。”
- 关键特性:
- Agent Optimizer – 六种优化算法会根据评估结果自动改进提示和配置。
- 支持 每日最高 40 M 条追踪记录,非常适合高吞吐量的流水线。
- Apache 2.0 许可证 → 可自行托管且无限制。
优势
- 列表中 性价比最高。
- 自动化提示调优实现了 “低分” 与 “更佳提示” 之间的闭环。
劣势
- 平台较新 → 企业采纳度较低,社区规模较小。
- Agent Optimizer 仍处于早期阶段;不同使用场景下结果可能有所差异。
适用对象
- 对预算敏感、需要大规模生产级追踪与评估的团队。
- 想要使用许可宽松、可自行托管解决方案的团队。
定价
- 免费层 可用
- 付费计划:起价 $19 / 月
决策框架
| 问题 | 推荐工具 |
|---|---|
| 您是只需要评估,还是评估 + 生产监控? | - 仅评估: DeepEval(最轻量) - 两者皆需: Braintrust 或 Arize Phoenix(全栈) |
| 是否需要自行托管? | - Arize Phoenix(免费,无功能门控) - Comet Opik(Apache 2.0) |
| 您使用的是哪个框架? | - LangChain → LangSmith - 其他 → DeepEval(专注评估)或 Braintrust(完整生命周期) |
快速决策树
- 开源 + Python? → DeepEval
- 完整生命周期 + CI/CD 门控? → Braintrust
- 供应商中立 + 自托管? → Arize Phoenix
- LangChain 生态系统? → LangSmith
- 预算有限 + 高流量? → Comet Opik
战略要点
Promptfoo 收购提醒我们不要在关键基础设施上依赖单一供应商。今天使用的评估工具,明天可能会变成你的模型提供商、托管平台或向量数据库。
列出的五款工具要么是独立公司,要么是开源项目,因此你的评估基础设施应能够在任何单一收购事件后仍然正常运行。
按使用场景的推荐
- 已经在为代理编写 pytest 测试? → DeepEval 是最快的路径;只需一个下午即可在现有测试套件中加入评估指标。
- 需要完整的平台(评估 + 监控 + CI/CD 质量门)? → Braintrust 最为成熟。
- 必须自行托管? → Arize Phoenix 免费提供全部功能。
选定其中一款,开始测试,避免出现“代理缺乏评估覆盖”的风险。
进一步阅读
- 如何使用 Pytest 测试 AI 代理工具调用 – 深入代码层面的测试。
- 2026 年前 5 大 AI 代理框架 – 查看哪些框架与每个评估工具最匹配。
- AI 代理的前 5 大代码沙箱 – 探索你的代理实际运行的环境。