如何在 n8n 中检测 AI 幻觉 — RagMetrics 节点演练
发布: (2026年4月29日 GMT+8 02:40)
3 分钟阅读
原文: Dev.to
Source: Dev.to
介绍
如果你在 n8n 工作流中运行 LLM 输出,可能没有系统的方法来验证模型实际产生了什么。
- 它是否出现了幻觉?
- 它是否基于你的源数据?
- 答案是否准确?
我们刚刚推出了一个原生 n8n 节点用于 RagMetrics,可以解决这个问题。
工作原理
只需三个节点即可评估工作流中的每个 AI 输出:
Trigger → Edit Fields → RagMetrics Evaluation
RagMetrics 节点输入
- question – 原始用户查询
- answer – 模型生成的响应
- ground_truth – 正确的预期答案
- context – 用于基础评估的源文档
- conversation – 用于分组评估的会话 ID
- evaluation_group – 你的 RagMetrics 标准配置
RagMetrics 节点输出
节点返回包含以下内容的结构化 JSON:
- Criteria name(例如,Accuracy、Hallucination、Grounding)
- Score – 1 到 5
- Detailed reasoning(分数的详细推理)
- Token usage(用于成本跟踪的令牌使用情况)
你可以如何使用分数
- 将低于阈值的输出路由到人工审查队列
- 检测到幻觉时触发 Slack 或邮件警报
- 自动将每次评估记录到你的 RagMetrics 仪表板
- 当质量过低时阻止后续操作
评估方法
实时 AI 评估
使用预配置的 Evaluation Group,在多次评估中实现一致的评分。适用于生产监控和批处理。
直接评估 API
提交单个问答对进行即时评分,无需 Evaluation Group。非常适合临时评估和快速测试。
快速设置
- 在 创建 RagMetrics 账户
- 在仪表板中配置你的评审模型 API 密钥
- 创建 Evaluation Group 并选择你的评估标准
- 将你的 RagMetrics API 密钥添加到 n8n 凭据中
- 将 RagMetrics Evaluation 节点添加到工作流中
- 映射字段并连接到后续逻辑
开始使用
- 📄 节点文档:
- ⚡ 入门工作流(可直接导入):
联系方式
- 邮箱:
- 电话:+1 917 767 4075