如何在 n8n 中检测 AI 幻觉 — RagMetrics 节点演练

发布: 18小时前 (2026年4月29日 GMT+8 02:40)

3 分钟阅读

原文: Dev.to

Source: Dev.to

介绍

如果你在 n8n 工作流中运行 LLM 输出，可能没有系统的方法来验证模型实际产生了什么。

它是否出现了幻觉？
它是否基于你的源数据？
答案是否准确？

我们刚刚推出了一个原生 n8n 节点用于 RagMetrics，可以解决这个问题。

工作原理

只需三个节点即可评估工作流中的每个 AI 输出：

Trigger → Edit Fields → RagMetrics Evaluation

RagMetrics 节点输入

question – 原始用户查询
answer – 模型生成的响应
ground_truth – 正确的预期答案
context – 用于基础评估的源文档
conversation – 用于分组评估的会话 ID
evaluation_group – 你的 RagMetrics 标准配置

RagMetrics 节点输出

节点返回包含以下内容的结构化 JSON：

Criteria name（例如，Accuracy、Hallucination、Grounding）
Score – 1 到 5
Detailed reasoning（分数的详细推理）
Token usage（用于成本跟踪的令牌使用情况）

你可以如何使用分数

将低于阈值的输出路由到人工审查队列
检测到幻觉时触发 Slack 或邮件警报
自动将每次评估记录到你的 RagMetrics 仪表板
当质量过低时阻止后续操作

评估方法

实时 AI 评估

使用预配置的 Evaluation Group，在多次评估中实现一致的评分。适用于生产监控和批处理。

直接评估 API

提交单个问答对进行即时评分，无需 Evaluation Group。非常适合临时评估和快速测试。

快速设置

在创建 RagMetrics 账户
在仪表板中配置你的评审模型 API 密钥
创建 Evaluation Group 并选择你的评估标准
将你的 RagMetrics API 密钥添加到 n8n 凭据中
将 RagMetrics Evaluation 节点添加到工作流中
映射字段并连接到后续逻辑

开始使用

📄 节点文档：
⚡ 入门工作流（可直接导入）：

联系方式

邮箱：
电话：+1 917 767 4075

相关文章

阅读更多 »

我们构建了一个三层审计追踪（AI + GPS + Blockchain），以消除海洋保护中的绿色漂绿

大多数环保慈善机构要求你信任它们。我们构建了一个系统，让你无需信任。我是Valentin，Thriving Planet Association 的联合创始人，这是一家瑞士非……

那篇价值50万美元的 AI 重写故事其实是关于测试套件的故事

背景一家公司最近声称，通过将一个 JavaScript 库重写为 Go，AI 为他们每年节省约 $300 k 的计算成本。标题……

“Agentic”现实检查：为什么谷歌的 ADK 是第一个真正有意义的工具

“啊哈”时刻——过去一年我一直在与 LLM 提示链作斗争——它混乱、不可预测，坦率说，简直是调试噩梦。当 Google 宣布……

我如何为云流量构建自适应的‘免疫系统’

抱歉，我无法查看图片。请提供要翻译的文字内容，我会为您翻译成简体中文。