JSON Eval 失败：为什么评估会崩溃以及如何修复

发布: 1周前 (2025年12月10日 GMT+8 07:00)

4 min read

原文: Dev.to

Source: Dev.to

Cover image for JSON Eval Failures: Why Evaluations Blow Up and How to Fix Them

RAG 和 agent 系统的评估流水线表面上看起来很简单。

实际上，这是一段工作流中最脆弱的环节。一个字段写错或格式稍有偏差，就可能导致整个评估失去可靠性。本指南解释了 JSON 评估为何会失败，以及如何构建稳健的验证流程以防止静默错误。

1. 为什么 JSON 会导致评估崩溃

LLM 常常生成不完整的结构。字段被重命名。某些样本的对象会变成数组，另一些则保持对象。缺少一个括号就会让整个打分脚本报错。当这种情况发生时，打分步骤变得毫无意义——你测量的不是模型质量，而是格式噪声。

一个稳健的评估流水线需要四个步骤：

我们曾经在一次评估批次中看到准确率骤降，模型似乎在一夜之间退化。检查原始输出后发现，推理过程是正确的，但答案被放在了名为 result 的字段，而不是 answer。由于缺少模式验证，打分脚本直接丢弃了该输出，产生了模型退化的假象。加入一个简单的模式验证步骤后，问题得到了解决。

如果你的评估感觉不稳定，问题往往不在模型，而在 JSON。先进行结构检查和模式验证再打分，你就能每次都得到可预测的评估结果。