[Paper] 利用 LLM-as-a-Judge 在自由文本法律问答中的判决倾向通过 Prompt Optimization

发布: 2天前 (2026年4月23日 GMT+8 00:12)

6 分钟阅读

原文: arXiv

Source: arXiv - 2604.20726v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。）

概述

本文研究了提示大型语言模型（LLM）作为评审者的方式如何显著影响自由文本法律问答系统的质量。通过自动优化提示而非手工编写，作者展示了可以获得更可靠、可迁移的评估——这一洞见对任何构建或基准测试 AI 驱动法律工具的人都具有重要意义。

基准与模型 – 作者使用 LEXam 法律 QA 基准，并评估四个任务模型（不同的生成答案的 LLM）。
评审者 – 两个 LLM 充当“评审者”：Qwen‑3‑32B（宽松反馈）和 DeepSeek‑V3（严格反馈）。每位评审者根据提示对模型的答案进行正确/错误评分。
提示优化（ProTeGi） –
- 从基线任务提示（给评审者的指令）开始。
- 通过改变措辞、格式和示例生成候选提示池。
- 在 LEXam 的 训练子集 上运行每个候选提示，收集评审者的反馈，并计算奖励（例如，与金标准标签的一致性）。
- 使用简单的进化搜索保留得分最高的提示并迭代。
评估 – 优化后，最佳提示在留出的验证集上进行测试。作者还会交换评审者，以观察为一个评审者优化的提示是否对另一个评审者同样有效。

整个过程全自动化；开发者只需提供基准数据并选择评审模型。

场景	基线（human‑crafted）	优化提示（lenient judge）	优化提示（strict judge）
同一 judge，同一 task model	68.2 % accuracy	74.9 % (+6.7)	71.5 % (+3.3)
跨‑judge 转移（lenient→strict）	–	73.1 % (still high)	–
跨‑judge 转移（strict→lenient）	–	–	68.9 % (drop)

Lenient feedback wins: 使用宽松 judge 调优的 prompts 始终带来更大的提升，并且在多次运行中更为稳定。
Better transferability: 一个 lenient‑optimized prompt 在严格 judge 评估时仍保留大部分优势，而相反方向会出现明显下降。
Why? 对生成的 prompts 进行分析表明，lenient judges 鼓励更广泛的标准（例如，“covers the main legal principle”），而 strict judges 推动狭窄、表层匹配，导致对该 judge 的特性过拟合。

自动化提示调优可以取代手动提示工程，用于法律问答评估流水线，为开发团队节省时间。
在优化过程中选择宽松的评审者会产生更稳健的评估脚本，这些脚本可以在以后使用更严格的评审者重复使用，简化多评审者基准设置。
开源提示可以直接嵌入现有流水线（例如 LangChain、LlamaIndex），在不重新训练底层大模型的情况下提升自动化法律答案评分的可靠性。
可推广的经验教训： 在任何将 LLM 用作“评审者”（代码审查、内容审核、事实核查）的领域，首先使用宽松的反馈风格进行提示搜索，以避免对单一评审者过拟合。