[Paper] Legal RAG Bench：面向法律 RAG 的端到端基准

发布: 1天前 (2026年3月2日 GMT+8 18:34)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.01710v1

请提供您希望翻译的具体文本内容（例如摘要、正文或其他段落），我将按照要求保留源链接并将文本翻译成简体中文。

Overview

该论文提出了 Legal RAG Bench，一个全新的端到端基准，用于评估在法律文本上运行的检索增强生成（RAG）系统。通过将维多利亚州刑事指控手册中精选的 4,876 段文本与 100 个专家级问题配对，作者提供了一个真实的测试平台，以衡量检索和推理组件在法律语境中的协同效果。

综合基准：4,876 条带注释的法律段落 + 100 条手工制作、复杂的刑法问题，配有参考的长篇答案和支持性引用。
全因子评估框架：区分检索模型与生成式大语言模型的影响，实现“苹果对苹果”的比较。
层次化错误分解：将失败拆解为检索错误、推理错误和幻觉，揭示错误的真实来源。
实证研究：评估了三种最先进的嵌入检索器（Kanon 2、Gemini Embedding 001、OpenAI Text Embedding 3 Large）和两种前沿大语言模型（Gemini 3.1 Pro、GPT‑5.2）。
开源发布：代码、数据和评估脚本已公开，可用于可重复性研究和社区扩展。

数据集构建 – 从维多利亚州刑事指控册（Victorian Criminal Charge Book）中提取段落，该册是公开可得的法定来源，并编写了 100 条需要综合多个段落和程序性知识的多步骤法律问题。
检索组件 – 使用三个选定模型的密集嵌入对每个段落进行索引。在查询时，检索前 k 条段落（k = 5、10、20）。
生成组件 – 将检索到的段落输入大型语言模型（Gemini 3.1 Pro 或 GPT‑5.2），使用标准的 RAG 提示，要求模型生成长篇答案并引用支持的段落。
全因子设计 – 每个检索器与每个生成器配对，形成六种系统配置。这样可以隔离各组件的贡献。
层次错误分析 – 错误分类为：
- 检索失败（缺少相关段落）
- 推理失败（相关段落存在但答案错误）
- 幻觉（答案包含无支持的主张）。
  人类标注员对 正确性（0‑100）和 依据性（引用覆盖程度）进行评分。

检索器	大语言模型	正确性 ↑	可靠性 ↑	检索准确率 ↑
Kanon 2	Gemini 3.1 Pro	+17.5 分（相较基线）	+4.5 分	+34 分
Gemini Embedding 001	GPT‑5.2	+9.2 分	+2.1 分	+18 分
OpenAI Text Embedding 3 Large	Gemini 3.1 Pro	+6.4 分	+1.8 分	+12 分

检索主导性能：嵌入质量的提升会带来正确性和可靠性最大的跃升。
大语言模型的影响有限：将 Gemini 3.1 Pro 替换为 GPT‑5.2，正确性变化不足 3 分，说明只要检索到正确的段落，当前的大语言模型表现相近。
幻觉往往源于缺失证据：许多“捏造”陈述在检索到正确段落后消失，进一步确认检索决定了性能上限。

优先考虑高质量检索：对于法律科技产品（例如合同分析、案例助手），投资于领域特定的嵌入模型或微调检索器的收益要比追求更大的语言模型更高。
基准驱动开发：Legal RAG Bench 提供了一个现成的测试套件，模拟真实律师查询，使团队能够快速迭代并以可复现的方式衡量进展。
安全与合规：通过揭示检索驱动的幻觉来源，开发者可以实现防护措施（例如“先引用”政策），在支持段落不足时拒绝回答，从而降低提供错误法律建议的风险。
模型选择指南：研究表明，像 Kanon 2 这样的强大嵌入模型配合一个能力足够但不一定是最前沿的语言模型，就能满足许多企业法律场景的需求，从而实现成本效益高的部署。