[Paper] Legal RAG Bench:面向法律 RAG 的端到端基准
发布: (2026年3月2日 GMT+8 18:34)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.01710v1
请提供您希望翻译的具体文本内容(例如摘要、正文或其他段落),我将按照要求保留源链接并将文本翻译成简体中文。
Overview
该论文提出了 Legal RAG Bench,一个全新的端到端基准,用于评估在法律文本上运行的检索增强生成(RAG)系统。通过将维多利亚州刑事指控手册中精选的 4,876 段文本与 100 个专家级问题配对,作者提供了一个真实的测试平台,以衡量检索和推理组件在法律语境中的协同效果。
关键贡献
- 综合基准:4,876 条带注释的法律段落 + 100 条手工制作、复杂的刑法问题,配有参考的长篇答案和支持性引用。
- 全因子评估框架:区分检索模型与生成式大语言模型的影响,实现“苹果对苹果”的比较。
- 层次化错误分解:将失败拆解为检索错误、推理错误和幻觉,揭示错误的真实来源。
- 实证研究:评估了三种最先进的嵌入检索器(Kanon 2、Gemini Embedding 001、OpenAI Text Embedding 3 Large)和两种前沿大语言模型(Gemini 3.1 Pro、GPT‑5.2)。
- 开源发布:代码、数据和评估脚本已公开,可用于可重复性研究和社区扩展。
方法论
- 数据集构建 – 从维多利亚州刑事指控册(Victorian Criminal Charge Book)中提取段落,该册是公开可得的法定来源,并编写了 100 条需要综合多个段落和程序性知识的多步骤法律问题。
- 检索组件 – 使用三个选定模型的密集嵌入对每个段落进行索引。在查询时,检索前 k 条段落(k = 5、10、20)。
- 生成组件 – 将检索到的段落输入大型语言模型(Gemini 3.1 Pro 或 GPT‑5.2),使用标准的 RAG 提示,要求模型生成长篇答案并引用支持的段落。
- 全因子设计 – 每个检索器与每个生成器配对,形成六种系统配置。这样可以隔离各组件的贡献。
- 层次错误分析 – 错误分类为:
- 检索失败(缺少相关段落)
- 推理失败(相关段落存在但答案错误)
- 幻觉(答案包含无支持的主张)。
人类标注员对 正确性(0‑100)和 依据性(引用覆盖程度)进行评分。
结果与发现
| 检索器 | 大语言模型 | 正确性 ↑ | 可靠性 ↑ | 检索准确率 ↑ |
|---|---|---|---|---|
| Kanon 2 | Gemini 3.1 Pro | +17.5 分(相较基线) | +4.5 分 | +34 分 |
| Gemini Embedding 001 | GPT‑5.2 | +9.2 分 | +2.1 分 | +18 分 |
| OpenAI Text Embedding 3 Large | Gemini 3.1 Pro | +6.4 分 | +1.8 分 | +12 分 |
- 检索主导性能:嵌入质量的提升会带来正确性和可靠性最大的跃升。
- 大语言模型的影响有限:将 Gemini 3.1 Pro 替换为 GPT‑5.2,正确性变化不足 3 分,说明只要检索到正确的段落,当前的大语言模型表现相近。
- 幻觉往往源于缺失证据:许多“捏造”陈述在检索到正确段落后消失,进一步确认检索决定了性能上限。
实际意义
- 优先考虑高质量检索:对于法律科技产品(例如合同分析、案例助手),投资于领域特定的嵌入模型或微调检索器的收益要比追求更大的语言模型更高。
- 基准驱动开发:Legal RAG Bench 提供了一个现成的测试套件,模拟真实律师查询,使团队能够快速迭代并以可复现的方式衡量进展。
- 安全与合规:通过揭示检索驱动的幻觉来源,开发者可以实现防护措施(例如“先引用”政策),在支持段落不足时拒绝回答,从而降低提供错误法律建议的风险。
- 模型选择指南:研究表明,像 Kanon 2 这样的强大嵌入模型配合一个能力足够但不一定是最前沿的语言模型,就能满足许多企业法律场景的需求,从而实现成本效益高的部署。
限制与未来工作
- 特定司法管辖范围:该基准围绕维多利亚州(澳大利亚)刑法构建,因而研究结果可能无法直接迁移到其他法律体系或民法领域。
- 问题多样性:仅有 100 道手工制作的问题;扩展题目数量并覆盖更多实践领域(例如公司法、知识产权)将提升通用性。
- 静态段落收集:基准未模拟法规或判例的更新,这在实际系统中是一个现实挑战。
- 作者提出的未来方向包括:将基准扩展到多司法管辖语料库,探索稀疏 + 密集混合检索策略,以及在生成阶段整合工具使用(如计算器、文献管理器)。
作者
- Abdur-Rahman Butler
- Umar Butler
论文信息
- arXiv ID: 2603.01710v1
- 分类: cs.CL, cs.IR, cs.LG
- 出版时间: 2026年3月2日
- PDF: 下载 PDF