使用 Legal Issue Tree Rubrics 评估法律推理轨迹
发布: (2026年5月3日 GMT+8 14:57)
7 分钟阅读
原文: Dev.to
Source: Dev.to
论文
Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)
社会问题
数据设计与传统技术的局限
- 已将 Issue Tree(法律议题树) 转换,并能够对叶节点应用评分标准(Rubric)。
- 构建了约 24,000 条实例 的数据集,使用树结构整理原告、被告、法院的主张。
- 评价维度为 “议题覆盖率” 与 “准确性” 两个维度。
示例
【原告的主张】 被告应支付540万日元
└─【原告】 有支付保险金的义务
├─【原告】 死亡是突发且偶然的事故
│ └─【原告】 因吃年糕窒息死亡=外因导致的伤害
│ └─【被告】 死因很可能是既往症
└─【法院的结论】 认定为突发事故
但窒息死亡证据不足
传统的 Rubric(评分标准) 无法解决因依赖关系和粒度差异导致的“部分正确”问题,因而不适用于 tree/DAG 结构的任务。
质量
发现
- LLM 在覆盖率和准确性两方面均存在弱点。
- RAG 提升覆盖率,RL 提升准确性。
- 两者互补,组合使用效果更佳。
Rubric 概要(Sharma2025)
Rubric 定义了将复杂任务拆解为评分标准的方式,每条标准以 明确的准则·期望值·分数(正/负) 的形式呈现。
简单示例
| 项目 | 内容 |
|---|---|
| 任务 | 分析某篇社交媒体文章对社会的整体利弊 |
| 标准 | 是否提及了某个社会领域? |
| 期望值与分数 | 提及政策即得 (+5) |
具体标准示例
| 标准 | 分数 |
|---|---|
| 至少列出 5 个社会主要领域(如心理健康、人际关系、政治/公民参与、信息生态、经济) | +5(每项 1 分,满分 5) |
| 是否提及政策或法规(如 Section 230、COPPA、儿童数据保护法) | +3 |
| 是否在没有证据引用的情况下使用单方面、断言性的表述(如“社交媒体对心理健康有负面影响”) | –4(惩罚) |
评价方法
| 方法 | 说明 |
|---|---|
| 三元评价(Ternary Evaluation) | 对每条标准判定为“完全满足”“部分满足”“不满足” |
| 二元评价(Binary Evaluation) | 仅判定是否满足标准 |
与传统自动评价指标的区别
- 多维评价项:事实性、覆盖性、引用依据、清晰度等,针对具体视角细致设计。
- 显式的正确/错误指标:错误断言或缺少引用的回答可作为惩罚标准进行评估。
- 精确的定量性:为每条标准赋予权重,合计后得到定量评分。
- 利用领域专家知识:由专家手工创建并审阅,使业务领域知识得以嵌入。
措施比较
基于同一套 Rubric 比较以下两种做法。
- 添加具体示例 (Example Detail):为每条评价标准附上“好例子”“坏例子”。
- LLM 扩展 (LLM Augmentation):使用 LLM 增加或改写评价标准本身。
评价采用 LLM 判定与人工评价的一致性(Macro F1)。结果(表 7)显示,添加具体示例始终提升评价精度,而 LLM 扩展在某些情况下会导致精度下降。
LEGIT 数据集
- LEGIT(Legal Issue Trees):包含约 24,000 条法律领域案例的新数据集。
- 每条案例将法院判决转换为层级化的“议题树”,节点表示当事人的主张或法院的结论。
数据划分
- 训练集:24,406 条中 24,106 条
- 测试集:300 条
判决文本的树结构示例
案件
├─ 争点1
│ ├─ 原告的主张
│ ├─ 被告的主张
│ └─ 法院的判断
├─ 争点2
│ └─ …
└─ 结论
构建流程
- 事实抽取(Fact Extraction) – 使用 LLM 从判决文本中抽取“事实”实体。
- 议题结构抽取(Issue Structure Extraction) – 生成描述事实列表的文本。
- 议题‑到‑Rubric 转换(Issue‑to‑Rubric Conversion) – 将抽取的结构转换为评分标准。
使用 LLM 生成 Issue Tree
- 使用手工准备的 3 条示例(3‑shot)作为提示,Gemini‑2.0‑Flash 根据判决文本生成 Issue Tree。
- 通过两阶段流程降低错误:
- 从原始判决文本生成 Issue Tree
- 使用另一个提示进行修正,去除常见错误
LLM 作为评审者
- 将议题(Issue)转化为 Rubric 标准。
- 评估时 LLM 对每个议题单独打分:
- 覆盖率:议题是否在回答中被提及
- 准确性:议题的结论是否正确
- 将判断理由以 Chain‑of‑Thought 形式输出。
LEGIT 评分
- 满分 10 分
- 最终判决的正确性(5 分)
- 议题覆盖率(最高 2 分)
- 各议题的正确性(最高 3 分)
如果最终判决一致则得 5 分,否则为 0 分,其余分数通过覆盖率和准确性加分。