使用 Legal Issue Tree Rubrics 评估法律推理轨迹

发布: 1天前 (2026年5月3日 GMT+8 14:57)

7 分钟阅读

原文: Dev.to

Source: Dev.to

论文

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)

社会问题

数据设计与传统技术的局限

已将 Issue Tree（法律议题树） 转换，并能够对叶节点应用评分标准（Rubric）。
构建了约 24,000 条实例 的数据集，使用树结构整理原告、被告、法院的主张。
评价维度为 “议题覆盖率” 与 “准确性” 两个维度。

示例

【原告的主张】 被告应支付540万日元
 └─【原告】 有支付保险金的义务
     ├─【原告】 死亡是突发且偶然的事故
     │   └─【原告】 因吃年糕窒息死亡＝外因导致的伤害
     │   └─【被告】 死因很可能是既往症
     └─【法院的结论】 认定为突发事故
                       但窒息死亡证据不足

传统的 Rubric（评分标准） 无法解决因依赖关系和粒度差异导致的“部分正确”问题，因而不适用于 tree/DAG 结构的任务。

质量

发现

LLM 在覆盖率和准确性两方面均存在弱点。
RAG 提升覆盖率，RL 提升准确性。
两者互补，组合使用效果更佳。

Rubric 概要（Sharma2025）

Rubric 定义了将复杂任务拆解为评分标准的方式，每条标准以 明确的准则·期望值·分数（正/负） 的形式呈现。

简单示例

项目	内容
任务	分析某篇社交媒体文章对社会的整体利弊
标准	是否提及了某个社会领域？
期望值与分数	提及政策即得 (+5)

具体标准示例

标准	分数
至少列出 5 个社会主要领域（如心理健康、人际关系、政治/公民参与、信息生态、经济）	+5（每项 1 分，满分 5）
是否提及政策或法规（如 Section 230、COPPA、儿童数据保护法）	+3
是否在没有证据引用的情况下使用单方面、断言性的表述（如“社交媒体对心理健康有负面影响”）	–4（惩罚）

评价方法

方法	说明
三元评价（Ternary Evaluation）	对每条标准判定为“完全满足”“部分满足”“不满足”
二元评价（Binary Evaluation）	仅判定是否满足标准

与传统自动评价指标的区别

多维评价项：事实性、覆盖性、引用依据、清晰度等，针对具体视角细致设计。
显式的正确/错误指标：错误断言或缺少引用的回答可作为惩罚标准进行评估。
精确的定量性：为每条标准赋予权重，合计后得到定量评分。
利用领域专家知识：由专家手工创建并审阅，使业务领域知识得以嵌入。

措施比较

基于同一套 Rubric 比较以下两种做法。

添加具体示例 (Example Detail)：为每条评价标准附上“好例子”“坏例子”。
LLM 扩展 (LLM Augmentation)：使用 LLM 增加或改写评价标准本身。

评价采用 LLM 判定与人工评价的一致性（Macro F1）。结果（表 7）显示，添加具体示例始终提升评价精度，而 LLM 扩展在某些情况下会导致精度下降。

LEGIT 数据集

LEGIT（Legal Issue Trees）：包含约 24,000 条法律领域案例的新数据集。
每条案例将法院判决转换为层级化的“议题树”，节点表示当事人的主张或法院的结论。

数据划分

训练集：24,406 条中 24,106 条
测试集：300 条

判决文本的树结构示例

案件
├─ 争点1
│   ├─ 原告的主张
│   ├─ 被告的主张
│   └─ 法院的判断
├─ 争点2
│   └─ …
└─ 结论

构建流程

事实抽取（Fact Extraction） – 使用 LLM 从判决文本中抽取“事实”实体。
议题结构抽取（Issue Structure Extraction） – 生成描述事实列表的文本。
议题‑到‑Rubric 转换（Issue‑to‑Rubric Conversion） – 将抽取的结构转换为评分标准。

使用 LLM 生成 Issue Tree

使用手工准备的 3 条示例（3‑shot）作为提示，Gemini‑2.0‑Flash 根据判决文本生成 Issue Tree。
通过两阶段流程降低错误：
1. 从原始判决文本生成 Issue Tree
2. 使用另一个提示进行修正，去除常见错误

LLM 作为评审者

将议题（Issue）转化为 Rubric 标准。
评估时 LLM 对每个议题单独打分：
- 覆盖率：议题是否在回答中被提及
- 准确性：议题的结论是否正确
将判断理由以 Chain‑of‑Thought 形式输出。

LEGIT 评分

满分 10 分
- 最终判决的正确性（5 分）
- 议题覆盖率（最高 2 分）
- 各议题的正确性（最高 3 分）

如果最终判决一致则得 5 分，否则为 0 分，其余分数通过覆盖率和准确性加分。