使用 Legal Issue Tree Rubrics 评估法律推理轨迹

发布: (2026年5月3日 GMT+8 14:57)
7 分钟阅读
原文: Dev.to

Source: Dev.to

论文

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)

社会问题

数据设计与传统技术的局限

  • 已将 Issue Tree(法律议题树) 转换,并能够对叶节点应用评分标准(Rubric)。
  • 构建了约 24,000 条实例 的数据集,使用树结构整理原告、被告、法院的主张。
  • 评价维度为 “议题覆盖率”“准确性” 两个维度。

示例

【原告的主张】 被告应支付540万日元
 └─【原告】 有支付保险金的义务
     ├─【原告】 死亡是突发且偶然的事故
     │   └─【原告】 因吃年糕窒息死亡=外因导致的伤害
     │   └─【被告】 死因很可能是既往症
     └─【法院的结论】 认定为突发事故
                       但窒息死亡证据不足

传统的 Rubric(评分标准) 无法解决因依赖关系和粒度差异导致的“部分正确”问题,因而不适用于 tree/DAG 结构的任务。

质量

发现

  • LLM 在覆盖率和准确性两方面均存在弱点。
  • RAG 提升覆盖率,RL 提升准确性。
  • 两者互补,组合使用效果更佳。

Rubric 概要(Sharma2025)

Rubric 定义了将复杂任务拆解为评分标准的方式,每条标准以 明确的准则·期望值·分数(正/负) 的形式呈现。

简单示例

项目内容
任务分析某篇社交媒体文章对社会的整体利弊
标准是否提及了某个社会领域?
期望值与分数提及政策即得 (+5)

具体标准示例

标准分数
至少列出 5 个社会主要领域(如心理健康、人际关系、政治/公民参与、信息生态、经济)+5(每项 1 分,满分 5)
是否提及政策或法规(如 Section 230、COPPA、儿童数据保护法)+3
是否在没有证据引用的情况下使用单方面、断言性的表述(如“社交媒体对心理健康有负面影响”)–4(惩罚)

评价方法

方法说明
三元评价(Ternary Evaluation)对每条标准判定为“完全满足”“部分满足”“不满足”
二元评价(Binary Evaluation)仅判定是否满足标准

与传统自动评价指标的区别

  • 多维评价项:事实性、覆盖性、引用依据、清晰度等,针对具体视角细致设计。
  • 显式的正确/错误指标:错误断言或缺少引用的回答可作为惩罚标准进行评估。
  • 精确的定量性:为每条标准赋予权重,合计后得到定量评分。
  • 利用领域专家知识:由专家手工创建并审阅,使业务领域知识得以嵌入。

措施比较

基于同一套 Rubric 比较以下两种做法。

  1. 添加具体示例 (Example Detail):为每条评价标准附上“好例子”“坏例子”。
  2. LLM 扩展 (LLM Augmentation):使用 LLM 增加或改写评价标准本身。

评价采用 LLM 判定与人工评价的一致性(Macro F1)。结果(表 7)显示,添加具体示例始终提升评价精度,而 LLM 扩展在某些情况下会导致精度下降。

LEGIT 数据集

  • LEGIT(Legal Issue Trees):包含约 24,000 条法律领域案例的新数据集。
  • 每条案例将法院判决转换为层级化的“议题树”,节点表示当事人的主张或法院的结论。

数据划分

  • 训练集:24,406 条中 24,106 条
  • 测试集:300 条

判决文本的树结构示例

案件
├─ 争点1
│   ├─ 原告的主张
│   ├─ 被告的主张
│   └─ 法院的判断
├─ 争点2
│   └─ …
└─ 结论

构建流程

  1. 事实抽取(Fact Extraction) – 使用 LLM 从判决文本中抽取“事实”实体。
  2. 议题结构抽取(Issue Structure Extraction) – 生成描述事实列表的文本。
  3. 议题‑到‑Rubric 转换(Issue‑to‑Rubric Conversion) – 将抽取的结构转换为评分标准。

使用 LLM 生成 Issue Tree

  • 使用手工准备的 3 条示例(3‑shot)作为提示,Gemini‑2.0‑Flash 根据判决文本生成 Issue Tree。
  • 通过两阶段流程降低错误:
    1. 从原始判决文本生成 Issue Tree
    2. 使用另一个提示进行修正,去除常见错误

LLM 作为评审者

  1. 将议题(Issue)转化为 Rubric 标准
  2. 评估时 LLM 对每个议题单独打分:
    • 覆盖率:议题是否在回答中被提及
    • 准确性:议题的结论是否正确
  3. 将判断理由以 Chain‑of‑Thought 形式输出。

LEGIT 评分

  • 满分 10 分
    • 最终判决的正确性(5 分)
    • 议题覆盖率(最高 2 分)
    • 各议题的正确性(最高 3 分)

如果最终判决一致则得 5 分,否则为 0 分,其余分数通过覆盖率和准确性加分。

0 浏览
Back to Blog

相关文章

阅读更多 »

Claude 运行快速。Codex 发布。

摘要:我给 Claude 和 Codex 两个大型编码任务。- Claude 大约在一小时内完成。- Codex 大约用了八小时。乍一看,这看起来像是……