Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics
Source: Dev.to
Paper
Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)
社会課題
データの設計と従来技術の限界
- Issue Tree(法的論点ツリー) に変換し、葉ノードに対してルーブリック基準を適用可能にした。
- 原告・被告・裁判所の主張をツリー構造で整理した約 24,000 インスタンス のデータセットを構築。
- 評価軸は 「論点カバレッジ」 と 「正確さ」 の 2 次元。
サンプル例
【原告の主張】 被告は540万円を支払え
└─【原告】 保険金の支払い義務がある
├─【原告】 死亡は突発的・偶発的な事故だった
│ └─【原告】 餅を食べて窒息死=外因による傷害
│ └─【被告】 死因は既往症の可能性が高い
└─【裁判所の結論】 突発的事故と認定
ただし窒息死は証明不十分
従来の Rubric(基準リスト)では、依存関係や粒度の違いに起因する「部分的に正しい」問題を解決できず、tree/DAG 構造のタスクには不適切である。
品質
発見
- LLM はカバレッジと正確さの両方に弱点を持つ。
- RAG はカバレッジを、RL は正確さを改善する。
- 両者は補完的であり、組み合わせが有効。
Rubric の概要(Sharma2025)
Rubric は複雑タスクを分解した採点基準を定義し、各基準は 明確な基準・期待値・スコア(プラス/マイナス) の形式で表される。
簡単な例
| 項目 | 内容 |
|---|---|
| タスク | SNS の特定の記事が持つ社会的影響について全体的な利点・欠点を分析する |
| 基準 | なんらかの社会領域に言及しているか? |
| 期待値とスコア | 政策への言及がある (+5) |
具体的な基準例
| 基準 | スコア |
|---|---|
| 社会の主要領域を少なくとも 5 つ挙げているか(例:精神衛生、対人関係、政治/市民参加、情報エコシステム、経済) | +5(各 1 点、満点 5) |
| 政策や規制への言及があるか(例:Section 230、COPPA、子どものデータ保護法) | +3 |
| 証拠となる引用なしに一方的・断定的な表現をしていないか(例:「SNS は精神健康に悪影響を与える」) | –4(ペナルティ) |
評価法
| 評価法 | 説明 |
|---|---|
| Ternary Evaluation | 各基準を「完全に満たした」「部分的に満たした」「満たしていない」のいずれかで判定 |
| Binary Evaluation | 各基準が満たされたかどうかのみを判定 |
従来の自動評価指標との違い
- 多面的評価項目:事実性・網羅性・根拠の引用・明瞭性など、具体的観点ごとに細かく設計。
- 明示的な正解・誤りの指標:間違った断定や引用なし回答はペナルティ基準として評価可能。
- 正確な定量性:各基準に重みを付け、合算で定量評価が可能。
- ドメインエキスパートの知識活用:専門家が手作業で作成・レビューすることでビジネスドメイン知識を組み込める。
施策比較
同一ルーブリックをベースに以下 2 つを比較した。
- 具体例の追加 (Example Detail):各評価基準に「良い例」「悪い例」を付与。
- LLM による拡張 (LLM Augmentation):LLM を使って評価基準そのものを増やす・書き換える。
評価は LLM の判定と人間評価の一致度(Macro F1) で測定。結果(表 7)では、具体例の追加は一貫して評価精度を改善する一方、LLM による拡張は場合によっては精度が低下した。
LEGIT データセット
- LEGIT (LEGal Issue Trees):約 24,000 件の法律ドメイン事例を含む新データセット。
- 各事例は裁判判決を階層的な「イシュー・ツリー」に変換し、ノードは当事者の主張や裁判所の結論を表す。
データ分割
- 学習用:24,406 件中 24,106 件
- テスト用:300 件
判決文のツリー構造例
事件
├─ 争点1
│ ├─ 原告の主張
│ ├─ 被告の主張
│ └─ 裁判所の判断
├─ 争点2
│ └─ …
└─ 結論
構築プロセス
- Fact Extraction – LLM を用いて判決文から「事実」エンティティを抽出。
- Issue Structure Extraction – 事実リストを説明する記述を生成。
- Issue‑to‑Rubric Conversion – 抽出した構造をルーブリック基準に変換。
LLM を用いた Issue Tree 生成
- 手動で用意した 3 例(3‑shot)をプロンプトに使用し、Gemini‑2.0‑Flash に判決文から Issue Tree を生成させた。
- 2 段階プロセスでエラーを低減:
- 生の判決文から Issue Tree を生成
- 別プロンプトで修正し、よく見られる誤りを除去
LLM as a Judge
- 論点(Issue)をルーブリック基準に変換。
- 評価時に LLM が各論点を個別に評価:
- カバレッジ:論点が回答中で言及されているか
- 正確性:論点について正しい結論が述べられているか
- 判断理由を Chain‑of‑Thought として出力。
LEGIT スコア
- 満点 10 点
- 最終判決の正しさ(5 点)
- 論点の網羅性(最大 2 点)
- 各論点の正しさ(最大 3 点)
最終判決が一致すれば 5 点、非一致なら 0 点が付与され、残りは網羅性と正確性で加点される設計となっている。