Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

Published: 1 day ago (May 3, 2026 at 02:57 AM EDT)

7 min read

Source: Dev.to

Source: Dev.to

Paper

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)

社会課題

データの設計と従来技術の限界

Issue Tree（法的論点ツリー） に変換し、葉ノードに対してルーブリック基準を適用可能にした。
原告・被告・裁判所の主張をツリー構造で整理した約 24,000 インスタンス のデータセットを構築。
評価軸は 「論点カバレッジ」 と 「正確さ」 の 2 次元。

サンプル例

【原告の主張】 被告は540万円を支払え
 └─【原告】 保険金の支払い義務がある
     ├─【原告】 死亡は突発的・偶発的な事故だった
     │   └─【原告】 餅を食べて窒息死＝外因による傷害
     │   └─【被告】 死因は既往症の可能性が高い
     └─【裁判所の結論】 突発的事故と認定
                       ただし窒息死は証明不十分

従来の Rubric（基準リスト）では、依存関係や粒度の違いに起因する「部分的に正しい」問題を解決できず、tree/DAG 構造のタスクには不適切である。

品質

発見

LLM はカバレッジと正確さの両方に弱点を持つ。
RAG はカバレッジを、RL は正確さを改善する。
両者は補完的であり、組み合わせが有効。

Rubric の概要（Sharma2025）

Rubric は複雑タスクを分解した採点基準を定義し、各基準は 明確な基準・期待値・スコア（プラス/マイナス） の形式で表される。

簡単な例

項目	内容
タスク	SNS の特定の記事が持つ社会的影響について全体的な利点・欠点を分析する
基準	なんらかの社会領域に言及しているか？
期待値とスコア	政策への言及がある (+5)

具体的な基準例

基準	スコア
社会の主要領域を少なくとも 5 つ挙げているか（例：精神衛生、対人関係、政治/市民参加、情報エコシステム、経済）	+5（各 1 点、満点 5）
政策や規制への言及があるか（例：Section 230、COPPA、子どものデータ保護法）	+3
証拠となる引用なしに一方的・断定的な表現をしていないか（例：「SNS は精神健康に悪影響を与える」）	–4（ペナルティ）

評価法

評価法	説明
Ternary Evaluation	各基準を「完全に満たした」「部分的に満たした」「満たしていない」のいずれかで判定
Binary Evaluation	各基準が満たされたかどうかのみを判定

従来の自動評価指標との違い

多面的評価項目：事実性・網羅性・根拠の引用・明瞭性など、具体的観点ごとに細かく設計。
明示的な正解・誤りの指標：間違った断定や引用なし回答はペナルティ基準として評価可能。
正確な定量性：各基準に重みを付け、合算で定量評価が可能。
ドメインエキスパートの知識活用：専門家が手作業で作成・レビューすることでビジネスドメイン知識を組み込める。

施策比較

同一ルーブリックをベースに以下 2 つを比較した。

具体例の追加 (Example Detail)：各評価基準に「良い例」「悪い例」を付与。
LLM による拡張 (LLM Augmentation)：LLM を使って評価基準そのものを増やす・書き換える。

評価は LLM の判定と人間評価の一致度（Macro F1） で測定。結果（表 7）では、具体例の追加は一貫して評価精度を改善する一方、LLM による拡張は場合によっては精度が低下した。

LEGIT データセット

LEGIT (LEGal Issue Trees)：約 24,000 件の法律ドメイン事例を含む新データセット。
各事例は裁判判決を階層的な「イシュー・ツリー」に変換し、ノードは当事者の主張や裁判所の結論を表す。

データ分割

学習用：24,406 件中 24,106 件
テスト用：300 件

判決文のツリー構造例

事件
├─ 争点1
│   ├─ 原告の主張
│   ├─ 被告の主張
│   └─ 裁判所の判断
├─ 争点2
│   └─ …
└─ 結論

構築プロセス

Fact Extraction – LLM を用いて判決文から「事実」エンティティを抽出。
Issue Structure Extraction – 事実リストを説明する記述を生成。
Issue‑to‑Rubric Conversion – 抽出した構造をルーブリック基準に変換。

LLM を用いた Issue Tree 生成

手動で用意した 3 例（3‑shot）をプロンプトに使用し、Gemini‑2.0‑Flash に判決文から Issue Tree を生成させた。
2 段階プロセスでエラーを低減：
1. 生の判決文から Issue Tree を生成
2. 別プロンプトで修正し、よく見られる誤りを除去

LLM as a Judge

論点（Issue）をルーブリック基準に変換。
評価時に LLM が各論点を個別に評価：
- カバレッジ：論点が回答中で言及されているか
- 正確性：論点について正しい結論が述べられているか
判断理由を Chain‑of‑Thought として出力。

LEGIT スコア

満点 10 点
- 最終判決の正しさ（5 点）
- 論点の網羅性（最大 2 点）
- 各論点の正しさ（最大 3 点）

最終判決が一致すれば 5 点、非一致なら 0 点が付与され、残りは網羅性と正確性で加点される設計となっている。