Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics

Published: (May 3, 2026 at 02:57 AM EDT)
7 min read
Source: Dev.to

Source: Dev.to

Paper

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)

社会課題

データの設計と従来技術の限界

  • Issue Tree(法的論点ツリー) に変換し、葉ノードに対してルーブリック基準を適用可能にした。
  • 原告・被告・裁判所の主張をツリー構造で整理した約 24,000 インスタンス のデータセットを構築。
  • 評価軸は 「論点カバレッジ」「正確さ」 の 2 次元。

サンプル例

【原告の主張】 被告は540万円を支払え
 └─【原告】 保険金の支払い義務がある
     ├─【原告】 死亡は突発的・偶発的な事故だった
     │   └─【原告】 餅を食べて窒息死=外因による傷害
     │   └─【被告】 死因は既往症の可能性が高い
     └─【裁判所の結論】 突発的事故と認定
                       ただし窒息死は証明不十分

従来の Rubric(基準リスト)では、依存関係や粒度の違いに起因する「部分的に正しい」問題を解決できず、tree/DAG 構造のタスクには不適切である。

品質

発見

  • LLM はカバレッジと正確さの両方に弱点を持つ。
  • RAG はカバレッジを、RL は正確さを改善する。
  • 両者は補完的であり、組み合わせが有効。

Rubric の概要(Sharma2025)

Rubric は複雑タスクを分解した採点基準を定義し、各基準は 明確な基準・期待値・スコア(プラス/マイナス) の形式で表される。

簡単な例

項目内容
タスクSNS の特定の記事が持つ社会的影響について全体的な利点・欠点を分析する
基準なんらかの社会領域に言及しているか?
期待値とスコア政策への言及がある (+5)

具体的な基準例

基準スコア
社会の主要領域を少なくとも 5 つ挙げているか(例:精神衛生、対人関係、政治/市民参加、情報エコシステム、経済)+5(各 1 点、満点 5)
政策や規制への言及があるか(例:Section 230、COPPA、子どものデータ保護法)+3
証拠となる引用なしに一方的・断定的な表現をしていないか(例:「SNS は精神健康に悪影響を与える」)–4(ペナルティ)

評価法

評価法説明
Ternary Evaluation各基準を「完全に満たした」「部分的に満たした」「満たしていない」のいずれかで判定
Binary Evaluation各基準が満たされたかどうかのみを判定

従来の自動評価指標との違い

  • 多面的評価項目:事実性・網羅性・根拠の引用・明瞭性など、具体的観点ごとに細かく設計。
  • 明示的な正解・誤りの指標:間違った断定や引用なし回答はペナルティ基準として評価可能。
  • 正確な定量性:各基準に重みを付け、合算で定量評価が可能。
  • ドメインエキスパートの知識活用:専門家が手作業で作成・レビューすることでビジネスドメイン知識を組み込める。

施策比較

同一ルーブリックをベースに以下 2 つを比較した。

  1. 具体例の追加 (Example Detail):各評価基準に「良い例」「悪い例」を付与。
  2. LLM による拡張 (LLM Augmentation):LLM を使って評価基準そのものを増やす・書き換える。

評価は LLM の判定と人間評価の一致度(Macro F1) で測定。結果(表 7)では、具体例の追加は一貫して評価精度を改善する一方、LLM による拡張は場合によっては精度が低下した。

LEGIT データセット

  • LEGIT (LEGal Issue Trees):約 24,000 件の法律ドメイン事例を含む新データセット。
  • 各事例は裁判判決を階層的な「イシュー・ツリー」に変換し、ノードは当事者の主張や裁判所の結論を表す。

データ分割

  • 学習用:24,406 件中 24,106 件
  • テスト用:300 件

判決文のツリー構造例

事件
├─ 争点1
│   ├─ 原告の主張
│   ├─ 被告の主張
│   └─ 裁判所の判断
├─ 争点2
│   └─ …
└─ 結論

構築プロセス

  1. Fact Extraction – LLM を用いて判決文から「事実」エンティティを抽出。
  2. Issue Structure Extraction – 事実リストを説明する記述を生成。
  3. Issue‑to‑Rubric Conversion – 抽出した構造をルーブリック基準に変換。

LLM を用いた Issue Tree 生成

  • 手動で用意した 3 例(3‑shot)をプロンプトに使用し、Gemini‑2.0‑Flash に判決文から Issue Tree を生成させた。
  • 2 段階プロセスでエラーを低減:
    1. 生の判決文から Issue Tree を生成
    2. 別プロンプトで修正し、よく見られる誤りを除去

LLM as a Judge

  1. 論点(Issue)をルーブリック基準に変換
  2. 評価時に LLM が各論点を個別に評価:
    • カバレッジ:論点が回答中で言及されているか
    • 正確性:論点について正しい結論が述べられているか
  3. 判断理由を Chain‑of‑Thought として出力。

LEGIT スコア

  • 満点 10 点
    • 最終判決の正しさ(5 点)
    • 論点の網羅性(最大 2 点)
    • 各論点の正しさ(最大 3 点)

最終判決が一致すれば 5 点、非一致なら 0 点が付与され、残りは網羅性と正確性で加点される設計となっている。

0 views
Back to Blog

Related posts

Read more »

Claude Moves Fast. Codex Ships.

Summary I gave two big coding tasks to both Claude and Codex. - Claude finished in about one hour. - Codex took about eight hours. At first glance that looks l...