Legal Reasoning Traces와 Legal Issue Tree Rubrics 평가

발행: 1일 전 (2026년 5월 3일 PM 03:57 GMT+9)

8 분 소요

원문: Dev.to

Source: Dev.to

논문

Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)

사회 과제

데이터 설계와 기존 기술의 한계

Issue Tree(법적 논점 트리) 로 변환하고, 잎 노드에 루브릭 기준을 적용할 수 있게 함.
원고·피고·법원의 주장을 트리 구조로 정리한 약 24,000 인스턴스 데이터셋을 구축.
평가 축은 **“논점 커버리지”**와 **“정확성”**의 2차원.

샘플 예시

【원고의 주장】 피고는 540만 엔을 지급하라
 └─【원고】 보험금 지급 의무가 있다
     ├─【원고】 사망은 급작스럽고 우연한 사고였다
     │   └─【원고】 떡을 먹다 질식사 = 외인에 의한 상해
     │   └─【피고】 사망 원인은 기존 질환일 가능성이 높다
     └─【법원의 결론】 급작적 사고로 인정
                       다만 질식사는 증명 부족

기존 Rubric(기준 리스트) 은 의존 관계와 입자성 차이로 인한 “부분적으로 올바른” 문제를 해결하지 못해, tree/DAG 구조의 작업에는 부적합함.

품질

발견

LLM 은 커버리지와 정확성 모두에서 약점을 가짐.
RAG 은 커버리지를, RL 은 정확성을 개선함.
두 접근법은 보완적이며, 결합이 효과적임.

Rubric 개요 (Sharma2025)

Rubric 은 복합 작업을 분해한 채점 기준을 정의하고, 각 기준은 명확한 기준·기대값·점수(플러스/마이너스) 형태로 표현됨.

간단한 예시

항목	내용
작업	SNS 특정 기사에 대한 사회적 영향의 전체적인 장·단점을 분석
기준	어떤 사회 영역에 언급하고 있는가?
기대값과 점수	정책에 대한 언급이 있으면 (+5)

구체적인 기준 예시

기준	점수
사회 주요 영역을 최소 5개 이상 제시했는가 (예: 정신 건강, 대인 관계, 정치/시민 참여, 정보 생태계, 경제)	+5(각 1점, 총점 5)
정책이나 규제에 대한 언급이 있는가 (예: Section 230, COPPA, 아동 데이터 보호법)	+3
증거가 되는 인용 없이 일방적·단정적인 표현을 하지 않았는가 (예: “SNS는 정신 건강에 악영향을 준다”)	–4(패널티)

평가 방법

평가 방법	설명
Ternary Evaluation	각 기준을 “완전히 충족”, “부분적으로 충족”, “충족하지 않음” 중 하나로 판정
Binary Evaluation	각 기준이 충족되었는지만 판정

기존 자동 평가 지표와의 차이점

다면적 평가 항목: 사실성·포괄성·근거 인용·명료성 등 구체적인 관점별로 세밀하게 설계.
명시적인 정답·오답 지표: 잘못된 단정이나 인용 없는 답변을 패널티 기준으로 평가 가능.
정확한 정량성: 각 기준에 가중치를 부여해 합산으로 정량 평가 가능.
도메인 전문가 지식 활용: 전문가가 수작업으로 작성·검토하여 비즈니스 도메인 지식을 포함.

정책 비교

동일 루브릭을 기반으로 다음 두 가지를 비교함.

구체 예시 추가 (Example Detail): 각 평가 기준에 “좋은 예시”“나쁜 예시”를 부여.
LLM에 의한 확장 (LLM Augmentation): LLM을 사용해 평가 기준 자체를 늘리거나 재작성.

평가는 LLM 판정과 인간 평가의 일치도(Macro F1) 로 측정. 결과(표 7)에서는 구체 예시 추가가 일관되게 평가 정확도를 향상시키는 반면, LLM에 의한 확장은 경우에 따라 정확도가 떨어짐.

LEGIT 데이터셋

LEGIT (LEGal Issue Trees): 약 24,000건의 법률 도메인 사례를 포함하는 새로운 데이터셋.
각 사례는 판결문을 계층적인 “이슈 트리”로 변환하고, 노드는 당사자의 주장이나 법원의 결론을 나타냄.

데이터 분할

학습용: 24,406건 중 24,106건
테스트용: 300건

판결문의 트리 구조 예시

사건
├─ 쟁점1
│   ├─ 원고의 주장
│   ├─ 피고의 주장
│   └─ 법원의 판단
├─ 쟁점2
│   └─ …
└─ 결론

구축 과정

Fact Extraction – LLM을 사용해 판결문에서 “사실” 엔티티를 추출.
Issue Structure Extraction – 사실 리스트를 설명하는 서술을 생성.
Issue‑to‑Rubric Conversion – 추출된 구조를 루브릭 기준으로 변환.

LLM을 활용한 Issue Tree 생성

직접 만든 3개의 예시(3‑shot)를 프롬프트에 사용해 Gemini‑2.0‑Flash 로 판결문에서 Issue Tree를 생성하도록 함.
2단계 프로세스로 오류를 감소시킴:
1. 원시 판결문에서 Issue Tree 생성
2. 별도 프롬프트로 수정하고 흔히 발생하는 오류 제거

LLM as a Judge

논점(Issue)을 루브릭 기준으로 변환.
평가 시 LLM이 각 논점을 개별적으로 평가:
- 커버리지: 논점이 답변에 언급되었는가
- 정확성: 논점에 대해 올바른 결론이 제시되었는가
판단 이유를 Chain‑of‑Thought 형태로 출력.

LEGIT 점수

만점 10점
- 최종 판결의 정확성(5점)
- 논점의 포괄성(최대 2점)
- 각 논점의 정확성(최대 3점)

최종 판결이 일치하면 5점, 일치하지 않으면 0점이 부여되고, 나머지는 포괄성과 정확성으로 가산되는 설계임.