Legal Reasoning Traces와 Legal Issue Tree Rubrics 평가
Source: Dev.to
논문
Evaluating Legal Reasoning Traces with Legal Issue Tree Rubrics (arXiv)
사회 과제
데이터 설계와 기존 기술의 한계
- Issue Tree(법적 논점 트리) 로 변환하고, 잎 노드에 루브릭 기준을 적용할 수 있게 함.
- 원고·피고·법원의 주장을 트리 구조로 정리한 약 24,000 인스턴스 데이터셋을 구축.
- 평가 축은 **“논점 커버리지”**와 **“정확성”**의 2차원.
샘플 예시
【원고의 주장】 피고는 540만 엔을 지급하라
└─【원고】 보험금 지급 의무가 있다
├─【원고】 사망은 급작스럽고 우연한 사고였다
│ └─【원고】 떡을 먹다 질식사 = 외인에 의한 상해
│ └─【피고】 사망 원인은 기존 질환일 가능성이 높다
└─【법원의 결론】 급작적 사고로 인정
다만 질식사는 증명 부족
기존 Rubric(기준 리스트) 은 의존 관계와 입자성 차이로 인한 “부분적으로 올바른” 문제를 해결하지 못해, tree/DAG 구조의 작업에는 부적합함.
품질
발견
- LLM 은 커버리지와 정확성 모두에서 약점을 가짐.
- RAG 은 커버리지를, RL 은 정확성을 개선함.
- 두 접근법은 보완적이며, 결합이 효과적임.
Rubric 개요 (Sharma2025)
Rubric 은 복합 작업을 분해한 채점 기준을 정의하고, 각 기준은 명확한 기준·기대값·점수(플러스/마이너스) 형태로 표현됨.
간단한 예시
| 항목 | 내용 |
|---|---|
| 작업 | SNS 특정 기사에 대한 사회적 영향의 전체적인 장·단점을 분석 |
| 기준 | 어떤 사회 영역에 언급하고 있는가? |
| 기대값과 점수 | 정책에 대한 언급이 있으면 (+5) |
구체적인 기준 예시
| 기준 | 점수 |
|---|---|
| 사회 주요 영역을 최소 5개 이상 제시했는가 (예: 정신 건강, 대인 관계, 정치/시민 참여, 정보 생태계, 경제) | +5(각 1점, 총점 5) |
| 정책이나 규제에 대한 언급이 있는가 (예: Section 230, COPPA, 아동 데이터 보호법) | +3 |
| 증거가 되는 인용 없이 일방적·단정적인 표현을 하지 않았는가 (예: “SNS는 정신 건강에 악영향을 준다”) | –4(패널티) |
평가 방법
| 평가 방법 | 설명 |
|---|---|
| Ternary Evaluation | 각 기준을 “완전히 충족”, “부분적으로 충족”, “충족하지 않음” 중 하나로 판정 |
| Binary Evaluation | 각 기준이 충족되었는지만 판정 |
기존 자동 평가 지표와의 차이점
- 다면적 평가 항목: 사실성·포괄성·근거 인용·명료성 등 구체적인 관점별로 세밀하게 설계.
- 명시적인 정답·오답 지표: 잘못된 단정이나 인용 없는 답변을 패널티 기준으로 평가 가능.
- 정확한 정량성: 각 기준에 가중치를 부여해 합산으로 정량 평가 가능.
- 도메인 전문가 지식 활용: 전문가가 수작업으로 작성·검토하여 비즈니스 도메인 지식을 포함.
정책 비교
동일 루브릭을 기반으로 다음 두 가지를 비교함.
- 구체 예시 추가 (Example Detail): 각 평가 기준에 “좋은 예시”“나쁜 예시”를 부여.
- LLM에 의한 확장 (LLM Augmentation): LLM을 사용해 평가 기준 자체를 늘리거나 재작성.
평가는 LLM 판정과 인간 평가의 일치도(Macro F1) 로 측정. 결과(표 7)에서는 구체 예시 추가가 일관되게 평가 정확도를 향상시키는 반면, LLM에 의한 확장은 경우에 따라 정확도가 떨어짐.
LEGIT 데이터셋
- LEGIT (LEGal Issue Trees): 약 24,000건의 법률 도메인 사례를 포함하는 새로운 데이터셋.
- 각 사례는 판결문을 계층적인 “이슈 트리”로 변환하고, 노드는 당사자의 주장이나 법원의 결론을 나타냄.
데이터 분할
- 학습용: 24,406건 중 24,106건
- 테스트용: 300건
판결문의 트리 구조 예시
사건
├─ 쟁점1
│ ├─ 원고의 주장
│ ├─ 피고의 주장
│ └─ 법원의 판단
├─ 쟁점2
│ └─ …
└─ 결론
구축 과정
- Fact Extraction – LLM을 사용해 판결문에서 “사실” 엔티티를 추출.
- Issue Structure Extraction – 사실 리스트를 설명하는 서술을 생성.
- Issue‑to‑Rubric Conversion – 추출된 구조를 루브릭 기준으로 변환.
LLM을 활용한 Issue Tree 생성
- 직접 만든 3개의 예시(3‑shot)를 프롬프트에 사용해 Gemini‑2.0‑Flash 로 판결문에서 Issue Tree를 생성하도록 함.
- 2단계 프로세스로 오류를 감소시킴:
- 원시 판결문에서 Issue Tree 생성
- 별도 프롬프트로 수정하고 흔히 발생하는 오류 제거
LLM as a Judge
- 논점(Issue)을 루브릭 기준으로 변환.
- 평가 시 LLM이 각 논점을 개별적으로 평가:
- 커버리지: 논점이 답변에 언급되었는가
- 정확성: 논점에 대해 올바른 결론이 제시되었는가
- 판단 이유를 Chain‑of‑Thought 형태로 출력.
LEGIT 점수
- 만점 10점
- 최종 판결의 정확성(5점)
- 논점의 포괄성(최대 2점)
- 각 논점의 정확성(최대 3점)
최종 판결이 일치하면 5점, 일치하지 않으면 0점이 부여되고, 나머지는 포괄성과 정확성으로 가산되는 설계임.