[Paper] 법률 문서 해석에서 LLMs

발행: (2025년 12월 11일 오전 02:09 GMT+9)
6 min read
원문: arXiv

Source: arXiv - 2512.09830v1

Overview

Simone Corbo의 최신 챕터에서는 대형 언어 모델(LLM)을 활용해 법률 문서—법령, 계약서, 판례—를 해석하는 방법을 조사한다. 구체적인 사용 사례를 도출하고 성능을 벤치마킹함으로써, 생성형 AI를 법률 워크플로에 적용했을 때의 기대감과 위험성을 동시에 보여준다.

Key Contributions

  • LLM 기반 법률 작업에 대한 사용 사례 분류 (예: 법령 해석, 계약 요약, 협상 지원, 법률 정보 검색).
  • 위험 분석: 알고리즘 단일화, 환각 현상, 규제 준수(EU AI Act, 미국 AI 이니셔티브, 신흥 중국 가이드라인) 등을 포함.
  • 법률 도메인에 특화된 두 개의 새로운 벤치마크: LLM 출력의 사실 정확성, 해석 가능성, 규제 준수를 측정.
  • 책임 있는 배포를 위한 가이드라인: 기술적 보호 장치를 각 관할 구역별 법적 요구 사항과 연결.

Methodology

Corbo는 개발자가 쉽게 따라 할 수 있는 혼합 방법론을 채택한다:

  1. 작업 정의 – 실제 법률 활동을 조항 추출, 법적 추론, 요약 등 구체적인 NLP 하위 작업으로 분해.
  2. 모델 선택 – 상용 LLM(GPT‑4, Claude, LLaMA‑2)을 공개 법률 코퍼스에 파인튜닝하고 zero‑shot 및 few‑shot 모두 평가.
  3. 벤치마크 구축 – 두 개의 데이터셋을 제작:
    • Statute‑QA: EU와 미국 법령에서 추출한 1,200개의 객관식 질문.
    • Contract‑Interpret: 전문가가 주석을 달아 놓은 500개의 계약서 발췌문.
  4. 평가 지표 – 정확도, 사실 일관성(환각 비율), 규제 준수 점수(모델 답변이 규제 제약에 얼마나 부합하는가).
  5. 위험 평가 – “알고리즘 단일화”(단일 모델에 과도 의존)와 프라이버시 유출 같은 실패 모드를 드러내기 위해 시뮬레이션 배포 시나리오를 수행.

Results & Findings

TaskBest Model (Fine‑tuned)AccuracyHallucination RateCompliance Score
Statute‑QAGPT‑4‑FT78%4%92%
Contract‑InterpretLLaMA‑2‑FT71%6%88%
  • Accuracy: 파인튜닝된 LLM이 zero‑shot 베이스라인보다 12–18 포인트 높은 정확도를 보임.
  • Hallucinations: 최고 모델이라 할지라도 응답의 약 5 %에서 잘못된 법률 인용이 발생, 이는 하위 의사결정에 비중 있는 위험.
  • Compliance: 대부분의 출력이 “범위 외 조언 금지” 규칙을 준수하지만, 모호한 법령 언어와 같은 경계 상황에서는 규정 위반이 발생.

벤치마크 결과는 LLM이 법률 텍스트를 추출하고 재진술하는 데는 신뢰할 수 있지만, 특히 정책 의도와 같은 미묘한 해석이 필요한 깊은 추론에서는 아직 인간 전문가에 미치지 못함을 보여준다.

Practical Implications

  • 법률 기술 벤더는 파인튜닝된 LLM을 첫 번째 초안 계약 검토에 통합해 내부 파일럿 연구에 따르면 수작업 검토 시간을 최대 30 % 단축할 수 있다.
  • 사내 변호사는 LLM 기반 Q&A 어시스턴트를 활용해 관련 법령을 빠르게 찾아볼 수 있지만, 환각을 잡아내기 위한 “인간 검증 단계”를 반드시 도입해야 한다.
  • 컴플라이언스 팀은 EU AI Act 요구사항에 맞춰 AI 출력의 컴플라이언스 점수를 모니터링함으로써 감사 추적을 용이하게 만든다.
  • 오픈소스 커뮤니티는 새로운 법률 전용 LLM을 평가하기 위한 명확한 벤치마크를 확보해, 상용 모델에 대한 의존도를 낮추고 혁신을 가속화한다.

Limitations & Future Work

  • 데이터셋 범위: 벤치마크는 EU와 미국 법에 초점을 맞추었으며, 중국 등 비공통법 체계는 충분히 반영되지 않음.
  • 해석 가능성: 모델이 특정 법률 해석을 선택한 이유에 대한 세밀한 설명이 아직 제공되지 않음.
  • 규제 동향: 급변하는 AI 규제로 인해 컴플라이언스 점수는 지속적인 재조정이 필요할 수 있음.
  • 향후 방향: 다국어 법률 코퍼스 확대, 환각 감소를 위한 검색 강화 생성(RAG) 통합, 실시간 컴플라이언스 모니터링을 위한 모델 독립적 감사 도구 개발 등을 제안.

Authors

  • Simone Corbo

Paper Information

  • arXiv ID: 2512.09830v1
  • Categories: cs.CL, cs.AI
  • Published: December 10, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »