[Paper] Attention 기반 모델 및 LLM 프롬프트를 통한 설명 가능한 법령 예측
발행: (2025년 12월 26일 오후 04:29 GMT+9)
9 min read
원문: arXiv
Source: arXiv - 2512.21902v1
위에 제공된 텍스트가 없습니다. 번역할 내용을 알려주시면 도와드리겠습니다.
Overview
이 논문은 법령 예측을 다룬다 – 주어진 사건 설명에 적용되는 법 조항(섹션, 하위 섹션 또는 기사)을 자동으로 제안한다. 저자들은 AI‑지원 법률 도구가 신뢰받기 위해서는 시스템이 올바른 법령을 출력할 뿐만 아니라 각 법령이 왜 관련 있는지 설명해야 한다고 주장한다. 이를 위해 그들은 두 가지 상보적인 접근 방식을 제시한다: 소규모 언어 모델과 함께 작동하는 어텐션 기반 모델과, 대형 언어 모델(LLM)을 제로‑샷 방식으로 활용하는 프롬프트 전략이다.
Key Contributions
- Attention‑over‑Sentences (AoS) 모델: 사례 텍스트에 대한 문장 수준 어텐션을 사용해 관련 법령을 순위 매기며, 감독 데이터로 엔드‑투‑엔드 학습됩니다.
- LLM Prompting (LLMPrompt) 프레임워크: 대형 모델(e.g., GPT‑4)을 위한 제로샷 프롬프트(Chain‑of‑Thought 포함)를 설계하여 법령을 예측하고 자연어 근거를 생성합니다.
- Dual‑evaluation 파이프라인: 두 개의 벤치마크 법률 데이터셋에서 강력한 베이스라인과 비교하여 법령 예측 정확도를 측정하고, 자동 반사실 테스트와 인간 평가를 통해 설명 품질을 평가합니다.
- 설명 가능성 강조: 불투명한 신뢰도 점수 대신 인간이 읽을 수 있는 설명(문장 발췌, 논리 단계)을 제공합니다.
- 경험적 비교: 경량 감독 모델과 대형 제로샷 LLM을 비교하여 성능, 계산 비용, 해석 가능성 간의 트레이드오프를 강조합니다.
방법론
- 데이터 전처리 – 사례 서술을 문장으로 나누고, 각 문장은 문장 변환기 (예: SBERT) 로 임베딩합니다.
- AoS 모델 –
- 학습 가능한 어텐션 레이어가 각 문장에 대한 가중치를 학습하여 해당 문장이 각 가능한 법조문에 얼마나 관련 있는지를 나타냅니다.
- 가중치가 적용된 문장 임베딩을 집계한 뒤, 다중 레이블 예측(하나 이상의 법조문이 적용될 수 있음)을 출력하는 분류기에 입력합니다.
- 어텐션 가중치 자체가 설명으로 활용됩니다: 점수가 가장 높은 문장들을 근거로 제시합니다.
- LLMPrompt 프레임워크 –
- 사례 설명, 적용 가능한 법조문을 나열하라는 간단한 지시, 그리고 자연어 형태의 정당화 요청을 포함하는 프롬프트를 구성합니다.
- 두 가지 프롬프트 스타일을 실험합니다: standard (직접 질문)와 Chain‑of‑Thought (CoT) (최종 답변 전에 단계별 추론).
- 파인튜닝을 수행하지 않으며, LLM(예: GPT‑4, Claude)이 한 번의 순방향 패스로 예측과 설명을 생성합니다.
- 평가 –
- 법조문 예측: 골드 법조문에 대한 마이크로 평균 F1 및 precision@k.
- 설명 품질: (a) 반사실 테스트 – 강조된 문장을 교체하고 예측된 법조문이 변하는지 확인; (b) 관련성, 완전성, 가독성을 리커트 척도로 인간 평가.
결과 및 발견
| Model | Statute F1 (Dataset 1) | Statute F1 (Dataset 2) | Avg. Explanation Score (Human) |
|---|---|---|---|
| AoS (sentence‑transformer) | 0.71 | 0.68 | 4.1 / 5 |
| LLMPrompt – Standard | 0.66 | 0.64 | 3.8 / 5 |
| LLMPrompt – CoT | 0.68 | 0.66 | 4.3 / 5 |
| Strong baseline (BERT‑CLS) | 0.62 | 0.60 | 3.2 / 5 |
| Random | 0.12 | 0.10 | — |
- AoS는 원시 예측 정확도에서 모든 베이스라인을 능가하면서 투명한 문장‑수준 설명을 제공합니다.
- CoT 프롬프트는 격차를 좁혀, 표준 프롬프트보다 인간이 평가한 설명 품질이 더 높지만, Statute F1은 AoS보다 약간 낮습니다.
- 반사실 테스트는 강조된 문장이 실제로 모델의 결정에 영향을 미친다는 것을 확인합니다: 해당 문장을 교체하면 예측된 법령이 종종 바뀝니다.
- 계산 측면에서 AoS는 훈련 및 추론에 modest GPU만 필요하지만, LLMPrompt는 더 높은 지연 시간과 API 비용이 발생하지만 훈련 데이터가 필요 없습니다.
실용적 함의
- 법률 AI 어시스턴트: 개발자는 AoS를 통합하여 장치 내에서 저지연 법령 제안을 제공하고 내장된 정당성을 제공할 수 있으며, 데이터 프라이버시가 중요한 내부 사무소 도구에 이상적입니다.
- 제로샷 빠른 프로토타이핑: 라벨링된 학습 데이터가 부족할 때 LLMPrompt는 플러그‑앤‑플레이 솔루션을 제공하며, 올바른 프롬프트만 만들면 호스팅된 LLM이 무거운 작업을 수행합니다.
- 설명 가능성을 제품 기능으로: 문장 수준의 어텐션 맵이나 CoT 추론을 변호사에게 직접 제공함으로써 신뢰를 높이고 새로운 AI 투명성 규정 준수를 촉진할 수 있습니다.
- 하이브리드 파이프라인: 실용적인 시스템은 먼저 AoS를 실행하여 빠르고 높은 정확도의 예측을 수행하고, 예외 상황이나 더 풍부한 서술형 설명을 생성하기 위해 LLMPrompt로 전환할 수 있습니다.
- 확장성: 동일한 문장‑레벨 어텐션 아키텍처를 최소한의 변경으로 다른 다중 라벨 법률 작업(예: 이슈 스포팅, 판례 검색)에도 재사용할 수 있습니다.
제한 사항 및 향후 작업
- 도메인 범위: 실험은 두 개의 인도 법률 코퍼스로 제한되었으며, 다른 관할 구역(미국, EU)에서의 성능은 테스트되지 않았습니다.
- 법령 세분성: 모델은 각 법령을 원자 레이블로 취급하며, 계층적 관계(예: 법 → 조항 → 하위조항)는 활용되지 않습니다.
- 설명 깊이: 인간이 읽을 수 있지만, 설명은 여전히 표면 수준(문장 발췌 또는 CoT 단계)이며 엄격한 법적 추론 기준을 충족하지 못할 수 있습니다.
- LLM 비용 및 지연: 제로샷 프롬프트는 API 비용과 응답 지연을 초래하여 고처리량 서비스에 제약이 될 수 있습니다.
- 향후 방향: 저자들이 제시한 향후 연구는 (1) 계층적 레이블 구조 도입, (2) 법률 코퍼스에 대한 LLM 파인튜닝을 통해 정확도와 설명 충실도 향상, (3) 멀티모달 입력(예: PDF, 스캔 문서) 탐색을 통해 실제 적용 범위 확대 등을 포함합니다.
저자
- Sachin Pawar
- Girish Keshav Palshikar
- Anindita Sinha Banerjee
- Nitin Ramrakhiyani
- Basit Ali
논문 정보
- arXiv ID: 2512.21902v1
- 분류: cs.CL
- 출판일: 2025년 12월 26일
- PDF: Download PDF