[Paper] Attention 기반 모델 및 LLM 프롬프트를 통한 설명 가능한 법령 예측

발행: 1개월 전 (2025년 12월 26일 오후 04:29 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2512.21902v1

위에 제공된 텍스트가 없습니다. 번역할 내용을 알려주시면 도와드리겠습니다.

Overview

이 논문은 법령 예측을 다룬다 – 주어진 사건 설명에 적용되는 법 조항(섹션, 하위 섹션 또는 기사)을 자동으로 제안한다. 저자들은 AI‑지원 법률 도구가 신뢰받기 위해서는 시스템이 올바른 법령을 출력할 뿐만 아니라 각 법령이 왜 관련 있는지 설명해야 한다고 주장한다. 이를 위해 그들은 두 가지 상보적인 접근 방식을 제시한다: 소규모 언어 모델과 함께 작동하는 어텐션 기반 모델과, 대형 언어 모델(LLM)을 제로‑샷 방식으로 활용하는 프롬프트 전략이다.

Key Contributions

Attention‑over‑Sentences (AoS) 모델: 사례 텍스트에 대한 문장 수준 어텐션을 사용해 관련 법령을 순위 매기며, 감독 데이터로 엔드‑투‑엔드 학습됩니다.
LLM Prompting (LLMPrompt) 프레임워크: 대형 모델(e.g., GPT‑4)을 위한 제로샷 프롬프트(Chain‑of‑Thought 포함)를 설계하여 법령을 예측하고 자연어 근거를 생성합니다.
Dual‑evaluation 파이프라인: 두 개의 벤치마크 법률 데이터셋에서 강력한 베이스라인과 비교하여 법령 예측 정확도를 측정하고, 자동 반사실 테스트와 인간 평가를 통해 설명 품질을 평가합니다.
설명 가능성 강조: 불투명한 신뢰도 점수 대신 인간이 읽을 수 있는 설명(문장 발췌, 논리 단계)을 제공합니다.
경험적 비교: 경량 감독 모델과 대형 제로샷 LLM을 비교하여 성능, 계산 비용, 해석 가능성 간의 트레이드오프를 강조합니다.

방법론

데이터 전처리 – 사례 서술을 문장으로 나누고, 각 문장은 문장 변환기 (예: SBERT) 로 임베딩합니다.
AoS 모델 –
- 학습 가능한 어텐션 레이어가 각 문장에 대한 가중치를 학습하여 해당 문장이 각 가능한 법조문에 얼마나 관련 있는지를 나타냅니다.
- 가중치가 적용된 문장 임베딩을 집계한 뒤, 다중 레이블 예측(하나 이상의 법조문이 적용될 수 있음)을 출력하는 분류기에 입력합니다.
- 어텐션 가중치 자체가 설명으로 활용됩니다: 점수가 가장 높은 문장들을 근거로 제시합니다.
LLMPrompt 프레임워크 –
- 사례 설명, 적용 가능한 법조문을 나열하라는 간단한 지시, 그리고 자연어 형태의 정당화 요청을 포함하는 프롬프트를 구성합니다.
- 두 가지 프롬프트 스타일을 실험합니다: standard (직접 질문)와 Chain‑of‑Thought (CoT) (최종 답변 전에 단계별 추론).
- 파인튜닝을 수행하지 않으며, LLM(예: GPT‑4, Claude)이 한 번의 순방향 패스로 예측과 설명을 생성합니다.
평가 –
- 법조문 예측: 골드 법조문에 대한 마이크로 평균 F1 및 precision@k.
- 설명 품질: (a) 반사실 테스트 – 강조된 문장을 교체하고 예측된 법조문이 변하는지 확인; (b) 관련성, 완전성, 가독성을 리커트 척도로 인간 평가.

결과 및 발견

Model	Statute F1 (Dataset 1)	Statute F1 (Dataset 2)	Avg. Explanation Score (Human)
AoS (sentence‑transformer)	0.71	0.68	4.1 / 5
LLMPrompt – Standard	0.66	0.64	3.8 / 5
LLMPrompt – CoT	0.68	0.66	4.3 / 5
Strong baseline (BERT‑CLS)	0.62	0.60	3.2 / 5
Random	0.12	0.10	—

AoS는 원시 예측 정확도에서 모든 베이스라인을 능가하면서 투명한 문장‑수준 설명을 제공합니다.
CoT 프롬프트는 격차를 좁혀, 표준 프롬프트보다 인간이 평가한 설명 품질이 더 높지만, Statute F1은 AoS보다 약간 낮습니다.
반사실 테스트는 강조된 문장이 실제로 모델의 결정에 영향을 미친다는 것을 확인합니다: 해당 문장을 교체하면 예측된 법령이 종종 바뀝니다.
계산 측면에서 AoS는 훈련 및 추론에 modest GPU만 필요하지만, LLMPrompt는 더 높은 지연 시간과 API 비용이 발생하지만 훈련 데이터가 필요 없습니다.

실용적 함의

법률 AI 어시스턴트: 개발자는 AoS를 통합하여 장치 내에서 저지연 법령 제안을 제공하고 내장된 정당성을 제공할 수 있으며, 데이터 프라이버시가 중요한 내부 사무소 도구에 이상적입니다.
제로샷 빠른 프로토타이핑: 라벨링된 학습 데이터가 부족할 때 LLMPrompt는 플러그‑앤‑플레이 솔루션을 제공하며, 올바른 프롬프트만 만들면 호스팅된 LLM이 무거운 작업을 수행합니다.
설명 가능성을 제품 기능으로: 문장 수준의 어텐션 맵이나 CoT 추론을 변호사에게 직접 제공함으로써 신뢰를 높이고 새로운 AI 투명성 규정 준수를 촉진할 수 있습니다.
하이브리드 파이프라인: 실용적인 시스템은 먼저 AoS를 실행하여 빠르고 높은 정확도의 예측을 수행하고, 예외 상황이나 더 풍부한 서술형 설명을 생성하기 위해 LLMPrompt로 전환할 수 있습니다.
확장성: 동일한 문장‑레벨 어텐션 아키텍처를 최소한의 변경으로 다른 다중 라벨 법률 작업(예: 이슈 스포팅, 판례 검색)에도 재사용할 수 있습니다.

제한 사항 및 향후 작업

도메인 범위: 실험은 두 개의 인도 법률 코퍼스로 제한되었으며, 다른 관할 구역(미국, EU)에서의 성능은 테스트되지 않았습니다.
법령 세분성: 모델은 각 법령을 원자 레이블로 취급하며, 계층적 관계(예: 법 → 조항 → 하위조항)는 활용되지 않습니다.
설명 깊이: 인간이 읽을 수 있지만, 설명은 여전히 표면 수준(문장 발췌 또는 CoT 단계)이며 엄격한 법적 추론 기준을 충족하지 못할 수 있습니다.
LLM 비용 및 지연: 제로샷 프롬프트는 API 비용과 응답 지연을 초래하여 고처리량 서비스에 제약이 될 수 있습니다.
향후 방향: 저자들이 제시한 향후 연구는 (1) 계층적 레이블 구조 도입, (2) 법률 코퍼스에 대한 LLM 파인튜닝을 통해 정확도와 설명 충실도 향상, (3) 멀티모달 입력(예: PDF, 스캔 문서) 탐색을 통해 실제 적용 범위 확대 등을 포함합니다.

저자

Sachin Pawar
Girish Keshav Palshikar
Anindita Sinha Banerjee
Nitin Ramrakhiyani
Basit Ali

논문 정보

arXiv ID: 2512.21902v1
분류: cs.CL
출판일: 2025년 12월 26일
PDF: Download PDF

[Paper] Attention 기반 모델 및 LLM 프롬프트를 통한 설명 가능한 법령 예측

Overview

Key Contributions

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] A2P-Vis: 분석기-프레젠터 에이전틱 파이프라인을 통한 시각적 인사이트 생성 및 보고

[Paper] TrGLUE와 SentiTurca 소개: 터키어 일반 언어 이해 및 감성 분석을 위한 포괄적 벤치마크

[Paper] Transformers Scaling Law에서 학습 역학과 일반화 통합

[Paper] 컨텍스트를 도구로: Long-Horizon SWE-Agents를 위한 컨텍스트 관리