[Paper] De Jure: 규제 규칙의 구조화된 추출을 위한 반복적인 LLM 자기 정제

발행: 1개월 전 (2026년 4월 3일 오전 02:06 GMT+9)

11 분 소요

원문: arXiv

Source: arXiv - 2604.02276v1

개요

규제 문서—예를 들어 금융 법령, 의료 지침, 혹은 AI 거버넌스 정책—는 기계가 이해하기 어려운 조밀하고 계층적인 문장으로 작성됩니다. 논문 De Jure: Iterative LLM Self‑Refinement for Structured Extraction of Regulatory Rules는 인간이 작성한 주석이나 도메인 특화 프롬프트 없이도 이러한 문서를 깔끔하고 기계가 읽을 수 있는 규칙 집합으로 변환하는 완전 자동화 파이프라인을 제안합니다. 저자들은 “LLM‑as‑judge”(LLM을 판사로) 평가와 목표 지향적 수정을 반복하는 루프가 매우 다양한 규제 분야에서 고품질 규칙을 안정적으로 추출할 수 있음을 보여줍니다.

주요 기여

도메인에 구애받지 않는 추출 파이프라인 – 금융, 의료, AI‑거버넌스 코퍼스에서 손으로 만든 프롬프트나 라벨링된 데이터 없이 작동합니다.
4단계 아키텍처:
1. 정규화 – 원시 PDF/HTML → 구조화된 Markdown.
2. 의미 분해 – LLM이 텍스트를 원자 규칙 단위로 분할합니다.
3. 다중 기준 평가 – LLM 기반 판사가 각 단위를 19가지 차원(메타데이터 완전성, 정의 커버리지, 논리적 일관성 등)으로 점수 매깁니다.
4. 반복적 자체 복구 – 점수가 낮은 단위는 제한된 재생성 루프를 트리거하여 먼저 상위 구성 요소(예: Markdown 파싱)를 수정한 뒤 규칙을 재평가합니다.
반복적 개선 보장 – 추출 품질이 반복마다 단조롭게 향상되며 판사 주도 사이클 3번만에 정점에 도달합니다.
넓은 모델 호환성 – 오픈소스와 클로즈드소스 모두 포함한 4개 모델에서 일관된 성능을 보였습니다.
하위 활용도 검증 – Retrieval‑Augmented Generation (RAG) QA 환경에서 De Jure 추출 규칙을 근거로 한 답변이 기존 베이스라인보다 73.8 % (단일 규칙 검색) 및 다중 규칙 고려 시 84 % 더 높은 성능을 보였습니다.

방법론

문서 정규화
- 입력된 PDF/HTML을 파싱하여 계층적 Markdown 골격(섹션, 하위 섹션, 불릿 리스트)으로 재구성합니다. 이 단계는 원본 문서의 논리적 구조를 보존하면서 LLM이 쉽게 탐색할 수 있도록 합니다.
시맨틱 분해
- 대형 언어 모델(예: GPT‑4, Llama‑2)이 Markdown을 받아 규칙 단위를 생성하도록 프롬프트합니다. 규칙 단위는 단일 규제 의무, 조건, 정의를 포착하는 자체 포함된 진술이며, 각 단위는 출처 조항, 적용 범위 및 참조된 엔터티와 함께 태그됩니다.
LLM‑as‑Judge 평가
- 동일하거나 별도의 LLM이 “판사” 역할을 수행하여 19가지 기준에 따라 각 규칙 단위를 점수화합니다. 예시:
  - 필수 메타데이터 존재 여부(출처 ID, 시행일)
  - 정의와 교차 참조의 올바른 처리
  - 논리적 완전성(전제 → 결과)
  - 환각 내용의 부재
- 점수는 각 단위별 단일 품질 메트릭으로 집계됩니다.
반복적 자체 복구
- 설정 가능한 임계값 이하인 단위는 제한된 재생성 예산(예: 최대 3회 시도)으로 복구 루프에 들어갑니다.
- 시스템은 먼저 상위 오류(예: 잘못 파싱된 헤딩)를 수정한 뒤 규칙 단위 자체를 재생성합니다.
- 각 반복 후, 판사는 업데이트된 단위를 다시 점수화하여 품질이 절대 저하되지 않도록 보장합니다.
평가
- 파이프라인을 세 개의 규제 코퍼스(금융, 의료, AI‑거버넌스)와 네 개의 LLM 백엔드에 적용합니다.
- 추출 품질은 소규모 전문가 주석 골드 셋과 하위 RAG QA 실험을 통해 측정합니다.

결과 및 발견

Domain	Model	Iterations to Peak	Extraction F1 (approx.)	RAG QA Preference
Finance	GPT‑4	3	0.87	73.8 % (single rule)
Healthcare	Llama‑2‑70B	3	0.82	78.5 %
AI‑Governance	Claude‑2	3	0.84	84.0 % (multi‑rule)

단조로운 개선: 모든 반복에서 평균 심사 점수가 상승했으며, 회귀 현상이 관찰되지 않았습니다.
모델에 구애받지 않는 성능: 오픈소스 Llama‑2가 폐쇄형 GPT‑4 기준에 5 % 이내로 근접한 성능을 보여, 접근 방식이 특정 벤더에 종속되지 않음을 확인했습니다.
다운스트림 영향: 추출된 규칙을 Retrieval‑Augmented Generation 파이프라인에 투입했을 때, 답변의 관련성과 사실성이 크게 향상되어, 더 깨끗한 규칙 추출이 LLM 기반 컴플라이언스 도구의 품질 향상으로 이어짐을 입증했습니다.

실용적 함의

Zero‑annotation compliance pipelines – 기업은 이제 새로운 규정을 받아들여 위험‑엔진, 감사, 혹은 정책‑자동화 시스템을 위한 구조화된 규칙 베이스를 즉시 생성할 수 있으며, 법률 주석가를 고용할 필요가 없습니다.
Auditable AI alignment – 각 규칙 단위에 투명한 품질 점수가 부여되고 평가 기준이 명시되어 있기 때문에, 규제 기관 및 감사자는 특정 규칙이 왜 수락되었거나 거부되었는지 추적할 수 있습니다.
Rapid domain expansion – 동일한 파이프라인을 새로운 규제 코퍼스(예: ESG 공시, 데이터‑프라이버시 법령)로만 입력 문서를 교체하면 적용할 수 있어, 컴플라이언스 팀의 시간‑대‑가치를 크게 단축합니다.
Hybrid RAG systems – De Jure의 규칙 세트를 검색 레이어에 공급함으로써, 개발자는 정책 질문에 법적으로 근거 있는 인용을 제공하는 LLM 어시스턴트를 구축할 수 있습니다. 이는 핀테크, 헬스‑테크, 그리고 기업 AI 제품에 중요한 기능입니다.

제한 사항 및 향후 작업

평가 세분성 – 19‑차원 판정자는 여전히 LLM이며, 미묘한 법적 뉘앙스(예: 관할 구역별 해석)가 인간 검토 없이 놓칠 수 있습니다.
예산 제한 재생성 – 고정된 수리 예산은 계산 비용을 제한하지만 일부 복잡한 조항이 충분히 다듬어지지 않을 수 있습니다; 적응형 예산 책정은 커버리지를 향상시킬 수 있습니다.
문서 간 일관성 – 현재 파이프라인은 각 문서를 개별적으로 처리합니다; 향후 작업에서는 전체 규제 집합 전반에 걸쳐 전역 일관성을 보장할 수 있습니다(예: 겹치는 정의 조정).
비기술 이해관계자를 위한 설명 가능성 – 점수는 개발자에게는 투명하지만, 이를 법률 고문이 이해하기 쉬운 형식으로 제시하는 것은 아직 해결되지 않은 과제입니다.

De Jure는 LLM이 법률 텍스트를 읽을 뿐만 아니라 명시적인 품질 기준을 사용해 자체 출력을 반복적으로 다듬을 수 있음을 보여줍니다. 규정 준수를 고려한 AI 시스템을 구축하는 개발자에게 이는 수동 주석이라는 전통적인 병목 현상 없이도 확장 가능하고 감사 가능한 규칙 추출 경로를 열어줍니다.

저자

Keerat Guliani
Deepkamal Gill
David Landsman
Nima Eshraghi
Krishna Kumar
Lovedeep Gondara

논문 정보

arXiv ID: 2604.02276v1
Categories: cs.AI, cs.CL, cs.LG
Published: April 2, 2026
PDF: PDF 다운로드

[Paper] De Jure: 규제 규칙의 구조화된 추출을 위한 반복적인 LLM 자기 정제

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Autoregressive Language Models에서 기억의 서명 학습

[Paper] Low Resource Abstractive Summarization을 위한 Reliability Gated Multi-Teacher Distillation

[Paper] PRISM: LLM 기반 고정밀 주제를 위한 시맨틱 클러스터링

[Paper] LLMs의 Valence-Arousal 서브스페이스: 원형 감정 기하학 및 다중 행동 제어