[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

발행: (2025년 11월 26일 오후 10:51 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2511.21401v1

개요

온라인 뉴스 기사 댓글 섹션에서 허위 정보가 자주 퍼지며, 사실 확인자는 단순 “예/아니오” 판정만으로는 부족합니다—각 주장에 대해 신뢰할 수 있는 출처의 구체적인 증거가 필요합니다. 이 논문은 체코어와 슬로바키아어 주장에 대한 세밀한 증거 추출 문제를 다루며, 새로운 인간 주석 데이터셋을 구축하고 현재 대형 언어 모델(LLM)이 인간이 선택한 정확한 증거 구간을 얼마나 잘 재현할 수 있는지 평가합니다.

주요 기여

  • 새로운 다국어 데이터셋: 체코어와 슬로바키아어 주장에 대한 2‑방향(지원/반박) 세밀한 증거 주석을 유료 주석자들이 작성했으며, 연구용으로 공개했습니다.
  • 포괄적인 LLM 벤치마크: 8 B에서 120 B 파라미터 규모의 8개 오픈소스 LLM을 증거 추출 과제에 대해 평가했습니다.
  • 오류 유형 분석: 가장 흔한 실패 원인(예: 원문 그대로 복사하지 않고 의역, 구간 누락, 허위 증거 생성)을 식별했습니다.
  • 규모 vs 정렬에 대한 통찰: 8 B 모델(llama3.1‑8B)이 인간이 선택한 증거와 일치하는 면에서 훨씬 큰 모델(gpt‑oss‑120B)보다 우수함을 보여줍니다.
  • 실용적인 가이드라인: 파라미터 수와 증거 추출 품질 사이에서 최적의 균형을 이루는 모델군(Qwen‑3, DeepSeek‑R1, GPT‑OSS‑20B)을 강조합니다.

방법론

  1. 데이터셋 구축

    • 체코어와 슬로바키아어 뉴스 기사 댓글 스레드에서 실제 주장을 수집했습니다.
    • 각 주장에 대해 후보 문서(뉴스 기사, 사실 확인 사이트 등)를 가져왔습니다.
    • 유료 주석자들이 직접 주장을 지원하거나 반박하는 정확한 텍스트 구간을 표시했으며, 이진 “지원/반박” 라벨과 구간 경계를 함께 기록했습니다.
  2. 모델 프롬프트

    • 각 LLM에 주장과 검색된 원본 문서를 포함한 프롬프트를 제공했습니다.
    • 작업은 “주장을 지원하거나 반박하는 정확한 문장을 추출하라”는 형태로 제시되었습니다.
    • 체인‑오브‑생각이나 few‑shot 예시는 사용하지 않아 모델 간 설정을 동일하게 유지했습니다.
  3. 평가 지표

    • Exact Match (EM): 모델 출력이 인간이 주석한 구간과 정확히 일치하는가?
    • F1 over token overlap: 모델이 구간의 대부분을 포착했을 때 부분 점수를 부여합니다.
    • Invalid‑output rate: 모델이 의역, 요약, 혹은 구간을 전혀 반환하지 않은 경우의 비율을 측정합니다.
  4. 오류 분석

    • 불일치를 “복사 오류”, “구간 이동”, “허위 생성”, “출력 없음”으로 분류했습니다.

결과 및 발견

Model (size)Exact MatchF1Invalid‑output
llama3.1‑8B38 %62 %12 %
qwen3‑14B35 %60 %14 %
deepseek‑r1‑32B34 %59 %15 %
gpt‑oss‑20B33 %58 %16 %
gpt‑oss‑120B27 %53 %28 %
  • 복사 충실도가 핵심: 가장 큰 오류 원인은 모델이 증거를 그대로 복사하지 않고 의역하는 것이었으며, 이는 평가에서 크게 감점되었습니다.
  • 규모가 전부는 아니다: 8 B llama3.1 모델이 가장 높은 정확도(Exact Match)를 기록한 반면, 120 B GPT‑OSS 모델은 높은 Invalid‑output 비율을 보여 정렬 및 학습 데이터 품질이 파라미터 수보다 더 중요함을 시사합니다.
  • 균형 잡힌 성능: Qwen‑3‑14B, DeepSeek‑R1‑32B, GPT‑OSS‑20B는 적절한 Exact Match 점수와 비교적 낮은 Invalid‑output 비율을 동시에 달성했습니다.

실용적 함의

  • 사실 확인 파이프라인: 정확히 원문을 추출할 수 있는 LLM을 통합하면 “증거 수집” 단계를 자동화할 수 있어 인간 검토자는 고차원 추론에 집중할 수 있습니다.
  • 다국어 중재 도구: 이 데이터셋과 결과는 체코어·슬로바키아어와 같은 저자원 언어에서도 효과적인 증거 추출이 가능함을 보여주어, 영어 외에도 중재 봇을 확장하도록 장려합니다.
  • 모델 선택 가이드: 증거 기반 검증 서비스를 구축하는 팀은 거대한 모델보다 정렬이 잘 된 중간 규모 모델(예: Qwen‑3‑14B)을 선택하는 것이 ROI 측면에서 더 유리할 수 있습니다.
  • 프롬프트 엔지니어링: 연구는 정확한 구간을 명시적으로 요청하는 프롬프트가 필요함을 강조하며, 추출 후 문자열 매칭 같은 후처리 검증을 통해 의역을 걸러낼 수 있음을 시사합니다.

제한점 및 향후 연구

  • 도메인 제한: 데이터셋이 뉴스 기사 댓글에 초점을 맞추었으므로, 소셜 미디어 게시물, 포럼, 장문 텍스트 등에서는 성능이 다를 수 있습니다.
  • 평가 편향: Exact Match 점수는 사실적 내용을 유지하는 정당한 의역을 크게 벌점하므로, 실제 유용한 모델 출력을 충분히 반영하지 못할 수 있습니다.
  • 모델 다양성: 오픈소스 LLM만 테스트했으며, Claude, Gemini와 같은 상용 모델은 다른 행동을 보일 가능성이 있습니다.

향후 방향

  • 추가 슬라브어 및 다양한 도메인을 포괄하도록 데이터셋을 확장합니다.
  • 복사 충실도를 높이기 위해 LLM 추출과 검색‑증강 생성(RAG)을 결합한 하이브리드 접근법을 탐색합니다.
  • 원문 그대로 복사하는 것을 명시적으로 보상하는 학습 목표를 개발해 의역 오류를 감소시킵니다.

저자

  • Antonín Jarolím
  • Martin Fajčík
  • Lucia Makaiová

논문 정보

  • arXiv ID: 2511.21401v1
  • Categories: cs.CL
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »