[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?
발행: (2025년 11월 26일 오후 10:51 GMT+9)
8 min read
원문: arXiv
Source: arXiv - 2511.21401v1
개요
온라인 뉴스 기사 댓글 섹션에서 허위 정보가 자주 퍼지며, 사실 확인자는 단순 “예/아니오” 판정만으로는 부족합니다—각 주장에 대해 신뢰할 수 있는 출처의 구체적인 증거가 필요합니다. 이 논문은 체코어와 슬로바키아어 주장에 대한 세밀한 증거 추출 문제를 다루며, 새로운 인간 주석 데이터셋을 구축하고 현재 대형 언어 모델(LLM)이 인간이 선택한 정확한 증거 구간을 얼마나 잘 재현할 수 있는지 평가합니다.
주요 기여
- 새로운 다국어 데이터셋: 체코어와 슬로바키아어 주장에 대한 2‑방향(지원/반박) 세밀한 증거 주석을 유료 주석자들이 작성했으며, 연구용으로 공개했습니다.
- 포괄적인 LLM 벤치마크: 8 B에서 120 B 파라미터 규모의 8개 오픈소스 LLM을 증거 추출 과제에 대해 평가했습니다.
- 오류 유형 분석: 가장 흔한 실패 원인(예: 원문 그대로 복사하지 않고 의역, 구간 누락, 허위 증거 생성)을 식별했습니다.
- 규모 vs 정렬에 대한 통찰: 8 B 모델(llama3.1‑8B)이 인간이 선택한 증거와 일치하는 면에서 훨씬 큰 모델(gpt‑oss‑120B)보다 우수함을 보여줍니다.
- 실용적인 가이드라인: 파라미터 수와 증거 추출 품질 사이에서 최적의 균형을 이루는 모델군(Qwen‑3, DeepSeek‑R1, GPT‑OSS‑20B)을 강조합니다.
방법론
-
데이터셋 구축
- 체코어와 슬로바키아어 뉴스 기사 댓글 스레드에서 실제 주장을 수집했습니다.
- 각 주장에 대해 후보 문서(뉴스 기사, 사실 확인 사이트 등)를 가져왔습니다.
- 유료 주석자들이 직접 주장을 지원하거나 반박하는 정확한 텍스트 구간을 표시했으며, 이진 “지원/반박” 라벨과 구간 경계를 함께 기록했습니다.
-
모델 프롬프트
- 각 LLM에 주장과 검색된 원본 문서를 포함한 프롬프트를 제공했습니다.
- 작업은 “주장을 지원하거나 반박하는 정확한 문장을 추출하라”는 형태로 제시되었습니다.
- 체인‑오브‑생각이나 few‑shot 예시는 사용하지 않아 모델 간 설정을 동일하게 유지했습니다.
-
평가 지표
- Exact Match (EM): 모델 출력이 인간이 주석한 구간과 정확히 일치하는가?
- F1 over token overlap: 모델이 구간의 대부분을 포착했을 때 부분 점수를 부여합니다.
- Invalid‑output rate: 모델이 의역, 요약, 혹은 구간을 전혀 반환하지 않은 경우의 비율을 측정합니다.
-
오류 분석
- 불일치를 “복사 오류”, “구간 이동”, “허위 생성”, “출력 없음”으로 분류했습니다.
결과 및 발견
| Model (size) | Exact Match | F1 | Invalid‑output |
|---|---|---|---|
| llama3.1‑8B | 38 % | 62 % | 12 % |
| qwen3‑14B | 35 % | 60 % | 14 % |
| deepseek‑r1‑32B | 34 % | 59 % | 15 % |
| gpt‑oss‑20B | 33 % | 58 % | 16 % |
| gpt‑oss‑120B | 27 % | 53 % | 28 % |
- 복사 충실도가 핵심: 가장 큰 오류 원인은 모델이 증거를 그대로 복사하지 않고 의역하는 것이었으며, 이는 평가에서 크게 감점되었습니다.
- 규모가 전부는 아니다: 8 B llama3.1 모델이 가장 높은 정확도(Exact Match)를 기록한 반면, 120 B GPT‑OSS 모델은 높은 Invalid‑output 비율을 보여 정렬 및 학습 데이터 품질이 파라미터 수보다 더 중요함을 시사합니다.
- 균형 잡힌 성능: Qwen‑3‑14B, DeepSeek‑R1‑32B, GPT‑OSS‑20B는 적절한 Exact Match 점수와 비교적 낮은 Invalid‑output 비율을 동시에 달성했습니다.
실용적 함의
- 사실 확인 파이프라인: 정확히 원문을 추출할 수 있는 LLM을 통합하면 “증거 수집” 단계를 자동화할 수 있어 인간 검토자는 고차원 추론에 집중할 수 있습니다.
- 다국어 중재 도구: 이 데이터셋과 결과는 체코어·슬로바키아어와 같은 저자원 언어에서도 효과적인 증거 추출이 가능함을 보여주어, 영어 외에도 중재 봇을 확장하도록 장려합니다.
- 모델 선택 가이드: 증거 기반 검증 서비스를 구축하는 팀은 거대한 모델보다 정렬이 잘 된 중간 규모 모델(예: Qwen‑3‑14B)을 선택하는 것이 ROI 측면에서 더 유리할 수 있습니다.
- 프롬프트 엔지니어링: 연구는 정확한 구간을 명시적으로 요청하는 프롬프트가 필요함을 강조하며, 추출 후 문자열 매칭 같은 후처리 검증을 통해 의역을 걸러낼 수 있음을 시사합니다.
제한점 및 향후 연구
- 도메인 제한: 데이터셋이 뉴스 기사 댓글에 초점을 맞추었으므로, 소셜 미디어 게시물, 포럼, 장문 텍스트 등에서는 성능이 다를 수 있습니다.
- 평가 편향: Exact Match 점수는 사실적 내용을 유지하는 정당한 의역을 크게 벌점하므로, 실제 유용한 모델 출력을 충분히 반영하지 못할 수 있습니다.
- 모델 다양성: 오픈소스 LLM만 테스트했으며, Claude, Gemini와 같은 상용 모델은 다른 행동을 보일 가능성이 있습니다.
향후 방향
- 추가 슬라브어 및 다양한 도메인을 포괄하도록 데이터셋을 확장합니다.
- 복사 충실도를 높이기 위해 LLM 추출과 검색‑증강 생성(RAG)을 결합한 하이브리드 접근법을 탐색합니다.
- 원문 그대로 복사하는 것을 명시적으로 보상하는 학습 목표를 개발해 의역 오류를 감소시킵니다.
저자
- Antonín Jarolím
- Martin Fajčík
- Lucia Makaiová
논문 정보
- arXiv ID: 2511.21401v1
- Categories: cs.CL
- Published: November 26, 2025
- PDF: Download PDF