[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

발행: 2개월 전 (2025년 11월 26일 오후 10:51 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2511.21401v1

개요

온라인 뉴스 기사 댓글 섹션에서 허위 정보가 자주 퍼지며, 사실 확인자는 단순 “예/아니오” 판정만으로는 부족합니다—각 주장에 대해 신뢰할 수 있는 출처의 구체적인 증거가 필요합니다. 이 논문은 체코어와 슬로바키아어 주장에 대한 세밀한 증거 추출 문제를 다루며, 새로운 인간 주석 데이터셋을 구축하고 현재 대형 언어 모델(LLM)이 인간이 선택한 정확한 증거 구간을 얼마나 잘 재현할 수 있는지 평가합니다.

주요 기여

새로운 다국어 데이터셋: 체코어와 슬로바키아어 주장에 대한 2‑방향(지원/반박) 세밀한 증거 주석을 유료 주석자들이 작성했으며, 연구용으로 공개했습니다.
포괄적인 LLM 벤치마크: 8 B에서 120 B 파라미터 규모의 8개 오픈소스 LLM을 증거 추출 과제에 대해 평가했습니다.
오류 유형 분석: 가장 흔한 실패 원인(예: 원문 그대로 복사하지 않고 의역, 구간 누락, 허위 증거 생성)을 식별했습니다.
규모 vs 정렬에 대한 통찰: 8 B 모델(llama3.1‑8B)이 인간이 선택한 증거와 일치하는 면에서 훨씬 큰 모델(gpt‑oss‑120B)보다 우수함을 보여줍니다.
실용적인 가이드라인: 파라미터 수와 증거 추출 품질 사이에서 최적의 균형을 이루는 모델군(Qwen‑3, DeepSeek‑R1, GPT‑OSS‑20B)을 강조합니다.

방법론

데이터셋 구축
- 체코어와 슬로바키아어 뉴스 기사 댓글 스레드에서 실제 주장을 수집했습니다.
- 각 주장에 대해 후보 문서(뉴스 기사, 사실 확인 사이트 등)를 가져왔습니다.
- 유료 주석자들이 직접 주장을 지원하거나 반박하는 정확한 텍스트 구간을 표시했으며, 이진 “지원/반박” 라벨과 구간 경계를 함께 기록했습니다.
모델 프롬프트
- 각 LLM에 주장과 검색된 원본 문서를 포함한 프롬프트를 제공했습니다.
- 작업은 “주장을 지원하거나 반박하는 정확한 문장을 추출하라”는 형태로 제시되었습니다.
- 체인‑오브‑생각이나 few‑shot 예시는 사용하지 않아 모델 간 설정을 동일하게 유지했습니다.
평가 지표
- Exact Match (EM): 모델 출력이 인간이 주석한 구간과 정확히 일치하는가?
- F1 over token overlap: 모델이 구간의 대부분을 포착했을 때 부분 점수를 부여합니다.
- Invalid‑output rate: 모델이 의역, 요약, 혹은 구간을 전혀 반환하지 않은 경우의 비율을 측정합니다.
오류 분석
- 불일치를 “복사 오류”, “구간 이동”, “허위 생성”, “출력 없음”으로 분류했습니다.

결과 및 발견

Model (size)	Exact Match	F1	Invalid‑output
llama3.1‑8B	38 %	62 %	12 %
qwen3‑14B	35 %	60 %	14 %
deepseek‑r1‑32B	34 %	59 %	15 %
gpt‑oss‑20B	33 %	58 %	16 %
gpt‑oss‑120B	27 %	53 %	28 %

복사 충실도가 핵심: 가장 큰 오류 원인은 모델이 증거를 그대로 복사하지 않고 의역하는 것이었으며, 이는 평가에서 크게 감점되었습니다.
규모가 전부는 아니다: 8 B llama3.1 모델이 가장 높은 정확도(Exact Match)를 기록한 반면, 120 B GPT‑OSS 모델은 높은 Invalid‑output 비율을 보여 정렬 및 학습 데이터 품질이 파라미터 수보다 더 중요함을 시사합니다.
균형 잡힌 성능: Qwen‑3‑14B, DeepSeek‑R1‑32B, GPT‑OSS‑20B는 적절한 Exact Match 점수와 비교적 낮은 Invalid‑output 비율을 동시에 달성했습니다.

실용적 함의

사실 확인 파이프라인: 정확히 원문을 추출할 수 있는 LLM을 통합하면 “증거 수집” 단계를 자동화할 수 있어 인간 검토자는 고차원 추론에 집중할 수 있습니다.
다국어 중재 도구: 이 데이터셋과 결과는 체코어·슬로바키아어와 같은 저자원 언어에서도 효과적인 증거 추출이 가능함을 보여주어, 영어 외에도 중재 봇을 확장하도록 장려합니다.
모델 선택 가이드: 증거 기반 검증 서비스를 구축하는 팀은 거대한 모델보다 정렬이 잘 된 중간 규모 모델(예: Qwen‑3‑14B)을 선택하는 것이 ROI 측면에서 더 유리할 수 있습니다.
프롬프트 엔지니어링: 연구는 정확한 구간을 명시적으로 요청하는 프롬프트가 필요함을 강조하며, 추출 후 문자열 매칭 같은 후처리 검증을 통해 의역을 걸러낼 수 있음을 시사합니다.

제한점 및 향후 연구

도메인 제한: 데이터셋이 뉴스 기사 댓글에 초점을 맞추었으므로, 소셜 미디어 게시물, 포럼, 장문 텍스트 등에서는 성능이 다를 수 있습니다.
평가 편향: Exact Match 점수는 사실적 내용을 유지하는 정당한 의역을 크게 벌점하므로, 실제 유용한 모델 출력을 충분히 반영하지 못할 수 있습니다.
모델 다양성: 오픈소스 LLM만 테스트했으며, Claude, Gemini와 같은 상용 모델은 다른 행동을 보일 가능성이 있습니다.

향후 방향

추가 슬라브어 및 다양한 도메인을 포괄하도록 데이터셋을 확장합니다.
복사 충실도를 높이기 위해 LLM 추출과 검색‑증강 생성(RAG)을 결합한 하이브리드 접근법을 탐색합니다.
원문 그대로 복사하는 것을 명시적으로 보상하는 학습 목표를 개발해 의역 오류를 감소시킵니다.

저자

Antonín Jarolím
Martin Fajčík
Lucia Makaiová

논문 정보

arXiv ID: 2511.21401v1
Categories: cs.CL
Published: November 26, 2025
PDF: Download PDF

[Paper] LLM이 인간과 같은 세밀한 증거를 추출하여 증거 기반 사실 검증에 활용할 수 있을까?

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

향후 방향

저자

논문 정보

관련 글

[Paper] CodeFuse-CommitEval: 커밋 메시지와 코드 변경 불일치 탐지에서 LLM의 성능 벤치마킹을 향하여

아첨은 첫 번째 LLM ‘다크 패턴’이다

왜 AI 정렬은 더 나은 평가에서 시작되는가

[Paper] 검증기 탈출: 시연을 통한 추론 학습