[Paper] 구조 우선, 추론 다음: 금융 문서에서 수치 추론을 위한 지식 그래프를 활용한 대형 언어 모델 강화
Source: arXiv - 2601.07754v1
번역을 진행하려면 실제 텍스트(초록, 본문, 섹션 등)를 제공해 주셔야 합니다.
코드 블록이나 URL는 그대로 두고, 번역이 필요한 부분만 복사해서 보내주시면 요청하신 대로 한국어로 번역해 드리겠습니다.
Overview
이 논문은 대형 언어 모델(LLM)과 금융 문서의 지식‑그래프(KG) 표현을 결합한 하이브리드 프레임워크를 소개하여 수치 추론 성능을 향상시킵니다. 먼저 텍스트에서 구조화된 스키마를 추출하고, 그 구조 위에서 LLM이 “추론”하도록 함으로써, 저자들은 FinQA 벤치마크에서 답변 정확도가 눈에 띄게 상승하는 것을 달성했습니다.
주요 기여
- 스키마‑우선 추출: 원시 재무 보고서에서 도메인‑특화 KG(엔터티, 관계, 수치 속성)를 자동으로 구축하는 경량 파이프라인.
- LLM‑KG 통합: KG를 Llama 3.1 8B Instruct에 입력하는 방법으로, 모델이 계산을 수행하기 전에 구조화된 사실을 질의할 수 있게 함.
- 실증적 향상: KG 증강 없이 동일한 LLM을 사용한 경우에 비해 FinQA에서 실행 정확도가 약 12 % 상대적으로 향상됨을 보여줌.
- 오픈‑소스 재현성: 모든 코드, KG 구축 스크립트 및 평가 스크립트를 공개하여 다른 연구자와 엔지니어가 결과를 재현할 수 있도록 함.
방법론
-
문서 파싱 및 KG 구축
- 원시 PDF/HTML 재무 보고서를 토큰화하고 규칙 기반 추출기를 통해 주요 엔터티(예: “Revenue”, “Operating Income”), 숫자 값, 관계 단서(예: “increased by”, “as a percentage of”)를 식별합니다.
- 이러한 요소들은 노드가 숫자 리터럴을 보유하고 엣지가 의미 관계(예: has‑value, derived‑from)를 인코딩하는 방향 그래프로 조합됩니다.
-
LLM을 위한 프롬프트 엔지니어링
- KG는 원래 질문 프롬프트 앞에 추가되는 간결하고 인간이 읽을 수 있는 “facts block”으로 직렬화됩니다.
- LLM은 두 입력을 받습니다: facts block(구조화된 컨텍스트)과 자연어 질의.
-
수치 추론 루프
- 모델은 먼저 KG에서 관련 숫자 노드를 추출하고, 필요한 연산(덧셈, 뺄셈, 백분율 계산 등)을 수행한 뒤, 선택적인 단계별 설명과 함께 자연어 답변을 생성합니다.
-
평가
- 실험은 실제 재무 Q&A 쌍과 정답 실행 트레이스를 포함하는 FinQA 데이터셋에서 수행됩니다.
- 평가 지표: Execution Accuracy(최종 숫자 답변이 정답과 일치하는지)와 Explanation Accuracy(생성된 추론 단계가 레퍼런스와 얼마나 일치하는지).
결과 및 발견
| 모델 | 실행 정확도 (FinQA) | 베이스라인 LLM 대비 상대적 향상 |
|---|---|---|
| Llama 3.1 8B Instruct (baseline) | 68.4 % | – |
| Llama 3.1 8B Instruct + KG (proposed) | 76.7 % | ≈ 12 % |
- KG‑증강 시스템은 모든 질문 유형(산술, 비교, 집계)에서 베이스라인 LLM보다 일관되게 높은 성능을 보입니다.
- 설명 품질도 향상되어, 모델이 답변을 정당화할 때 올바른 KG 노드를 인용하는 경우가 더 많아졌습니다.
- Ablation 연구에서는 KG를 제거하거나 비구조화된 형식으로 제공할 경우 성능이 다시 베이스라인 수준으로 떨어지는 것이 확인되어, 구조화된 “facts block”의 중요성이 입증되었습니다.
실용적 시사점
- Financial QA bots: 개발자는 KG 추출 파이프라인을 기존 채팅 기반 어시스턴트(예: Slack 봇, 고객 서비스 포털)에 삽입하여 연례 보고서, 실적 발표, SEC 제출물 등에서 보다 신뢰할 수 있는 수치 답변을 제공할 수 있다.
- RegTech & compliance: 자동화된 감사 도구는 이 프레임워크를 활용해 제출물에서 추출한 구조화된 데이터와 수치 주장(예: “매출이 전년 대비 15 % 성장”)을 검증함으로써 수동 검토 작업을 감소시킬 수 있다.
- Data‑driven dashboards: KG를 쿼리 가능한 API(예: GraphQL)로 공개하면 하위 분석 플랫폼이 새로운 메트릭마다 LLM을 재학습하지 않고도 즉석 계산을 수행할 수 있다.
- Cost‑effective scaling: 이 접근 방식은 80억 파라미터 오픈소스 LLM으로도 작동하므로 기업은 비용이 많이 드는 상용 대형 모델을 사용하지 않으면서도 최첨단 성능을 달성할 수 있다.
제한 사항 및 향후 작업
- Domain specificity: 규칙 기반 KG 추출기는 일반적인 재무 보고서 언어에 맞게 조정되어 있으며, 다른 도메인(예: 보험, 부동산)에는 적응이 필요할 수 있습니다.
- Scalability of KG size: 매우 큰 보고서는 조밀한 그래프를 생성하여 프롬프트 길이 제한을 초과할 수 있습니다; 향후 작업에서는 계층적 요약이나 검색 기반 생성 방식을 탐색할 수 있습니다.
- Error propagation: 초기 엔터티/숫자 추출의 오류가 하위 추론에 직접 영향을 미칩니다; 신뢰도 점수 메커니즘을 통합하면 이를 완화할 수 있습니다.
- Broader LLM integration: 이 연구는 Llama 3.1 8B에 초점을 맞추고 있습니다; 최신 지시 튜닝 모델이나 멀티모달 모델로 프레임워크를 평가하면 추가적인 이점을 발견할 수 있습니다.
저자
- Aryan Mishra
- Akash Anil
논문 정보
- arXiv ID: 2601.07754v1
- 분류: cs.CL
- 출판일: 2026년 1월 12일
- PDF: Download PDF