[Paper] RenoBench: 인용 파싱 벤치마크

발행: 1개월 전 (2026년 3월 27일 오전 01:52 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.25640v1

Overview

이 논문은 RenoBench를 소개한다. RenoBench는 학술 인용문에서 구조화된 정보를 자동으로 추출하는 시스템의 성능을 평가하도록 설계된 공개 벤치마크이다. 네 개의 다양한 출판 생태계에서 실제 인용을 수집하고 고품질의 다국어 테스트 세트를 구성함으로써, 저자들은 인용 파싱 연구와 그 하위 응용 분야에 필요한 재현 가능한 기준을 제공한다.

핵심 기여

대규모 오픈‑소스 인용 데이터셋: SciELO, Redalyc, PKP, Open Research Europe에서 161 k개의 주석이 달린 참고문헌 중 추출한 10 k개의 수동 검증된 인용.
다중 언어 및 다중 형식 지원: 영어, 스페인어, 포르투갈어 등 다양한 언어와 학술지 논문, 학회 논문, 학위 논문, 사전 인쇄물 등을 포함합니다.
견고한 샘플링 파이프라인: 자동 검증 + 특징 기반 샘플링을 통해 인용 스타일과 특수 사례를 균형 있게 대표합니다.
포괄적인 평가 스위트: 저자, 제목, 출판처, 연도, DOI 등 필드 수준의 정밀도/재현율 지표를 다양한 베이스라인 파서와 최신 언어 모델 접근법에 적용합니다.
오픈 벤치마크 플랫폼: 명확한 리더보드와 재현성 가이드라인을 갖춘 공개 벤치마크를 제공하여 커뮤니티 주도의 발전을 촉진합니다.

방법론

데이터 수집 – 네 개의 생태계에서 PDF를 수집하고, 기존 PDF‑파싱 도구를 사용해 인용 문자열을 추출했습니다.
주석 달기 및 검증 – 인간 주석자가 각 인용에 대해 저자, 제목, 연도, 학회, DOI 등 구성 필드를 라벨링했습니다. 자동 스크립트가 불일치를 표시하면 수동으로 검토했습니다.
특징 기반 샘플링 – 일반적인 인용 스타일이 과도하게 대표되는 것을 방지하기 위해, 저자들은 각 인용에 대해 (언어, 저자 수, DOI 존재 여부 등) 특징 벡터를 계산하고 층화 샘플링을 수행하여 균형 잡힌 10 k‑항목 테스트 세트를 만들었습니다.
베이스라인 시스템 – 벤치마크는 전통적인 규칙 기반 파서(예: ParsCit, CERMINE)와 신경망 접근법(BiLSTM‑CRF) 및 대형 언어 모델(BERT, GPT‑3.5)을 평가합니다. 여기에는 제로샷 및 데이터의 일부에 대해 파인튜닝된 모델이 포함됩니다.
평가지표 – 필드 수준의 정밀도, 재현율, F1 점수를 보고하여 개발자가 각 시스템에서 어느 인용 구성 요소가 가장 오류가 발생하기 쉬운지 확인할 수 있도록 합니다.

Source: …

결과 및 발견

Fine‑tuned language models dominate: 2 k 인용문만으로 파인튜닝된 BERT 기반 모델은 전체 F1 점수 **92.4%**를 달성했으며, 규칙 기반 파서보다 15점 이상 앞섰습니다.
Zero‑shot LLMs are competitive: 별도의 작업별 학습 없이 사용된 GPT‑3.5는 전체 F1 점수 **84.7%**를 기록해, 바로 사용할 수 있는 강력한 성능을 보여주었습니다.
Traditional parsers still excel on specific fields: DOI 추출과 같이 패턴 매칭이 간단한 경우, 규칙 기반 시스템이 약 **98%**의 높은 정밀도를 보여 여전히 우수합니다.
Language impact: 비영어 인용문에 대해서는 성능이 약간 감소하여 F1 점수가 3–5% 낮아졌으며, 다국어 파인튜닝의 필요성을 강조합니다.
Error hotspots: 저자 이름 구분 및 학회/저널 명 추출이 가장 어려운 과제로 남아 있으며, 특히 인용문에 약어가 포함되거나 라틴 문자가 아닌 스크립트가 사용될 때 문제가 크게 발생합니다.

Practical Implications

Improved scholarly infrastructure – Libraries, citation managers (Zotero, Mendeley), and research portals can plug in a fine‑tuned LLM trained on RenoBench to achieve near‑human accuracy when ingesting new PDFs.
Automation of metadata pipelines – Publishers can replace brittle regex‑based parsers with a single, maintainable model that adapts to evolving citation styles across languages.
Facilitating meta‑research – Accurate, large‑scale citation extraction enables better bibliometrics, citation network analysis, and AI‑driven literature reviews.
Open‑source community boost – Because RenoBench is public and includes a leaderboard, startups and open‑source projects can benchmark their own parsers quickly, fostering faster iteration and competition.
Cost‑effective fine‑tuning – The authors demonstrate that fine‑tuning on just a few thousand examples yields high returns, making it feasible for teams with limited annotation budgets.

제한 사항 및 향후 작업

소스 생태계 범위 – 다양하지만, 벤치마크는 여전히 주요 상업 출판사(예: Elsevier, Springer)를 제외하고 있으며, 이들의 인용 스타일은 다를 수 있습니다.
정적 벤치마크 – 데이터셋이 고정되어 있어 인용 관행이 변화함에 따라 벤치마크를 지속적으로 유효하게 유지하려면 정기적인 업데이트가 필요합니다.
제한된 다중모달 단서 – 현재 평가는 일반 텍스트 인용에 초점을 맞추고 있으며, 시각적 단서(예: 위첨자, 각주 표시)를 포함하면 PDF에서 파싱을 더욱 개선할 수 있습니다.
향후 방향으로는 추가 언어로 확장하고, 지속적인 통합을 위한 “실시간” 평가 서버를 추가하며, 저자를 ORCID ID에, 학회를 DOI에 매핑하는 인용 파싱 + 엔터티 링크 모델을 탐색하는 것이 제안됩니다.

저자

Parth Sarin
Juan Pablo Alperin
Adam Buttrick
Dione Mentis

논문 정보

arXiv ID: 2603.25640v1
분류: cs.DL, cs.CL
출판일: 2026년 3월 26일
PDF: PDF 다운로드

[Paper] RenoBench: 인용 파싱 벤치마크

Overview

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 커밋하기 학습: 온라인 리포지토리 메모리를 활용한 유기적 Pull Requests 생성

[Paper] 가중치 공유가 토큰 임베딩을 출력 공간으로 편향시킴

[Paper] PerceptionComp: 복잡한 인식 중심 추론을 위한 비디오 벤치마크

[Paper] EnTaCs: 감정과 언어 선택 사이의 관계를 영어‑타밀 코드 스위칭에서 분석