AI가 생성한 가짜 레퍼런스를 탐지하는 도구를 만든 방법

발행: 1개월 전 (2026년 1월 6일 오전 01:27 GMT+9)

13 분 소요

Source: Dev.to

소개

LLM은 일상적인 학술 및 기술 글쓰기의 일부가 되었습니다.
하지만 학계에서 한동안 제기해 온 문제가 있습니다
(Rolling Stone 기사): LLM은 인용을 만들어내는 데 매우 능숙합니다.
이 인용은 그럴듯해 보이고 실제 논문과 거의 일치하는 듯하지만, 실제로는 존재하지 않는 작업을 자신 있게 인용합니다. 학계에서는 이러한 조작된 인용을 **유령 참고문헌(Ghost References)**이라고 부르고 있습니다.

연말을 맞아 저널‑에디터 충격적인 사건 🧵

“오늘 새로운 원고들을 검토하면서 내가 쓰지 않은 두 편의 논문이 내 이름으로 인용된 것을 발견했어요. 저자 입장에서 어리석은 행동이긴 하지만, 호기심이 생겨서 제목 중 하나를 웹에서 검색했더니 상황이 정말 이상해졌어요…” — Ben Williamson (@benpatrickwill.bsky.social) (2025‑12‑19)

교수 Ben Williamson와 Aaron Tay 가 설명했듯이, 근본적인 문제는 깊이 뿌리내려 있습니다:

“유령 인용 문제는 만성적인 상태였지만 이제는 급성으로 변했습니다.
이 감염은 GenAI 이전부터 존재했으며, 기술이 우리의 면역 반응을 약화시키고 전파 속도를 가속화했을 뿐입니다.”

이 문제는 일반 웹 검색 기능을 갖춘 LLM이 참고문헌을 신뢰성 있게 검증하지 못하면서 더욱 악화됩니다—웹 자체에 가짜 인용이 존재하기 때문에 위험한 피드백 루프가 형성됩니다. 잘못된 정보라도 이러한 출처는 널리 진짜로 받아들여지고, 논문에 많이 등장할수록 신뢰도가 높아집니다. 예를 들어, Prof. Williamson의 작업에 대한 Ghost References 중 하나는 이미 Google Scholar에서 43회 인용된 상태입니다.

리뷰어 부담 완화

피어 리뷰어들은 이미 업무가 과중한 상황이며, 이제는 가짜 참고문헌이 급증함에 따라 모든 참고문헌을 하나씩 복사‑붙여넣어 검색 엔진에 입력해 존재 여부를 확인해야 합니다
(Jan Laksar’s LinkedIn post).

이 작업은 보람이 적은 지루한 일이라 논문의 실제 내용 검토에 집중하기 위해 종종 생략됩니다. 그 결과 발생하는 **“검증 격차”**가 바로 유령 참고문헌이 빠져나올 수 있는 구역입니다.

나에게 일어난 일

추상적인 우려가 구체적인 문제로 변한 것은 내가 내 논문이 출판된 기사에서 잘못 인용된 것을 발견했을 때였다 (Lidian Y. C. S.의 LinkedIn 게시물).

학술지에서 잘못된 메타데이터를 보는 것은 나에게 경각심을 일깨워 주었고, 그 결과 CERCA 를 만들게 되었다. 이는 연구자, 리뷰어, 편집자가 참고문헌의 정확성을 신속하게 검증할 수 있도록 돕기 위해 설계된 오픈소스 도구이다. 학술 글쓰기에서 신뢰, 투명성, 신뢰성을 향상시키기 위해 만들어졌다.

Source: …

CERCA란 무엇인가?

CERCA (Citation Extraction & Reference Checking Assistant)는 가벼운 명령줄 유틸리티로, 다음을 수행합니다:

PDF를 스캔하여 참고문헌 목록을 추출합니다.
신뢰할 수 있는 저장소(OpenAlex, Crossref, Zenodo)에 질의합니다.
신뢰도 점수와 함께 잠재적으로 잘못된 인용을 표시합니다.
메타데이터 필드 불일치(저자 이름, 제목, 연도 등)를 보여줍니다.

데모

몇 초 만에 CERCA는:

PDF에서 참고문헌을 추출하고,

OpenAlex, Crossref, Zenodo에 질의하고,

의심스러운 인용을 표시하며,

메타데이터 필드 중 일치하지 않는 부분을 강조합니다.

각 참고문헌을 일일이 복사‑붙여넣기 하는 대신, 몇 분 안에 검토할 수 있는 검증 보고서를 받아볼 수 있습니다.

Source: …

개발 인사이트

CERCA를 구축하려면 특히 퍼지 매칭과 서지 파싱과 관련된 몇 가지 흥미로운 엔지니어링 과제를 해결해야 했습니다.

1. 지저분한 인용문 파싱

학술 인용은 APA, MLA, IEEE, ACM, Vancouver 등 수십 가지 스타일로 나타납니다. 거짓 양성을 일으키지 않으면서 신뢰성 있게 참고문헌을 추출하는 파서를 만드는 것이 첫 번째 장애물でした. 저는 **Cermine**이라는 Java 라이브러리를 활용했는데, 이 라이브러리는 무거운 PDF 파싱과 메타데이터 추출을 담당합니다.

2. 검증 로직

두 번째 과제는 언제 인용이 오타인지 환상인지 판단하는 것이었습니다. 저는 추출된 메타데이터를 신뢰할 수 있는 API가 반환하는 레코드와 비교하는 퍼지 매칭 휴리스틱을 구현했습니다. 이 도구는 다음과 같은 문제를 감지할 수 있습니다:

Issue(문제)	Example (Ghost Citation) (예시)
Author list mismatch (저자 목록 불일치)	6명의 허위 저자, 9명의 누락
Title incomplete (제목 불완전)	잘리거나 변형된 제목
First‑author name inconsistency (첫 번째 저자 이름 불일치)	첫 저자 이름 철자 오류 또는 잘못된 저자

예시

Cerqueira, M.; Tavares, A.; Couto, C.; Maciel, R.; Santos, D.; Figueira, A.
"Assessing software practitioners' work engagement and job satisfaction."

CERCA가 감지함:

⚠️ 저자 목록 불일치 (6명 허위, 9명 누락)
⚠️ 제목 불완전
⚠️ 첫 저자 이름 불일치

정확한 참고문헌:

Cerqueira, L., Nunes, L., Guerra, R., … & Mendonça, M. (2025). Assessing Software Practitioners’ Work Engagement and Job Satisfaction in a Large Software Company—What We Have Learned. SN Computer Science, 6(3), 273.

3. 신뢰할 수 있는 출처

CERCA는 OpenAlex, Crossref, Zenodo를 조회합니다—이들은 DOI 수준 메타데이터를 제공하며 “가짜 인용” 문제에 덜 취약한 저장소입니다. 도구는 결과를 집계하고 신뢰 점수를 계산한 뒤 간결한 보고서를 제공합니다.

시작하기

# Clone the repository
git clone https://github.com/lidianycs/cerca.git
cd cerca

# Install dependencies (requires Python 3.9+)
pip install -r requirements.txt

# Run CERCA on a PDF
cerca check path/to/your-paper.pdf

출력은 각 참고문헌, 검증 상태 및 일치하지 않는 필드를 요약한 마크다운 테이블입니다.

왜 중요한가

검토자 작업량 감소 – 더 이상 수동 복사‑붙여넣기가 필요 없습니다.
문헌 품질 향상 – 가짜 인용이 출판 전에 잡힙니다.
신뢰도 증가 – 저자, 편집자, 그리고 독자들은 정확한 참고문헌에 의존할 수 있습니다.

노력에 동참하세요

자신의 작업에서 유령 인용을 발견했거나 CERCA를 개선하는 데 도움을 주고 싶다면:

Star the repository on GitHub.
Submit issues with examples of false positives/negatives.
Contribute code or documentation.

함께 가짜 인용의 확산을 억제하고 학술 커뮤니케이션을 신뢰할 수 있게 유지할 수 있습니다.

🔍 Manual Fallback
자동 검색이 실패하면, 오른쪽 클릭으로 참고 문헌 제목을 수동으로 검색할 수 있습니다.

🔐 Privacy‑first design – PDF는 절대 업로드되지 않으며 사용자의 기기를 떠나지 않습니다. 모든 PDF 파싱 및 참고 문헌 추출은 로컬에서 수행됩니다.

기술 스택

Java + JavaFX – 크로스‑플랫폼 데스크톱 애플리케이션
Cermine – PDF 파싱 및 메타데이터 추출
OpenAlex, Crossref, Zenodo APIs – 참고문헌 검증
JavaWuzzy – 인용 변형 및 오타 처리

나는 이 스택을 선택하여 JavaFX를 사용한 Java 데스크톱 앱을 구축했으며, 이를 통해 Windows, macOS, Linux에서의 크로스‑플랫폼 호환성을 확보했습니다.

왜 오픈소스인가?

도구의 목적은 투명성을 확보하는 것이기 때문입니다. 이는 공동의 문제를 해결하며, CERCA를 오픈소스로 만들면서 커뮤니티가 코드를 감사하고, 파서를 개선하며, 더 많은 데이터베이스를 통합하도록 초대합니다.

이 도구는 GNU Affero General Public License (AGPL‑3.0) 하에 라이선스됩니다.

CERCA를 사용할 수 있는 사람은?

연구자 최종 원고 검토 수행
검토자 참고문헌 일관성 평가
편집자 편집 품질 관리 지원
메타연구자 및 재현성 워크플로우

다시 참여하기 (Again)

Ghost references threaten scholarly trust. CERCA는 시작에 불과하지만 여러분의 전문 지식이 필요합니다.

지금 사용해 보세요:

📥 Download CERCA (v1.1‑alpha) – Windows | macOS | Linux

Cerca는 유령 인용 문제를 완전히 해결하지 못하며 아직 진행 중인 작업입니다. 작은 실용적인 한 걸음이죠. 연구자가 하나라도 잘못된 인용을 잡아내고, 리뷰어의 시간을 절약하며, AI‑생성 텍스트에 대한 더 비판적인 접근을 장려한다면 이미 목적을 달성한 것입니다.

개선에 도움 주세요:

🐛 특수한 경우를 발견했나요?
💡 아이디어가 있나요?
🔧 기여하고 싶으신가요?

👉🏾 도구를 다운로드하고 여기서 저장소를 살펴보세요.

이 프로젝트는 연구자와 개발자 커뮤니티가 함께 실험하고, 평가하며, 더 나은 도구를 만들도록 초대합니다.

결과를 공유하세요: CERCA가 여러분의 작업에서 유령 인용을 잡아냈나요? 댓글로 알려주세요.