[Paper] 대규모 신문 아카이브에서 Neural Topic Modeling을 통한 역사적 인사이트 추출 자동화

발행: (2025년 12월 13일 오전 12:15 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.11635v1

Overview

이 논문은 BERTopic이라는 신경망 기반 토픽 모델을 활용해 방대한 역사 신문 컬렉션에서 주제를 추출하는 새로운 방법을 제시한다. 1955‑2018년 동안 핵 전력 및 안전에 관한 기사 6여십 년을 대상으로 적용함으로써, 현대 NLP가 전통적인 LDA와 같은 모델이 어려워하는 대중 담론의 부상, 쇠퇴, 변화를 어떻게 드러낼 수 있는지를 보여준다.

Key Contributions

  • Neural topic modeling for archives – 1955‑2018년 사이의 잡음이 많은 OCR 기반 신문 텍스트에 BERTopic을 대규모로 적용한 최초 사례.
  • Temporal topic tracking – 특정 주제(예: 핵무기 vs. 민간 핵에너지)가 시간에 따라 어떻게 변하는지를 시각화하는 파이프라인을 도입.
  • Noise‑robust preprocessing – OCR 오류를 완화하고 변환기 임베딩의 의미적 품질을 유지하기 위한 실용적인 전처리 단계 제시.
  • Comparative evaluation – BERTopic을 LDA 및 기타 베이스라인 모델과 비교 평가하여, 역사 데이터에서 일관성 및 해석 가능성이 우수함을 강조.
  • Open‑source toolkit – 전체 전처리, 모델링, 시각화 코드를 공개하여 다른 아카이브 분야에서도 재현성을 확보하도록 함.

Methodology

  1. Data collection & cleaning – 저자들은 디지털화된 신문 기사를 스크랩하고, 언어 감지를 적용한 뒤, 불필요한 텍스트를 제거하고, OCR 아티팩트를 줄이기 위해 맞춤법 교정 휴리스틱을 사용하였다.
  2. Embedding generation – 각 기사는 사전 학습된 다국어 변환기(예: sentence‑bert)로 인코딩되어, 잡음이 많은 입력에서도 문맥을 포착하는 밀집 벡터로 변환된다.
  3. Dimensionality reduction – Uniform Manifold Approximation and Projection (UMAP)은 고차원 임베딩을 압축하면서 지역 토픽 구조를 보존한다.
  4. Clustering – HDBSCAN이 압축된 벡터를 밀집 클러스터로 묶으며, 각 클러스터가 후보 “토픽”에 해당한다.
  5. Topic representation – 각 클러스터에 대해 클래스 기반 TF‑IDF(c‑TF‑IDF)를 사용해 가장 대표적인 단어를 추출하고, 인간이 읽을 수 있는 라벨을 만든다.
  6. Temporal analysis – 기사에 타임스탬프를 부여하고, 연도별 토픽 비중을 집계해 트렌드 라인 및 히트맵을 통해 담론 변화를 시각화한다.
  7. Baseline comparison – 동일 코퍼스에 대해 LDA를 병행 실행하여 토픽 일관성(UMass 및 CV 점수)과 해석 가능성을 기준점으로 삼는다.

Results & Findings

  • Higher coherence – BERTopic은 CV 일관성 점수 0.48을 기록했으며, LDA의 0.31에 비해 의미적으로 더 일관된 토픽을 생성한다.
  • Dynamic theme discovery – 초기(1950‑60년대)에는 “핵무기 실험”과 “냉전 공포”가 주를 이루었고, 1970‑80년대에는 “핵안전 규제”와 “에너지 위기”가 부각된다.
  • Co‑occurrence insights – 모델은 핵발전과 핵무기 논의가 겹치는 시기(예: 체르노빌 사고 이후)를 포착해, 민간·군사 핵 이슈가 연계된 대중 불안을 시사한다.
  • Scalability – 약 120만 개 기사 처리에 단일 GPU에서 약 12시간이 소요돼, 국가 규모 아카이브에도 적용 가능함을 입증한다.
  • Qualitative validation – 역사가들이 상위 10개 토픽을 검토한 결과, 추출된 주제가 알려진 역사 서사와 일치하고, “핵폐기물 운송 경로”와 같은 덜 알려진 하위 주제도 드러났음이 확인되었다.

Practical Implications

  • Digital humanities pipelines – 공개된 BERTopic 워크플로우를 활용해 다른 아카이브(예: 입법 기록, 소셜 미디어 역사)도 깊은 ML 지식 없이 탐색 가능.
  • Media monitoring & risk analysis – 규제 기술(핵, AI, 바이오테크)과 관련된 장기 감성을 추적해 정책 변화나 대중 반발을 사전에 예측할 수 있음.
  • Search & discovery tools – 뉴스 집계 서비스가 신경망 토픽을 인덱싱에 활용하면, 정적 키워드가 아닌 변화하는 주제로 아카이브를 탐색할 수 있다.
  • Policy‑making support – 정부가 현재 논쟁(예: 원자력 발전소 건설에 대한 대중 반응)과 관련된 역사적 선례를 신속히 도출해 이해관계자 참여 전략을 수립하는 데 활용 가능.
  • Improved OCR pipelines – 논문의 잡음 감소 기법(문자 수준 언어 모델, 맞춤법 교정 등)은 디지털화 작업 전반에 적용해 하위 NLP 성능을 향상시킬 수 있다.

Limitations & Future Work

  • OCR dependency – 전처리에도 불구하고, 오래된 저해상도 스캔에서는 잔존 OCR 오류가 임베딩 품질에 영향을 미친다.
  • Transformer bias – 사전 학습된 언어 모델이 역사적 언어에 대해 미세 조정되지 않아 고어 표현이 충분히 반영되지 않을 수 있다.
  • Granularity trade‑off – HDBSCAN의 밀도 기반 클러스터링은 빈도가 낮은 독립 토픽을 합칠 위험이 있어, 니치 서사를 가릴 수 있다.
  • Future directions – 저자들은 시대별 코퍼스에 변환기를 미세 조정하고, 사진·광고와 같은 멀티모달 데이터를 통합하며, 하위 주제 구조를 포착할 수 있는 계층적 토픽 모델을 탐색할 것을 제안한다.

Authors

  • Keerthana Murugaraj
  • Salima Lamsiyah
  • Marten During
  • Martin Theobald

Paper Information

  • arXiv ID: 2512.11635v1
  • Categories: cs.CL, cs.AI, cs.IR
  • Published: December 12, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »