[Paper] CitiLink-Summ: 유럽 포르투갈 지방 회의록에서 토론 주제 요약

발행: (2026년 2월 19일 오전 02:03 GMT+9)
9 분 소요
원문: arXiv

Source: arXiv - 2602.16607v1

개요

이 논문은 CitiLink‑Summ을 소개한다. 이는 유럽 포르투갈어 시 의회 회의록을 공개적으로 제공하는 최초의 말뭉치이며, 수천 개의 수동으로 작성된 주제 수준 요약과 짝을 이룬다. 이 자원을 제공하고 최신 요약 모델을 사용한 베이스라인 실험을 제시함으로써, 저자들은 일반 시민이 이해하기 어려운 밀도 높은 행정 텍스트에 대한 NLP 연구의 새로운 길을 열었다.

주요 기여

  • 새 데이터셋: 100개의 지방 자치단체 회의록(≈ 2 백만 단어)에 2,322개의 고품질 수작업 요약을 주석 달아 각 요약을 특정 토론 주제와 정렬했습니다.
  • 첫 번째 벤치마크: 유럽 포르투갈 지방 자치 문서의 주제 수준 요약을 위한 최초 평가 스위트를 구축했습니다.
  • 베이스라인 실험: 최신 생성 모델(BART, PRIMERA) 및 대형 언어 모델(LLM)을 코퍼스에 미세 조정하고 테스트했습니다.
  • 포괄적 평가: 어휘적(ROUGE, BLEU, METEOR) 및 의미적(BERTScore) 지표를 사용한 결과를 보고하며 현재 모델과 인간 성능 간의 격차를 강조합니다.
  • 오픈소스 공개: 재현성과 커뮤니티 기여를 촉진하기 위해 허용적인 라이선스 하에 코퍼스, 전처리 스크립트 및 학습 체크포인트를 공개합니다.

방법론

  1. 데이터 수집 및 주석 달기
    • 회의록은 여러 포르투갈 지방자치단체에서 수집하여 디지털화했습니다.
    • 법률 및 언어 전문가가 각 토론 주제를 수동으로 추출하고, 간결하고 독립적인 요약문(≈ 30–50단어)을 작성했습니다.
  2. 전처리
    • 텍스트를 정제하고, 포르투갈어 전용 토크나이저로 토큰화한 뒤 문서 → 주제 → 요약 삼중항으로 분할했습니다.
    • 지방자치단체별 주제 분포를 유지하면서 학습/검증/테스트 비율(80/10/10)로 데이터를 나누었습니다.
  3. 모델 파인튜닝
    • BART‑basePRIMERA(다문서 요약 모델)를 학습 세트에서 3 epoch 동안 표준 교차 엔트로피 손실로 파인튜닝했습니다.
    • LLM의 경우, GPT‑3.5‑turbo와 LLaMA‑13B를 사용해 제로샷 및 몇 샷 프롬프트를 수행했으며, 전체 회의록과 “각 토론 주제를 요약하라”는 짧은 지시문을 입력했습니다.
  4. 평가
    • 생성된 요약을 인간이 만든 레퍼런스와 비교하여 ROUGE‑1/2/L, BLEU, METEOR, BERTScore(F1)를 사용했습니다.
    • 통계적 유의성은 페어드 부트스트랩 리샘플링으로 평가했습니다.

결과 및 발견

모델ROUGE‑1ROUGE‑2ROUGE‑LBERTScore‑F1
BART‑base (fine‑tuned)38.715.235.971.4
PRIMERA (fine‑tuned)41.317.038.273.1
GPT‑3.5‑turbo (zero‑shot)32.511.830.166.2
LLaMA‑13B (few‑shot)35.013.432.868.9
Human reference (upper bound)100100100100
  • PRIMERA가 가장 높은 어휘 점수를 기록했으며, 이는 표준 인코더‑디코더 모델보다 주제의 핵심 구문을 더 효과적으로 포착할 수 있음을 나타냅니다.
  • LLM은 특히 ROUGE‑2에서 파인튜닝된 모델에 비해 뒤처지며, 이 특수 분야에서 정확한 구문 겹침을 처리하는 데 어려움을 겪는 것으로 보입니다.
  • 모든 자동 점수는 인간 상한치와 아직 크게 차이 나며, 이는 복잡하고 밀집된 행정 언어를 요약하는 것이 얼마나 어려운 작업인지를 강조합니다.

Practical Implications

  • Civic Tech Platforms: 개발자는 PRIMERA‑기반 파이프라인을 통합하여 주제별 요약을 자동 생성하고, 회의록을 검색 가능하고 시민 친화적으로 만들 수 있습니다.
  • Transparency & Accountability: 지방자치단체 웹사이트는 전체 회의록과 함께 간결한 요약을 자동으로 게시하여 대중 감시의 장벽을 낮출 수 있습니다.
  • Multilingual Extension: 데이터셋과 코드베이스는 갈리시아어, 카탈루냐어와 같은 저자원 언어에 대한 유사 자원을 구축하기 위한 템플릿으로 활용될 수 있습니다.
  • Workflow Automation: 시청 직원은 모델을 사용해 초안 요약을 미리 채워 수작업을 줄이고 문서화를 표준화할 수 있습니다.
  • Search & Retrieval: 요약은 인덱싱을 향상시켜 개발자가 “3월에 쓰레기 수거에 대해 어떤 결정이 내려졌나요?”와 같은 시민 질문에 전체 PDF를 스캔하지 않고도 답변할 수 있는 더 똑똑한 Q&A 봇을 구축하도록 합니다.

제한 사항 및 향후 연구

  • 규모 및 다양성: 제한된 지방자치단체 집합에서 100분의 회의록만 주석이 달렸으며, 보다 넓은 일반화를 위해 더 많은 지역과 더 긴 기간으로 확장해야 합니다.
  • 주제 세분화: 요약은 사전에 지정된 주제를 대상으로 하며, 자동 주제 감지(주제 구분)는 아직 해결되지 않은 과제입니다.
  • 평가 범위: 측정 지표는 n‑gram 겹침에 초점을 맞추고 있어, 실제 활용도를 평가하기 위해 인간 평가(가독성, 사실 정확성)가 필요합니다.
  • 모델 적응: 도메인에 맞게 조정된 LLM(예: 포르투갈어 법률 텍스트로 GPT‑NeoX 파인튜닝)을 탐색하면 성능 격차를 줄일 수 있습니다.
  • 교차 언어 전이: CitiLink‑Summ으로 학습된 모델이 다국어 전이 학습을 통해 관련 로맨스 언어의 회의록 요약에 도움이 되는지 조사합니다.

저자

  • Miguel Marques
  • Ana Luísa Fernandes
  • Ana Filipa Pacheco
  • Rute Rebouças
  • Inês Cantante
  • José Isidro
  • Luís Filipe Cunha
  • Alípio Jorge
  • Nuno Guimarães
  • Sérgio Nunes
  • António Leal
  • Purificação Silvano
  • Ricardo Campos

논문 정보

  • arXiv ID: 2602.16607v1
  • 카테고리: cs.CL
  • 출판일: 2026년 2월 18일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »