[Paper] CitiLink-Summ: 유럽 포르투갈 지방 회의록에서 토론 주제 요약
발행: (2026년 2월 19일 오전 02:03 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.16607v1
개요
이 논문은 CitiLink‑Summ을 소개한다. 이는 유럽 포르투갈어 시 의회 회의록을 공개적으로 제공하는 최초의 말뭉치이며, 수천 개의 수동으로 작성된 주제 수준 요약과 짝을 이룬다. 이 자원을 제공하고 최신 요약 모델을 사용한 베이스라인 실험을 제시함으로써, 저자들은 일반 시민이 이해하기 어려운 밀도 높은 행정 텍스트에 대한 NLP 연구의 새로운 길을 열었다.
주요 기여
- 새 데이터셋: 100개의 지방 자치단체 회의록(≈ 2 백만 단어)에 2,322개의 고품질 수작업 요약을 주석 달아 각 요약을 특정 토론 주제와 정렬했습니다.
- 첫 번째 벤치마크: 유럽 포르투갈 지방 자치 문서의 주제 수준 요약을 위한 최초 평가 스위트를 구축했습니다.
- 베이스라인 실험: 최신 생성 모델(BART, PRIMERA) 및 대형 언어 모델(LLM)을 코퍼스에 미세 조정하고 테스트했습니다.
- 포괄적 평가: 어휘적(ROUGE, BLEU, METEOR) 및 의미적(BERTScore) 지표를 사용한 결과를 보고하며 현재 모델과 인간 성능 간의 격차를 강조합니다.
- 오픈소스 공개: 재현성과 커뮤니티 기여를 촉진하기 위해 허용적인 라이선스 하에 코퍼스, 전처리 스크립트 및 학습 체크포인트를 공개합니다.
방법론
- 데이터 수집 및 주석 달기
- 회의록은 여러 포르투갈 지방자치단체에서 수집하여 디지털화했습니다.
- 법률 및 언어 전문가가 각 토론 주제를 수동으로 추출하고, 간결하고 독립적인 요약문(≈ 30–50단어)을 작성했습니다.
- 전처리
- 텍스트를 정제하고, 포르투갈어 전용 토크나이저로 토큰화한 뒤 문서 → 주제 → 요약 삼중항으로 분할했습니다.
- 지방자치단체별 주제 분포를 유지하면서 학습/검증/테스트 비율(80/10/10)로 데이터를 나누었습니다.
- 모델 파인튜닝
- BART‑base와 PRIMERA(다문서 요약 모델)를 학습 세트에서 3 epoch 동안 표준 교차 엔트로피 손실로 파인튜닝했습니다.
- LLM의 경우, GPT‑3.5‑turbo와 LLaMA‑13B를 사용해 제로샷 및 몇 샷 프롬프트를 수행했으며, 전체 회의록과 “각 토론 주제를 요약하라”는 짧은 지시문을 입력했습니다.
- 평가
- 생성된 요약을 인간이 만든 레퍼런스와 비교하여 ROUGE‑1/2/L, BLEU, METEOR, BERTScore(F1)를 사용했습니다.
- 통계적 유의성은 페어드 부트스트랩 리샘플링으로 평가했습니다.
결과 및 발견
| 모델 | ROUGE‑1 | ROUGE‑2 | ROUGE‑L | BERTScore‑F1 |
|---|---|---|---|---|
| BART‑base (fine‑tuned) | 38.7 | 15.2 | 35.9 | 71.4 |
| PRIMERA (fine‑tuned) | 41.3 | 17.0 | 38.2 | 73.1 |
| GPT‑3.5‑turbo (zero‑shot) | 32.5 | 11.8 | 30.1 | 66.2 |
| LLaMA‑13B (few‑shot) | 35.0 | 13.4 | 32.8 | 68.9 |
| Human reference (upper bound) | 100 | 100 | 100 | 100 |
- PRIMERA가 가장 높은 어휘 점수를 기록했으며, 이는 표준 인코더‑디코더 모델보다 주제의 핵심 구문을 더 효과적으로 포착할 수 있음을 나타냅니다.
- LLM은 특히 ROUGE‑2에서 파인튜닝된 모델에 비해 뒤처지며, 이 특수 분야에서 정확한 구문 겹침을 처리하는 데 어려움을 겪는 것으로 보입니다.
- 모든 자동 점수는 인간 상한치와 아직 크게 차이 나며, 이는 복잡하고 밀집된 행정 언어를 요약하는 것이 얼마나 어려운 작업인지를 강조합니다.
Practical Implications
- Civic Tech Platforms: 개발자는 PRIMERA‑기반 파이프라인을 통합하여 주제별 요약을 자동 생성하고, 회의록을 검색 가능하고 시민 친화적으로 만들 수 있습니다.
- Transparency & Accountability: 지방자치단체 웹사이트는 전체 회의록과 함께 간결한 요약을 자동으로 게시하여 대중 감시의 장벽을 낮출 수 있습니다.
- Multilingual Extension: 데이터셋과 코드베이스는 갈리시아어, 카탈루냐어와 같은 저자원 언어에 대한 유사 자원을 구축하기 위한 템플릿으로 활용될 수 있습니다.
- Workflow Automation: 시청 직원은 모델을 사용해 초안 요약을 미리 채워 수작업을 줄이고 문서화를 표준화할 수 있습니다.
- Search & Retrieval: 요약은 인덱싱을 향상시켜 개발자가 “3월에 쓰레기 수거에 대해 어떤 결정이 내려졌나요?”와 같은 시민 질문에 전체 PDF를 스캔하지 않고도 답변할 수 있는 더 똑똑한 Q&A 봇을 구축하도록 합니다.
제한 사항 및 향후 연구
- 규모 및 다양성: 제한된 지방자치단체 집합에서 100분의 회의록만 주석이 달렸으며, 보다 넓은 일반화를 위해 더 많은 지역과 더 긴 기간으로 확장해야 합니다.
- 주제 세분화: 요약은 사전에 지정된 주제를 대상으로 하며, 자동 주제 감지(주제 구분)는 아직 해결되지 않은 과제입니다.
- 평가 범위: 측정 지표는 n‑gram 겹침에 초점을 맞추고 있어, 실제 활용도를 평가하기 위해 인간 평가(가독성, 사실 정확성)가 필요합니다.
- 모델 적응: 도메인에 맞게 조정된 LLM(예: 포르투갈어 법률 텍스트로 GPT‑NeoX 파인튜닝)을 탐색하면 성능 격차를 줄일 수 있습니다.
- 교차 언어 전이: CitiLink‑Summ으로 학습된 모델이 다국어 전이 학습을 통해 관련 로맨스 언어의 회의록 요약에 도움이 되는지 조사합니다.
저자
- Miguel Marques
- Ana Luísa Fernandes
- Ana Filipa Pacheco
- Rute Rebouças
- Inês Cantante
- José Isidro
- Luís Filipe Cunha
- Alípio Jorge
- Nuno Guimarães
- Sérgio Nunes
- António Leal
- Purificação Silvano
- Ricardo Campos
논문 정보
- arXiv ID: 2602.16607v1
- 카테고리: cs.CL
- 출판일: 2026년 2월 18일
- PDF: PDF 다운로드