[Paper] CitiLink-Summ: 유럽 포르투갈 지방 회의록에서 토론 주제 요약

발행: 3일 전 (2026년 2월 19일 오전 02:03 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.16607v1

개요

이 논문은 CitiLink‑Summ을 소개한다. 이는 유럽 포르투갈어 시 의회 회의록을 공개적으로 제공하는 최초의 말뭉치이며, 수천 개의 수동으로 작성된 주제 수준 요약과 짝을 이룬다. 이 자원을 제공하고 최신 요약 모델을 사용한 베이스라인 실험을 제시함으로써, 저자들은 일반 시민이 이해하기 어려운 밀도 높은 행정 텍스트에 대한 NLP 연구의 새로운 길을 열었다.

주요 기여

새 데이터셋: 100개의 지방 자치단체 회의록(≈ 2 백만 단어)에 2,322개의 고품질 수작업 요약을 주석 달아 각 요약을 특정 토론 주제와 정렬했습니다.
첫 번째 벤치마크: 유럽 포르투갈 지방 자치 문서의 주제 수준 요약을 위한 최초 평가 스위트를 구축했습니다.
베이스라인 실험: 최신 생성 모델(BART, PRIMERA) 및 대형 언어 모델(LLM)을 코퍼스에 미세 조정하고 테스트했습니다.
포괄적 평가: 어휘적(ROUGE, BLEU, METEOR) 및 의미적(BERTScore) 지표를 사용한 결과를 보고하며 현재 모델과 인간 성능 간의 격차를 강조합니다.
오픈소스 공개: 재현성과 커뮤니티 기여를 촉진하기 위해 허용적인 라이선스 하에 코퍼스, 전처리 스크립트 및 학습 체크포인트를 공개합니다.

방법론

데이터 수집 및 주석 달기
- 회의록은 여러 포르투갈 지방자치단체에서 수집하여 디지털화했습니다.
- 법률 및 언어 전문가가 각 토론 주제를 수동으로 추출하고, 간결하고 독립적인 요약문(≈ 30–50단어)을 작성했습니다.
전처리
- 텍스트를 정제하고, 포르투갈어 전용 토크나이저로 토큰화한 뒤 문서 → 주제 → 요약 삼중항으로 분할했습니다.
- 지방자치단체별 주제 분포를 유지하면서 학습/검증/테스트 비율(80/10/10)로 데이터를 나누었습니다.
모델 파인튜닝
- BART‑base와 PRIMERA(다문서 요약 모델)를 학습 세트에서 3 epoch 동안 표준 교차 엔트로피 손실로 파인튜닝했습니다.
- LLM의 경우, GPT‑3.5‑turbo와 LLaMA‑13B를 사용해 제로샷 및 몇 샷 프롬프트를 수행했으며, 전체 회의록과 “각 토론 주제를 요약하라”는 짧은 지시문을 입력했습니다.
평가
- 생성된 요약을 인간이 만든 레퍼런스와 비교하여 ROUGE‑1/2/L, BLEU, METEOR, BERTScore(F1)를 사용했습니다.
- 통계적 유의성은 페어드 부트스트랩 리샘플링으로 평가했습니다.

결과 및 발견

모델	ROUGE‑1	ROUGE‑2	ROUGE‑L	BERTScore‑F1
BART‑base (fine‑tuned)	38.7	15.2	35.9	71.4
PRIMERA (fine‑tuned)	41.3	17.0	38.2	73.1
GPT‑3.5‑turbo (zero‑shot)	32.5	11.8	30.1	66.2
LLaMA‑13B (few‑shot)	35.0	13.4	32.8	68.9
Human reference (upper bound)	100	100	100	100

PRIMERA가 가장 높은 어휘 점수를 기록했으며, 이는 표준 인코더‑디코더 모델보다 주제의 핵심 구문을 더 효과적으로 포착할 수 있음을 나타냅니다.
LLM은 특히 ROUGE‑2에서 파인튜닝된 모델에 비해 뒤처지며, 이 특수 분야에서 정확한 구문 겹침을 처리하는 데 어려움을 겪는 것으로 보입니다.
모든 자동 점수는 인간 상한치와 아직 크게 차이 나며, 이는 복잡하고 밀집된 행정 언어를 요약하는 것이 얼마나 어려운 작업인지를 강조합니다.

Practical Implications

Civic Tech Platforms: 개발자는 PRIMERA‑기반 파이프라인을 통합하여 주제별 요약을 자동 생성하고, 회의록을 검색 가능하고 시민 친화적으로 만들 수 있습니다.
Transparency & Accountability: 지방자치단체 웹사이트는 전체 회의록과 함께 간결한 요약을 자동으로 게시하여 대중 감시의 장벽을 낮출 수 있습니다.
Multilingual Extension: 데이터셋과 코드베이스는 갈리시아어, 카탈루냐어와 같은 저자원 언어에 대한 유사 자원을 구축하기 위한 템플릿으로 활용될 수 있습니다.
Workflow Automation: 시청 직원은 모델을 사용해 초안 요약을 미리 채워 수작업을 줄이고 문서화를 표준화할 수 있습니다.
Search & Retrieval: 요약은 인덱싱을 향상시켜 개발자가 “3월에 쓰레기 수거에 대해 어떤 결정이 내려졌나요?”와 같은 시민 질문에 전체 PDF를 스캔하지 않고도 답변할 수 있는 더 똑똑한 Q&A 봇을 구축하도록 합니다.

제한 사항 및 향후 연구

규모 및 다양성: 제한된 지방자치단체 집합에서 100분의 회의록만 주석이 달렸으며, 보다 넓은 일반화를 위해 더 많은 지역과 더 긴 기간으로 확장해야 합니다.
주제 세분화: 요약은 사전에 지정된 주제를 대상으로 하며, 자동 주제 감지(주제 구분)는 아직 해결되지 않은 과제입니다.
평가 범위: 측정 지표는 n‑gram 겹침에 초점을 맞추고 있어, 실제 활용도를 평가하기 위해 인간 평가(가독성, 사실 정확성)가 필요합니다.
모델 적응: 도메인에 맞게 조정된 LLM(예: 포르투갈어 법률 텍스트로 GPT‑NeoX 파인튜닝)을 탐색하면 성능 격차를 줄일 수 있습니다.
교차 언어 전이: CitiLink‑Summ으로 학습된 모델이 다국어 전이 학습을 통해 관련 로맨스 언어의 회의록 요약에 도움이 되는지 조사합니다.

저자

Miguel Marques
Ana Luísa Fernandes
Ana Filipa Pacheco
Rute Rebouças
Inês Cantante
José Isidro
Luís Filipe Cunha
Alípio Jorge
Nuno Guimarães
Sérgio Nunes
António Leal
Purificação Silvano
Ricardo Campos

논문 정보

arXiv ID: 2602.16607v1
카테고리: cs.CL
출판일: 2026년 2월 18일
PDF: PDF 다운로드

[Paper] CitiLink-Summ: 유럽 포르투갈 지방 회의록에서 토론 주제 요약

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Sink-Aware Pruning for Diffusion Language Models

[Paper] 이 언어는 무엇인가요? Ask Your Tokenizer

[Paper] 블랙-박스 LVLM 공격의 전선을 세밀한 디테일 타깃팅으로 확장

[Paper] 페르시아어 언어 모델에서 사실‑개념 격차를 밝히다