[Paper] CitiLink-Summ: 欧洲葡萄牙市政会议纪要中讨论主题的摘要
发布: (2026年2月19日 GMT+8 01:03)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16607v1
概述
本文介绍了 CitiLink‑Summ,这是首个公开可用的欧洲葡萄牙语市政会议记录语料库,并配有数千条人工编写的主题级摘要。通过提供该资源以及使用现代摘要模型的基线实验,作者为自然语言处理在密集的行政文本领域开辟了新途径,这类文本对普通公民而言往往难以消化。
关键贡献
- 新数据集:100 份市政会议记录(≈ 2 M 词),标注了 2,322 条高质量、手工撰写的摘要,每条摘要对应特定的讨论主题。
- 首个基准:建立了首个针对欧洲葡萄牙语市政文件主题级摘要的评估套件。
- 基线实验:在语料库上微调并测试最先进的生成模型(BART、PRIMERA)和大语言模型(LLMs)。
- 全面评估:使用词汇指标(ROUGE、BLEU、METEOR)和语义指标(BERTScore)报告结果,突出当前模型与人工水平之间的差距。
- 开源发布:在宽松许可证下发布语料库、预处理脚本和训练检查点,以促进可复现性和社区贡献。
方法论
- 数据收集与标注
- 会议记录来源于多个葡萄牙市镇并已数字化。
- 法律和语言专家手动提取每个讨论主题,并撰写简洁的自包含摘要(≈ 30–50 词)。
- 预处理
- 对文本进行清洗,使用葡萄牙语专用分词器进行分词,并拆分为 document → subject → summary 三元组。
- 创建了训练/验证/测试划分(80/10/10),在各市镇间保持主题分布。
- 模型微调
- 在训练集上对 BART‑base 和 PRIMERA(多文档摘要模型)进行 3 个 epoch 的微调,使用标准交叉熵损失。
- 对于大语言模型,使用 GPT‑3.5‑turbo 和 LLaMA‑13B 进行零样本和少样本提示,输入完整会议记录并给出“对每个讨论主题进行摘要”的简短指令。
- 评估
- 将生成的摘要与人工参考摘要进行比较,使用 ROUGE‑1/2/L、BLEU、METEOR 和 BERTScore(F1)。
- 使用配对自助抽样评估统计显著性。
结果与发现
| Model | ROUGE‑1 | ROUGE‑2 | ROUGE‑L | BERTScore‑F1 |
|---|---|---|---|---|
| BART‑base (fine‑tuned) | 38.7 | 15.2 | 35.9 | 71.4 |
| PRIMERA (fine‑tuned) | 41.3 | 17.0 | 38.2 | 73.1 |
| GPT‑3.5‑turbo (zero‑shot) | 32.5 | 11.8 | 30.1 | 66.2 |
| LLaMA‑13B (few‑shot) | 35.0 | 13.4 | 32.8 | 68.9 |
| 人类参考(上限) | 100 | 100 | 100 | 100 |
- PRIMERA 获得了最佳的词汇得分,表明它能够比标准的编码器‑解码器模型更有效地捕捉主题的关键短语。
- 大语言模型(LLMs)落后于微调模型,尤其在 ROUGE‑2 上表现较差,说明它们在该细分领域中对精确短语重叠的处理仍有困难。
- 所有自动评分仍远低于人类上限,凸显了对密集行政语言进行摘要的难度。
实际意义
- 公民科技平台:开发者可以集成基于 PRIMERA 的流水线,自动生成主题级别的摘要,使会议记录可搜索且对公民友好。
- 透明度与问责制:市政网站可以自动在完整会议记录旁发布简明摘要,降低公众监督的门槛。
- 多语言扩展:数据集和代码库可作为模板,用于在其他低资源语言(例如加利西亚语、加泰罗尼亚语)构建类似资源。
- 工作流自动化:城市文员可以使用该模型预填草稿摘要,减少人工工作并标准化文档。
- 搜索与检索:摘要提升了索引效果,使开发者能够构建更智能的问答机器人,回答公民诸如“3 月份关于垃圾收集的决定有哪些?”之类的问题,而无需扫描整份 PDF。
Limitations & Future Work
- 规模与多样性:仅对有限的若干市政会议的 100 分钟进行了标注;需要扩展到更多地区和更长时间跨度,以实现更广泛的泛化。
- 主题粒度:摘要针对预先确定的主题;自动主题检测(主题分段)仍是一个未解决的挑战。
- 评估范围:指标侧重于 n‑gram 重叠;需要人工评估(可读性、事实正确性)来评估实际效用。
- 模型适配:探索领域适配的 LLM(例如,在葡萄牙语法律文本上微调 GPT‑NeoX)可能缩小性能差距。
- 跨语言迁移:研究在 CitiLink‑Summ 上训练的模型是否能通过多语言迁移学习帮助摘要相关罗曼语系的会议记录。
作者
- Miguel Marques
- Ana Luísa Fernandes
- Ana Filipa Pacheco
- Rute Rebouças
- Inês Cantante
- José Isidro
- Luís Filipe Cunha
- Alípio Jorge
- Nuno Guimarães
- Sérgio Nunes
- António Leal
- Purificação Silvano
- Ricardo Campos
论文信息
- arXiv ID: 2602.16607v1
- 分类: cs.CL
- 发布日期: 2026 年 2 月 18 日
- PDF: 下载 PDF