[Paper] Bangla MedER:Multi-BERT Ensemble Approach用于Bangla医学实体识别
发布: (2025年12月20日 GMT+8 00:41)
6 min read
原文: arXiv
Source: arXiv - 2512.17769v1
概览
本文介绍了 Bangla MedER,这是一个用于识别孟加拉语文本中医学实体的新基准,并提出了 Multi‑BERT Ensemble 模型,使准确率接近 90%。通过解决孟加拉语医学标注数据稀缺的问题,该工作为 NLP 驱动的医疗保健工具在这一长期被研究社区忽视的语言中打开了大门。
关键贡献
- Bangla MedER 数据集:一个手工策划的高质量孟加拉语医学句子语料库,带有实体标注(例如,疾病、药物、手术)。
- 全面基线研究:在新数据集上评估多种 Transformer 系列(BERT、DistilBERT、ELECTRA、RoBERTa)。
- 多 BERT 集成架构:使用投票/堆叠方案结合多个微调 BERT 模型的预测,达到 89.58 % 准确率,比单层 BERT 提升 11.80 %。
- 广泛评估:报告了不同实体类型的精确率、召回率、F1‑score 和混淆矩阵,展示了模型的鲁棒性。
- 开源发布:代码、训练好的模型和数据集均公开,以促进可重复性和进一步研究。
方法论
-
数据收集与标注
- 从公共卫生门户、研究文章和临床笔记中收集孟加拉语医学文本。
- 专业标注员按照预定义的模式标记实体,如 Disease、Medication、Symptom 和 Procedure。
-
模型微调
- 对每个 transformer(BERT‑base、DistilBERT、ELECTRA‑small、RoBERTa‑base)在 Bangla MedER 训练集上进行微调,使用 token‑level 分类头(对实体标签进行 softmax)。
-
集成构建
- 在单独微调后,汇总模型对每个 token 的 logits。
- 探索了两种策略:
- 多数投票(硬集成)——模型中出现次数最多的标签获胜。
- 堆叠元学习器(软集成)——轻量前馈网络学习对每个模型置信分数进行加权。
- 堆叠方法取得了最佳性能,称为 Multi‑BERT Ensemble。
-
评估
- 计算每个实体类别及整体的标准 NER 指标(精确率、召回率、F1)。
- 使用留出测试集确保集成提升不是由于过拟合。
结果与发现
| 模型 | 准确率 | Macro‑F1 |
|---|---|---|
| BERT‑base (single layer) | 77.78 % | 0.73 |
| DistilBERT | 80.12 % | 0.75 |
| ELECTRA‑small | 81.45 % | 0.77 |
| RoBERTa‑base | 82.30 % | 0.78 |
| Multi‑BERT Ensemble | 89.58 % | 0.86 |
- 集成模型在准确率上比最强单模型(RoBERTa)高出7.28 %,在Macro‑F1上提升0.09。
- 增益在低频实体(例如Procedure)上尤为显著,集成模型减轻了单个模型的偏差。
- 错误分析表明,大多数剩余错误来源于歧义表述和训练中未见的领域特定缩写。
实际意义
- Clinical Decision Support: 从 Bangla 电子健康记录(EHR)中自动提取疾病、药物和手术信息,可用于下游分诊或警报系统。
- Health‑Chatbots & Virtual Assistants: 精准的实体识别使 Bangla 语言的聊天机器人能够理解患者提问,检索相关医学知识,并建议后续步骤。
- Pharmacovigilance & Public Health Surveillance: 对 Bangla 社交媒体或新闻进行药物相关提及的挖掘变得可行,有助于早期发现不良事件。
- Cross‑Lingual Transfer: 通过替换为特定语言的预训练 transformer,集成框架可以适配其他低资源医学语言。
- Open‑source Toolkit: 开发者可以将发布的模型轻松接入流行的 NLP 库(Hugging Face Transformers),只需少量代码修改,即可加速原型开发。
限制与未来工作
- 数据集规模与领域覆盖:虽然质量高,但语料仍然相对有限(约 5 k 句),且主要聚焦于普通医学;专业领域(例如肿瘤学)仍然代表性不足。
- 标注一致性:标注者间的一致性虽在可接受范围内,但仍有改进空间,需要进一步细化实体模式并处理模糊案例。
- 实际部署:模型是在干净、预处理过的文本上评估的;用户生成内容中常见的噪声输入(拼写错误、混合脚本、代码切换)可能会导致性能下降。
- 未来方向:
- 通过众包标注和领域特定子语料库扩展数据集。
- 引入字符级或子词适配器,以更好地处理正字法变体。
- 探索多语言集成策略,将 Bangla 模型与资源丰富的英文医学 NER 系统结合,实现零样本迁移。
Bangla MedER 表明,经过精心设计的 Transformer 模型集成能够显著提升低资源语言的医学实体抽取,为以孟加拉语为中心的健康技术应用提供了实用的基础。
作者
- Tanjim Taharat Aurpa
- Farzana Akter
- Md. Mehedi Hasan
- Shakil Ahmed
- Shifat Ara Rafiq
- Fatema Khan
论文信息
- arXiv ID: 2512.17769v1
- 类别: cs.CL, cs.AI
- 发表时间: 2025年12月19日
- PDF: 下载 PDF