[Paper] BanglaASTE:一种用于Bangla电子商务评论中方面-情感-观点抽取的创新框架,采用集成深度学习

发布: (2025年11月26日 GMT+8 21:27)
7 min read
原文: arXiv

Source: arXiv - 2511.21381v1

概览

本文提出了 BanglaASTE,这是首个端到端框架,能够自动从孟加拉语电子商务评论中抽取 方面术语观点表达 以及它们的 情感极性。通过发布新的标注数据集和一个集成深度学习模型,作者推动了低资源语言的基于方面的情感分析(ABSA)研究,弥补了该语言长期被研究社区忽视的空白。

主要贡献

  • Bangla ASTE 数据集 – 来自 Daraz、Facebook 和 Rokomari 的 3,345 条手工标注的产品评论,每条都标记了方面‑观点‑情感三元组。
  • 混合匹配流水线 – 基于图的算法,利用语义相似度将方面和观点跨度链接起来,能够处理孟加拉语社交文本中常见的非正式拼写和代码混合。
  • 集成模型 – 将 BanglaBERT 上下文嵌入与 XGBoost 分类器相结合,在 vanilla transformer 或传统基线之上实现了显著提升。
  • 全面评估 – 报告了 89.9 % 的准确率和 89.1 % 的 F1,优于同数据上的先前多语言 ABSA 方法。
  • 开源发布 – 代码、训练好的模型和数据集均公开,以便复现和下游应用。

方法论

  1. 数据收集与标注 – 从三个主要的孟加拉语电子商务平台抓取评论。经过培训的标注员为每个句子标记三类要素:
    • 方面(例如 “电池寿命”)
    • 观点(例如 “持久”)
    • 情感(正面/负面/中性)。
  2. 预处理 – 正规化步骤针对孟加拉语常见的怪癖:拼写不一致、混合英文数字以及表情符号。
  3. 基于图的匹配 – 将每个句子构建为二分图,节点为候选的方面跨度和观点跨度。边权通过它们的 BanglaBERT 嵌入的余弦相似度计算,最大权匹配算法选出最合理的方面‑观点配对。
  4. 集成分类
    • BanglaBERT 为每个候选跨度生成上下文向量。
    • XGBoost 使用这些向量(加上手工特征,如词性标签和距离度量)预测配对的情感极性。
    • 最终的三元组列表为图匹配得到的配对与 XGBoost 预测的情感的并集。
  5. 训练与评估 – 数据集的 80 % 用于训练,10 % 用于验证,10 % 用于测试。报告了标准指标(准确率、精确率、召回率、F1)在各组件以及完整三元组抽取任务上的表现。

结果与发现

模型准确率精确率召回率F1
基线 CRF + Word2Vec71.4 %68.9 %66.2 %67.5 %
多语言 BERT (mBERT)82.1 %80.5 %78.9 %79.7 %
BanglaASTE(集成)89.9 %88.6 %89.6 %89.1 %
  • 单独的图匹配步骤就将方面‑观点配对的 F1 提升约 9 %,相较于朴素的顺序标注基线。
  • 为情感分类加入 XGBoost 再提升 2 分的 F1,验证了在低资源环境下浅层树模型仍能补足深度嵌入的不足。
  • 错误分析显示,剩余错误主要来源于高度模糊的观点(如 “meh”)以及未被正规化规则覆盖的极端拼写变体。

实际意义

  • 电商分析 – 企业可以自动从孟加拉语评论中抽取产品层面的痛点(如 “充电慢”)和优势(如 “显示清晰”),加速产品路线图决策。
  • 客服自动化 – 聊天机器人可集成该三元组抽取器,实时标记负面方面并将工单路由至对应支持团队。
  • 本地化情感仪表盘 – 市场团队能够监控孟加拉语主导地区的情感趋势,无需人工标注。
  • 可迁移流水线 – 图匹配 + XGBoost 的模式可适配其他同样面临拼写噪声和代码混合的低资源语言,降低对大规模标注语料的依赖。

局限性与未来工作

  • 数据集规模 – 3.3 k 条评论虽为良好起点,但仍相对有限;更大、领域多样的语料库有望提升泛化能力。
  • 领域局限 – 当前数据仅限于产品评论;若扩展到社交媒体或新闻评论,可能需要额外的预处理调整。
  • 方面粒度 – 模型将每个方面视为平面跨度,尚未支持层级化的方面分类(如 “相机 → 分辨率”)。
  • 作者提出的未来方向 包括:
    1. 半监督数据增强以缓解稀疏问题。
    2. 引入多语言预训练步骤,更好地处理代码混合的孟加拉‑英语文本。
    3. 探索图神经网络,实现端到端的方面‑观点配对。

作者

  • Ariful Islam
  • Md Rifat Hossen
  • Abir Ahmed
  • B M Taslimul Haque

论文信息

  • arXiv ID: 2511.21381v1
  • 分类: cs.LG, cs.CL
  • 发表时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »