[Paper] 情感、身体、认知、人口统计和情绪:文本特征的 ABCDE 用于 Computational Affective Science

发布: (2025年12月20日 GMT+8 00:26)
6 min read
原文: arXiv

Source: arXiv - 2512.17752v1

概览

ABCDE 数据集包含超过 4 亿 文本片段——从推文和博客到书籍以及 AI 生成的散文——每个片段都配有全面的情感相关注释。通过统一涵盖 情感、身体、认知、人口统计和情绪 的特征,该资源旨在降低研究人员和开发者通过语言探究人类情感、健康和社会行为的门槛。

关键贡献

  • 大规模、多源语料库(400 M+ 语句),覆盖社交媒体、长篇写作和合成文本。
  • 统一标注模式(ABCDE),捕获情感信息的五个互补维度。
  • 开放获取工具,便于在现有流水线中发现、下载和集成数据集。
  • 跨学科相关性,通过心理健康监测、政治情感和用户建模等案例研究加以展示。
  • 基准基线,使用最先进的语言模型在常见情感任务(情绪检测、年龄/性别推断、身体状态预测)上提供基准。

方法论

  1. Data Harvesting – 作者从四个主要渠道抓取了公开可用的文本:
    • (i) Twitter (≈ 150 M tweets)
    • (ii) Reddit 与博客平台 (≈ 120 M posts)
    • (iii) 数字化图书 (≈ 80 M sentences)
    • (iv) 大语言模型 (LLM) 生成器 (≈ 50 M synthetic utterances)
  2. Pre‑processing – 通过去重、过滤脏话和语言检测,仅保留英文内容,噪声极少。
  3. Feature Extraction – 对每条语句运行六个已有的词汇资源(如 NRC Emotion Lexicon、LIWC、VAD 词典)和两个自定义分类器(身体状态标注器和人口统计预测器)。每个词元获得二元或连续得分,涵盖以下维度:
    • Affect(价值、唤醒、支配)
    • Body(生理状态、疼痛、疲劳的提及)
    • Cognition(确定性、洞察、因果)
    • Demographics(年龄、性别、教育线索)
    • Emotion(基本情绪、复杂情感混合)
  4. Quality Assurance – 随机抽样手动验证(≈ 5 k 条目),以估计标注精度(大多数维度 > 85 %)。
  5. Packaging – 最终语料库以压缩的 JSONL 文件形式发布,附带索引文件和一个 Python SDK,简化加载和过滤步骤。

结果与发现

  • 覆盖率:在五个维度上,超过 92 % 的话语至少获得一个非空标签,确认了大规模情感标注的可行性。
  • 相关模式:出现了预期的关系(例如,高唤醒 ↔ 愤怒,悲伤 ↔ 低效价)以及新颖的跨维度关联(例如,提及身体疲劳与低能量认知状态强相关)。
  • 基线表现:在 ABCDE 上微调的 BERT 模型在标准情感分类基准上实现了最先进的 F1 分数(≈ 0.78),同时还能以 > 0.80 的准确率预测人口统计线索。
  • 合成文本 vs 人类文本:AI 生成的话语表现出更窄的情感范围,表明当前的大语言模型可能低估了某些情绪或身体状态。

实际意义

  • 快速原型 – 开发者可以将 ABCDE SDK 插入情感分析或用户画像服务,而无需从头构建自定义词典。
  • 心理健康应用 – 实时检测身体状态语言(如“头痛”“疲惫”)并结合情感得分,可实现对压力或抑郁的早期预警系统。
  • 个性化内容 – 营销平台可以根据推断的人口统计信息和情感基调定制信息,在提升参与度的同时尊重隐私(所有数据均已匿名化)。
  • 政策与社会研究 – 分析师可使用统一的特征集,追踪选举、疫情等事件期间人口层面的情感语言变化。
  • 大语言模型评估 – 该数据集提供了一个基准,用于衡量生成模型捕捉细微情感线索的能力,指导下一代模型的训练。

限制与未来工作

  • 偏差与代表性 – 源数据混合严重倾向于使用英语、活跃于互联网的人群;被低估的群体可能被误判。
  • 标注噪声 – 基于词典的自动标注不可避免地会产生错误,尤其是对讽刺、成语或新兴俚语。
  • 静态快照 – 语料库仅反映特定时间窗口(2020‑2023);情感语言会随时间演变,因此需要定期更新。
  • 未来方向 – 作者计划 (i) 扩展至多语言语料库,(ii) 融入多模态信号(音频/视频),(iii) 使用隐私保护技术改进人口统计预测器,(iv) 开发主动学习流水线,以随时间提升标注质量。

作者

  • Jan Philip Wahle
  • Krishnapriya Vishnubhotla
  • Bela Gipp
  • Saif M. Mohammad

论文信息

  • arXiv ID: 2512.17752v1
  • 类别: cs.CL
  • 发表日期: 2025年12月19日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »