[论文] PsihoRo: 抑郁和焦虑罗马尼亚语文本语料库
发布: (2026年2月21日 GMT+8 00:24)
6 分钟阅读
原文: arXiv
Source: arXiv - 2602.18324v1
概述
本文介绍了 PsihoRo,这是首个聚焦于抑郁和焦虑的开源罗马尼亚语文本语料库。通过将简短的开放式回答与临床验证的 PHQ‑9 和 GAD‑7 评分配对,作者们为在长期被忽视的语言中进行心理健康自然语言处理提供了一个罕见且高质量的资源。
关键贡献
- 首个罗马尼亚语心理健康语料库(205 名参与者),标注了 PHQ‑9(抑郁)和 GAD‑7(焦虑)评分。
- 数据收集管道,将开放式问卷项目与标准化自评量表相结合,确保可靠的真实标签。
- 基线分析 使用罗马尼亚语 LIWC、情感检测和主题建模,揭示困扰的语言标记。
- 公开发布 原始文本、问卷响应以及在开源许可证下的派生语言特征。
Methodology
- Survey Design – 参与者填写了一份包含六个开放式提示的简短表格(例如,“描述最近让你感到悲伤的情境”),随后完成 PHQ‑9 和 GAD‑7 问卷。
- Recruitment & Ethics – 通过线上方式招募了 205 名讲罗马尼亚语的志愿者,获取了知情同意,并保证匿名。
- Pre‑processing – 对文本进行分词、词形还原,并清除个人身份信息。
- Linguistic Annotation – 作者使用罗马尼亚语版的语言探询与词汇计数(LIWC)词典提取心理学类别(如情感、认知、社交)。
- Emotion & Topic Modeling – 预训练的多语言情感分类器提供细粒度情感得分,潜在狄利克雷分配(LDA)则揭示主要讨论主题。
- Statistical Linking – 计算 LIWC/情感特征与 PHQ‑9/GAD‑7 分数之间的相关性,以验证语料库捕捉到心理健康信号。
结果与发现
- 强语言信号:抑郁评分较高与使用第一人称单数代词、负面情绪词以及认知过程词(如 “think”、 “know”)的增加相关。
- 焦虑标记:GAD‑7 评分升高与更频繁使用不确定词(如 “maybe”、 “perhaps”)以及较少使用积极情绪词相关。
- 情绪分类器:该多语言模型能够可靠地区分悲伤、焦虑和中性状态,在留出子集上实现了约 0.78 的平均 F1‑score。
- 主题洞察:LDA 揭示了诸如 “family relationships”、 “work stress”、 “health concerns” 等反复出现的主题,这些主题与已知的罗马尼亚人群抑郁和焦虑风险因素相符。
实际意义
- 临床决策支持:开发者可以在 PsihoRo 上微调情感或心理健康分类器,构建能够在罗马尼亚语心理健康应用、论坛或远程治疗平台中标记高风险用户的工具。
- 跨语言研究:该语料库支持迁移学习实验,帮助研究者评估在英文心理健康数据上训练的模型在罗马尼亚语文本上的表现。
- 公共卫生监测:从 PsihoRo 汇总的语言趋势可以向政策制定者提供特定罗马尼亚人群中普遍压力源(例如经济不确定性)的信息。
- 教育资源:语言学习平台可以加入心理健康意识模块,利用数据集中识别的真实罗马尼亚语困扰表达。
限制与未来工作
- 规模与多样性:仅有 205 名受访者,语料库规模有限,可能无法捕捉罗马尼亚全境的社会语言变异(例如地区方言、年龄层)。
- 自我报告偏差:PHQ‑9 和 GAD‑7 依赖参与者愿意披露症状,这可能导致报告不足。
- 领域范围:开放式提示仅限于六个主题;更广泛的对话数据(如社交媒体帖子)可丰富语言景观。
- 未来方向:作者计划扩展数据集,加入多模态信号(音频、面部表情),并探索纵向追踪,以研究症状随时间的轨迹。
作者
- Alexandra Ciobotaru
- Ana‑Maria Bucur
- Liviu P. Dinu
论文信息
- arXiv ID: 2602.18324v1
- 分类: cs.CL
- 发表时间: 2026年2月20日
- PDF: 下载 PDF