[Paper] OnCoCo 1.0：用于在线咨询对话细粒度消息分类的公开数据集

发布: 2个月前 (2025年12月11日 GMT+8 00:18)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.09804v1

概览

本文介绍了 OnCoCo 1.0，一个公开发布的数据集，收录了约 2,800 条在线咨询会话中的单条信息，并使用 细粒度分类体系（38 种咨询师标签 + 28 种来访者标签）进行标注。作者突破了目前主导领域的狭窄访谈式编码方案，提供了一个能够驱动更细致的心理健康聊天机器人、分析仪表盘和治疗师辅助工具的资源。

主要贡献

全新的编码方案，覆盖 66 种不同的话语类型（38 种咨询师，28 种来访者），专为基于文本的在线咨询设计。
OnCoCo 1.0 数据集：2,800 条来自真实咨询对话的手工标注信息，采用开放许可证发布。
基线模型：在数据集上微调的 Transformer 分类器（BERT、RoBERTa 等）基准，代码和训练检查点均已公开。
综合分析，展示新分类体系捕捉到传统动机访谈（MI）编码未能覆盖的对话动态。
资源包（数据、标注指南和脚本），可直接嵌入现有的心理健康 NLP 流程。

方法论

分类体系设计 – 作者调研了现有的咨询编码系统（如 MI、CBT），并识别出针对异步、纯文本会话的空白。通过临床心理学家的反馈，迭代合并、拆分和细化类别，最终得到 66 个细粒度标签。
数据收集 – 从一家持牌在线咨询平台抽取匿名聊天记录，去标识化后切分为单条信息。
标注过程 – 两名受训标注员为每条信息打标签；在试点阶段和定期仲裁后实现了较高的一致性（Cohen’s κ ≈ 0.78）。
模型训练 – 使用标准的预训练语言模型（BERT‑base、RoBERTa‑large）在 66 类分类任务上进行微调，采用分层 80/10/10 的训练/验证/测试划分。超参数保持简洁（学习率 2e‑5，批大小 16，3 轮）以展示基线表现。
评估 – 报告了准确率、宏观 F1、以及每类的混淆矩阵，并进行消融实验，比较完整分类体系与压缩的 MI‑style 标签集的影响。

结果与发现

Model	Accuracy	Macro‑F1
BERT‑base	71.4 %	0.68
RoBERTa‑large	73.9 %	0.71
MI‑only baseline (10 classes)	62.1 %	0.55

细粒度分类体系相较于传统 MI‑style 标签集 提升约 10 % 的宏观 F1，表明对微妙的咨询策略有更好的区分能力。
错误分析显示，大多数混淆发生在语义相近的标签之间（如 “反思倾听” 与 “肯定”），暗示引入更丰富的上下文建模（对话历史）有望进一步提升性能。
公开的预训练检查点使开发者能够 即插即用 地将分类器集成到下游应用中，无需从头训练。

实际意义

聊天机器人增强 – 开发心理健康对话代理的团队可以利用该分类器检测特定的治疗师策略（如 “开放式提问”、 “验证”），实时调整回复，从而实现更具同理心和效果的交互。
远程治疗平台的质量保证 – 自动标记咨询师和来访者的话语支持合规监控、治疗师培训和结果分析，省去人工审阅的成本。
研究基准 – OnCoCo 1.0 为在心理健康领域尝试多标签、层次化或少样本学习技术提供了即用的测试平台。
与现有流水线的集成 – 由于数据集和模型均以标准 Hugging Face 格式发布，可直接嵌入已使用 BERT/RoBERTa 进行情感分析、意图检测或对话行为分类的流水线。

局限性与未来工作

数据范围 – 语料仅包含来自单一咨询服务的约 2.8 k 条信息，可能限制在不同文化背景或治疗模式下的泛化能力。
单句焦点 – 标签仅针对每条信息进行标注，未显式建模对话历史；未来可探索序列模型（如带记忆的 Transformer、RNN）以捕捉轮次动态。
类别不平衡 – 部分细粒度类别出现次数极少，导致该类性能偏低；可考虑数据增强或层次分类等技术。
伦理考量 – 虽然数据已匿名化，但在心理健康场景中部署自动分类器仍面临隐私和偏见风险，需要严格治理。

作者计划通过多语言扩展、 richer 元数据（如会话结果）以及对指令微调大模型（instruction‑tuned LLM）的基准测试，进一步完善 OnCoCo。

作者

Jens Albrecht
Robert Lehmann
Aleksandra Poltermann
Eric Rudolph
Philipp Steigerwald
Mara Stieler

论文信息

arXiv ID: 2512.09804v1
分类: cs.CL, cs.LG
发表时间: 2025 年 12 月 10 日
PDF: Download PDF

[Paper] OnCoCo 1.0：用于在线咨询对话细粒度消息分类的公开数据集

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 从信号到轮次：模块化 Speech-to-Speech Pipelines 中的交互摩擦

[Paper] 基于 Neural Topic Modeling 的大规模报纸档案历史洞察自动提取

[Paper] 限制幻觉：通过 Merlin-Arthur 协议对 RAG 系统的信息论保证

[Paper] 可视化黑盒语言模型的 token 重要性