[Paper] PsychEval：面向高真实感和全面 AI 心理咨询师的多会话多疗法基准

发布: 2周前 (2026年1月5日 GMT+8 13:26)

6 min read

原文: arXiv

Source: arXiv - 2601.01802v1

概览

本文介绍了 PsychEval，一个新基准，用于模拟跨多个会话、不同治疗方法和客户情境的真实世界心理咨询。通过提供高度注释、真实感强的数据集以及完整的评估套件，作者旨在推动 AI 从单轮“聊天机器人”式的建议向真正的纵向、临床负责的咨询助理转变。

Multi‑session benchmark: 每个案例 6–10 次对话轮次，组织为三个临床阶段，要求记忆连续性和长期规划。
Multi‑therapy coverage: 数据涵盖五大治疗模式（Psychodynamic、Behaviorism、CBT、Humanistic‑Existential、Postmodernist）以及针对六个核心心理主题的整合三阶段框架。
Extensive skill taxonomy: 标注了 677 项元技能和 4,577 项原子咨询技能，支持细粒度的技能层级监督和分析。
Comprehensive evaluation suite: 包含 18 项指标（治疗特定和共享），覆盖客户层面（如同理心、相关性）和咨询师层面（如遵循治疗方案、安全性）维度。
Reinforcement‑learning environment: PsychEval 作为仿真平台发布，支持 AI 咨询师的自我进化训练，并内置安全检查。
Large client profile pool: 超过 2,000 条多样化合成客户画像，用于测试泛化能力和偏差缓解。

数据收集与标注
- 专业心理学家为每种疗法撰写了多轮对话，遵循三阶段临床流程（评估 → 干预 → 巩固）。
- 每句话都标注了高层次的元技能（例如“建立融洽关系”）和具体的原子技能（例如“反思倾听”）。
治疗多样性
- 场景设计要求切换或融合不同疗法，反映了实际案例中治疗师可能将认知行为疗法技术与精神动力学洞察相结合的情况。
评估框架
- 自动指标（BLEU、ROUGE）辅以基于模型的分类器，对共情度、安全性和治疗忠实度进行评分。
- 人类专家评审员对一部分互动进行验证，以校准自动评分。
强化学习环境
- 基准被封装为 OpenAI‑Gym 风格的环境，代理接收客户状态（个人资料 + 对话历史），并选择咨询动作（带技能标签的发言）。
- 奖励结合短期目标（例如客户满意度）和长期临床目标（例如症状减轻）。