[Paper] PSI-Bench：面向临床基础且可解释的抑郁患者模拟器评估

发布: 20小时前 (2026年4月29日 GMT+8 00:46)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.25840v1

概述

本文介绍了 PSI‑Bench，一个系统的、以临床为基础的基准，用于评估针对抑郁患者的 AI 驱动模拟器。通过超越模糊的基于大语言模型的“评审”，作者提供了可解释的诊断，揭示这些模拟器在捕捉真实、多样且治疗上适当的对话行为方面的表现——这是实现安全、可扩展的心理健康培训工具的关键一步。

定义临床相关轴 – 作者咨询了心理健康专业人士，确定了三层行为评估：
- 回合层面：长度、词汇丰富度、情感极性。
- 对话层面：情感进展（负向 → 正向）、解决速度、一致性。
- 人群层面：在模拟“患者”（例如不同症状谱）之间的变异性。
指标构建 – 对每个轴，构建自动化度量（例如词元计数、类型‑词元比、来自经验证情感分类器的情感分数），并将其映射到临床解释。
模拟器设置 – 使用两个开源的抑郁患者模拟框架，每个框架配备七个 LLM 后端，参数规模从 7B 到 175B 不等。
基准执行 – 生成数百个模拟对话，计算指标，并将结果汇总为每个模型‑框架组合的简明诊断报告。
人工研究 – 由持证治疗师组成的小组评估随机抽取的对话，评分真实性、治疗实用性和安全性。计算这些人工评分与 PSI‑Bench 指标之间的相关性，以验证基准。

方面	观察
响应长度	模拟器往往产生过长的回复，可能让受训者不堪负荷。
词汇多样性	高类型‑标记比率表明输出冗长，缺乏真实患者常见的简洁表达。
情感轨迹	大多数对话遵循统一的负面到正面弧线，忽视了临床实践中出现的非线性情绪波动。
解决速度	模拟患者常在几轮对话内“解决”其困扰，低估了慢性或复发性模式的表现。
变异性	整体层面的多样性较低；不同的模拟患者行为相似，限制了对抑郁表现全谱的接触。
框架影响	仿真框架的选择对逼真度的影响大于模型规模本身——如果框架编码了更好的临床先验，小模型也能胜过大模型。
人与模型的一致性	PSI‑Bench 分数与专家评级之间的皮尔逊相关系数 > 0.78，证实自动诊断反映了真实的临床判断。

Training platforms：开发心理健康聊天机器人或 VR 角色扮演系统的开发者可以将 PSI‑Bench 集成到他们的 CI 流水线中，以便及早捕捉不现实的患者行为，降低在误导性情景上进行训练的风险。
Model selection：基准显示，精心设计的仿真框架可以抵消单纯模型规模的劣势，指导团队投资于领域特定的提示或基于规则的框架，而不是仅仅追求更大的 LLM。
Safety & compliance：通过标记过于乐观的情绪轨迹或快速“康复”信号，PSI‑Bench 有助于确保模拟患者不会无意中教授有害的治疗捷径。
Extensibility：由于指标是模块化的，产品团队可以添加特定疾病维度（例如焦虑、PTSD）或集成自定义情感分类器，使 PSI‑Bench 成为更广泛心理健康 AI 的可复用评估骨干。
Regulatory readiness：透明、以临床为依据的指标可以支持医疗器械或 AI 在医疗中的认证所需的文档，简化基于仿真的培训工具的上市路径。

PSI‑Bench 标志着朝着可信、可解释且临床有用的 AI 病人模拟器迈出的决定性一步——这些工具有望在确保安全至上的前提下，使高质量的心理健康培训大众化。