[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估:上下文知识与建模策略的作用

发布: (2026年2月6日 GMT+8 02:53)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.06015v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文。)

概述

本文研究了现代大型语言模型(LLM)在从原始叙事文本中估计创伤后应激障碍(PTSD)严重程度方面的表现。通过对 11 种最先进模型以及超过一千条真实临床记录进行系统基准测试,作者揭示了哪些提示、推理技巧和模型规模的选择真正提升了预测准确性。

关键贡献

  • 全面基准:对 11 种领先的 LLM(包括开源权重模型和闭源权重模型)在包含 1,437 名受试者的 PTSD 严重程度任务上进行评估。
  • 系统化提示工程研究:通过改变上下文知识(子量表定义、汇总统计、访谈问题)来量化其对性能的影响。
  • 建模策略比较:零样本 vs. 少样本、链式思考推理深度、直接标量预测 vs. 结构化子量表预测、输出重新缩放,以及九种不同的集成技术。
  • 经验性规模洞察:开源权重模型在约 70 B 参数后出现性能平台期,而更新的闭源权重模型(如 GPT‑4‑turbo、GPT‑5)仍在持续提升。
  • 最佳实践配方:将监督基线与零样本 LLM 输出相混合的集成方法,可实现与真实 PTSD 分数最高的相关性。

方法论

  1. 数据 – 作者使用一个临床语料库,包含自由形式的创伤叙事和自报告的 PTSD 严重程度评分(来源于标准的 PCL‑5 问卷)。
  2. 提示族 – 对每个模型他们设计了几种提示模板:
    • 最小化:仅原始叙事。
    • 上下文丰富:叙事 + 每个 PTSD 子量表的明确定义,以及数据集的简要统计概述。
    • 访谈式:叙事 + 生成自报告的准确访谈问题。
  3. 模型配置
    • 零样本:模型仅接收提示。
    • 少样本:加入最多 5 个叙事‑评分对的示例。
    • 推理深度:普通回答 vs. 思维链(CoT)提示,迫使模型“逐步思考”。
    • 输出格式:直接标量预测(0‑100) vs. 分别预测每个子量表后再聚合。
  4. 集成 – 九种策略(简单平均、加权投票、使用线性回归器的堆叠等)将多个大语言模型和监督基线(例如微调的 BERT)的预测进行组合。
  5. 评估 – 使用 Pearson / Spearman 相关系数和相对于金标准 PTSD 评分的平均绝对误差(MAE)。

结果与发现

因素对准确性的影响
上下文知识(子量表定义 + 访谈问题)↑ 相关性提升约 0.08(≈10 % 相对提升)
链式思考推理MAE 持续降低(≈15 % 改进)
模型规模 – 开源权重(LLaMA、DeepSeek)在约 70 B 参数后趋于平台期;更大的模型收益递减
模型规模 – 闭源权重(GPT‑3.5‑mini → GPT‑5)稳步提升;GPT‑5 以显著优势超越所有其他模型
零样本 vs. 少样本少样本略有提升(≈2‑3 % 增益),但会增加提示复杂度
结构化子量表预测相较直接标量输出,校准略有提升
最佳集成将监督式 BERT 回归器与前三个零样本大模型进行堆叠,可获得最高 Pearson r(≈0.78)和最低 MAE(在 0‑100 分制上约为 4.2 分)

简而言之,“正确”的提示加上一点推理胜过单纯的模型规模,智能集成则是最优方案。

实际意义

  • 临床决策支持 – 部署包含链式思考(CoT)推理的上下文丰富提示,可将现成的大语言模型转变为可靠的心理健康专业人员分诊工具,标记高危病例以便后续跟进。
  • 产品设计 – 吸收用户生成健康叙事的 SaaS 平台(例如远程治疗应用)可以通过添加结构化定义和少量示例,提升风险评分,而无需昂贵的模型微调。
  • 成本效益扩展 – 鉴于开放权重模型在约 70 B 参数后不再提升,公司可以选择更小的开放模型加轻量级集成,而不是为最新的闭源 API 支付费用。
  • 合规监管 – 研究强调透明提示的重要性;审计日志可以记录使用的确切提示模板,帮助满足可解释性要求。
  • 快速原型 – 少量示例和链式思考技术易于在现有 LLM SDK(OpenAI、Anthropic、Cohere)中实现,使开发者能够在数天而非数周内实验心理健康评分。

限制与未来工作

  • 数据集偏差 – 这些叙事来源于单一临床研究;对其他语言、文化或创伤类型的泛化尚未检验。
  • 真实标签可靠性 – 自报告的 PTSD 评分可能噪声较大;加入临床医生评定的标签可以提升评估的准确性。
  • 安全与伦理 – 论文未探讨误估可能带来的危害(例如错误的安慰),这是在实际部署前必须进行的关键后续工作。
  • 模型多样性 – 仅评估了 11 种大型语言模型;更新的多模态或指令微调模型可能表现不同。
  • 纵向预测 – 未来工作可以评估大型语言模型是否能够随时间追踪严重程度的变化,为连续监测工具打开大门。

作者

  • Panagiotis Kaliosis
  • Adithya V Ganesan
  • Oscar N. E. Kjell
  • Whitney Ringwald
  • Scott Feltman
  • Melissa A. Carr
  • Dimitris Samaras
  • Camilo Ruggero
  • Benjamin J. Luft
  • Roman Kotov
  • Andrew H. Schwartz

论文信息

  • arXiv ID: 2602.06015v1
  • 类别: cs.CL
  • 出版日期: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »