[Paper] 大语言模型在 PTSD 严重程度估计中的系统评估：上下文知识与建模策略的作用

发布: 3天前 (2026年2月6日 GMT+8 02:53)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.06015v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文。）

概述

本文研究了现代大型语言模型（LLM）在从原始叙事文本中估计创伤后应激障碍（PTSD）严重程度方面的表现。通过对 11 种最先进模型以及超过一千条真实临床记录进行系统基准测试，作者揭示了哪些提示、推理技巧和模型规模的选择真正提升了预测准确性。

数据 – 作者使用一个临床语料库，包含自由形式的创伤叙事和自报告的 PTSD 严重程度评分（来源于标准的 PCL‑5 问卷）。
提示族 – 对每个模型他们设计了几种提示模板：
- 最小化：仅原始叙事。
- 上下文丰富：叙事 + 每个 PTSD 子量表的明确定义，以及数据集的简要统计概述。
- 访谈式：叙事 + 生成自报告的准确访谈问题。
模型配置 –
- 零样本：模型仅接收提示。
- 少样本：加入最多 5 个叙事‑评分对的示例。
- 推理深度：普通回答 vs. 思维链（CoT）提示，迫使模型“逐步思考”。
- 输出格式：直接标量预测（0‑100） vs. 分别预测每个子量表后再聚合。
集成 – 九种策略（简单平均、加权投票、使用线性回归器的堆叠等）将多个大语言模型和监督基线（例如微调的 BERT）的预测进行组合。
评估 – 使用 Pearson / Spearman 相关系数和相对于金标准 PTSD 评分的平均绝对误差（MAE）。

因素	对准确性的影响
上下文知识（子量表定义 + 访谈问题）	↑ 相关性提升约 0.08（≈10 % 相对提升）
链式思考推理	MAE 持续降低（≈15 % 改进）
模型规模 – 开源权重（LLaMA、DeepSeek）	在约 70 B 参数后趋于平台期；更大的模型收益递减
模型规模 – 闭源权重（GPT‑3.5‑mini → GPT‑5）	稳步提升；GPT‑5 以显著优势超越所有其他模型
零样本 vs. 少样本	少样本略有提升（≈2‑3 % 增益），但会增加提示复杂度
结构化子量表预测	相较直接标量输出，校准略有提升
最佳集成	将监督式 BERT 回归器与前三个零样本大模型进行堆叠，可获得最高 Pearson r（≈0.78）和最低 MAE（在 0‑100 分制上约为 4.2 分）

简而言之，“正确”的提示加上一点推理胜过单纯的模型规模，智能集成则是最优方案。

临床决策支持 – 部署包含链式思考（CoT）推理的上下文丰富提示，可将现成的大语言模型转变为可靠的心理健康专业人员分诊工具，标记高危病例以便后续跟进。
产品设计 – 吸收用户生成健康叙事的 SaaS 平台（例如远程治疗应用）可以通过添加结构化定义和少量示例，提升风险评分，而无需昂贵的模型微调。
成本效益扩展 – 鉴于开放权重模型在约 70 B 参数后不再提升，公司可以选择更小的开放模型加轻量级集成，而不是为最新的闭源 API 支付费用。
合规监管 – 研究强调透明提示的重要性；审计日志可以记录使用的确切提示模板，帮助满足可解释性要求。
快速原型 – 少量示例和链式思考技术易于在现有 LLM SDK（OpenAI、Anthropic、Cohere）中实现，使开发者能够在数天而非数周内实验心理健康评分。