[Paper] 大语言模型中的义务条件推理评估：以Wason's Selection Task为例

发布: 3天前 (2026年3月6日 GMT+8 23:55)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.06416v1

概述

本文研究大型语言模型（LLMs）在处理义务（基于规范的）条件推理时的表现，使用经典的逻辑谜题——Wason选择任务。通过比较LLM在义务条件与纯描述性条件下的表现，作者发现LLM与人类类似，更擅长对“应该”陈述进行推理，并呈现出熟悉的偏差模式。

新基准：引入了一个 Wason 选择任务数据集，明确编码义务模态，使得规范（“必须/应该”）和描述性（“是/是”）条件句之间能够清晰划分。
系统评估：对多种最先进的语言模型（如 GPT‑4、Claude、LLaMA‑2）在两类规则上的表现进行测量，提供了首次大规模比较 LLM 中义务推理与描述性推理的研究。
偏差分析：区分两种经典的人类错误来源——确认偏差和匹配偏差——以判断哪种更能解释 LLM 的错误。
人类‑LLM 对比：表明 LLM 不仅在义务规则上表现更好，还会出现类似匹配偏差的错误，映射出已知的人类推理模式。
开放资源：发布数据集、提示词和评估脚本，以实现可重复性并供社区扩展使用。

任务设计
- Wason 选择任务呈现一个条件规则（例如，“如果卡片左侧必须是元音，则右侧必须是偶数”），并提供四张展示不同属性组合的卡片。
- 参与者必须挑选需要翻转的卡片，以检验规则的真实性。
- 作者创建了两套平行实验：一套使用义务条件句（使用 “must/should”），另一套使用描述性条件句（使用 “is/are”）。
提示工程
- 每个大型语言模型（LLM）都会收到关于规则和四张卡片的自然语言描述。
- 提示要求模型列出应检查的卡片，模拟原始心理实验。
模型套件
- 测试的模型包括 GPT‑4、GPT‑3.5‑turbo、Claude‑2、LLaMA‑2‑70B 以及开源指令微调变体。
- 对每个模型尝试了多种 temperature 设置，以评估其鲁棒性。
错误模式分析
- 确认偏差：模型仅选择确认规则的卡片（忽略反驳证据）的错误。
- 匹配偏差：模型选择在词汇上匹配规则元素的卡片，而不考虑逻辑必要性的错误（例如，即使规则前件涉及数字，也选择带有元音的卡片）。
- 作者计算混淆矩阵并进行统计检验，以确定哪种偏差更符合观察到的错误。

条件	最佳 LLM（准确率）	模型平均准确率
Deontic	GPT‑4 (78%)	~70%
Descriptive	GPT‑4 (55%)	~48%

Policy‑driven AI：需要执行或推理规范规则的系统（例如合规检查器、访问控制策略）可以比在纯事实推理任务中更有信心地依赖 LLM。
Prompt design：在构建必须评估“应该”陈述的 LLM 驱动助理时（例如“我应该授予此权限吗？”），使用义务语言来表述查询可能提升正确性。
Bias mitigation：了解 LLM 存在匹配偏差后，开发者应在涉及条件逻辑的任务中加入验证步骤（如符号化后处理）。
Testing suites：已发布的义务 Wason 数据集可以成为新 LLM 版本的快速 sanity check，类似于开发者对代码运行单元测试。

未来的研究可以将基准扩展到多步推理，结合形式验证工具，并探索训练阶段的干预措施（例如，偏见感知的微调）以降低匹配偏见。