[Paper] 基准测试土耳其语中的来源敏感推理:人类和LLMs在证据信任操控下
发布: (2026年4月28日 GMT+8 00:26)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.24665v1
概述
本研究提出了一个令人惊讶的实际问题:大型语言模型(LLM)是否理解来源的可信度会影响土耳其语使用者在语法中编码证据的方式? 通过将经典的心理语言学实验与系统的 LLM 测试相结合,作者揭示了人类说话者与当前 AI 之间的明显差距——突显了一个盲点,可能影响任何依赖细致语言理解的应用。
关键贡献
- 人类基线: 证明以土耳其语为母语的使用者会系统性地在两种过去时后缀(‑DI 与 ‑mIs)之间切换,取决于信息来源是高信任还是低信任。
- LLM 评估框架: 引入三种提示风格(开放填空、显式过去时填空、强制选择),用于在十种流行的大语言模型上探测证据推理能力。
- 信任敏感性分析: 表明只有少数模型表现出微弱且不一致的信任驱动效应,而大多数模型默认遵循表层的后缀频率。
- 错误分类法: 确认常见的失效模式——提示敏感性、合规性问题以及强烈的基准后缀偏好——这些都会掩盖任何真实的证据推理。
- 开源资源: 发布刺激材料集、人类响应数据以及评估脚本,以实现可重复性并为未来的基准测试提供支持。
方法论
- 刺激设计: 精心制作了 120 句土耳其语填空句,缺失的动词必须填入证据后缀 ‑DI(中性/确定)或 ‑mIs(来源敏感)。唯一的操控是对显式提及的信息来源的 感知可靠性(例如 “权威新闻机构” 与 “谣言”)。
- 人工实验: 60 名母语者完成了产出任务,键入合适的动词形式。对不同信任条件下 ‑DI 与 ‑mIs 的选择比例进行分析。
- LLM 测试: 将相同项目输入十种大型语言模型(包括 GPT‑4、Llama 2、Claude 等),采用三种提示方式:
- 开放填空: “… ___”(模型必须生成完整动词)。
- 显式过去时填空: “… (past tense) ___”。
- 强制选择 A/B: “选择更合适的形式:A) …‑DI 或 B) …‑mIs”。
- 分析: 计算信任效应大小(高信任情境与低信任情境之间后缀选择的差异),并与人类基线进行比较。同时测量遵从性(模型是否遵循提示)和基准偏差(对某一后缀的整体偏好)。
结果与发现
- Human data: 高信任情境下产生 ≈68 % ‑DI,而低信任情境下降至 ≈42 % ‑DI——这是一种稳健且统计显著的信任效应。
- LLM 行为:
- GPT‑4 显示出微小的、相反方向的变化(在低信任情境下 ‑DI 增加),且仅在使用强制选择提示时出现。
- Llama 2‑Chat 在显式过去时提示下表现出略微正确的转变,但在开放填空时该效应消失。
- 大多数其他模型(Claude、Mistral、Gemma 等)完全忽视信任线索,默认使用更常见的后缀(‑DI 大约占 70 %)。
- 提示依赖性: 同一模型在不同提示风格下可能会翻转其行为,表明“理解”更多是对提示的模式匹配,而非真正的证据推理。
- 错误模式: 常见问题包括生成无关词汇、拒绝填补空白,或始终选择整体频率最高的后缀,而不考虑上下文。
实际意义
- 土耳其语的NLP流水线: 需要保留或生成证据细微差别的系统——例如自动新闻写作、法律文档起草或情感分析——不能依赖现成的大语言模型来遵循来源可信度提示。
- 提示工程的局限性: 仅仅重新表述提示并不能保证模型会纳入来源可靠性等语用信息;开发者必须设计任务特定的微调或检索增强方法。
- 评估基准: 该论文的基准可以重新用于对任何声称具备“语用意识”的多语言大模型进行合理性检查,帮助产品团队在部署前捕捉潜在偏见。
- 人机交互工作流: 对于高风险领域(例如医学建议翻译),在大模型能够可靠处理来源敏感的形态学之前,可能需要回退到基于规则或混合模型的方案。
限制与未来工作
- 语言范围: 本研究仅聚焦于土耳其语的证据形态学;结果可能无法推广到具有不同证据系统的其他语言。
- 模型多样性: 仅测试了十个公开可用的 LLM;更新的或专有的模型可能表现不同。
- 提示粒度: 虽然探索了三种提示风格,但更细致的指令微调(例如链式思考、少量示例)可能会产生更强的信任敏感性。
- 未来方向: 将基准扩展到其他语用现象(例如礼貌、情态),加入少量示例微调,并研究检索增强生成作为注入来源可靠性信息的一种方式。
作者
- Sercan Karakaş
- Yusuf Şimşek
论文信息
- arXiv ID: 2604.24665v1
- 分类: cs.CL, cs.AI
- 发布时间: 2026年4月27日
- PDF: 下载 PDF