[Paper] 基准测试土耳其语中的来源敏感推理：人类和LLMs在证据信任操控下

发布: 1天前 (2026年4月28日 GMT+8 00:26)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.24665v1

概述

本研究提出了一个令人惊讶的实际问题：大型语言模型（LLM）是否理解来源的可信度会影响土耳其语使用者在语法中编码证据的方式？ 通过将经典的心理语言学实验与系统的 LLM 测试相结合，作者揭示了人类说话者与当前 AI 之间的明显差距——突显了一个盲点，可能影响任何依赖细致语言理解的应用。

刺激设计： 精心制作了 120 句土耳其语填空句，缺失的动词必须填入证据后缀 ‑DI（中性/确定）或 ‑mIs（来源敏感）。唯一的操控是对显式提及的信息来源的 感知可靠性（例如 “权威新闻机构” 与 “谣言”）。
人工实验： 60 名母语者完成了产出任务，键入合适的动词形式。对不同信任条件下 ‑DI 与 ‑mIs 的选择比例进行分析。
LLM 测试： 将相同项目输入十种大型语言模型（包括 GPT‑4、Llama 2、Claude 等），采用三种提示方式：
- 开放填空： “… ___”（模型必须生成完整动词）。
- 显式过去时填空： “… (past tense) ___”。
- 强制选择 A/B： “选择更合适的形式：A) …‑DI 或 B) …‑mIs”。
分析： 计算信任效应大小（高信任情境与低信任情境之间后缀选择的差异），并与人类基线进行比较。同时测量遵从性（模型是否遵循提示）和基准偏差（对某一后缀的整体偏好）。

Human data: 高信任情境下产生 ≈68 % ‑DI，而低信任情境下降至 ≈42 % ‑DI——这是一种稳健且统计显著的信任效应。
LLM 行为:
- GPT‑4 显示出微小的、相反方向的变化（在低信任情境下 ‑DI 增加），且仅在使用强制选择提示时出现。
- Llama 2‑Chat 在显式过去时提示下表现出略微正确的转变，但在开放填空时该效应消失。
- 大多数其他模型（Claude、Mistral、Gemma 等）完全忽视信任线索，默认使用更常见的后缀（‑DI 大约占 70 %）。
提示依赖性: 同一模型在不同提示风格下可能会翻转其行为，表明“理解”更多是对提示的模式匹配，而非真正的证据推理。
错误模式: 常见问题包括生成无关词汇、拒绝填补空白，或始终选择整体频率最高的后缀，而不考虑上下文。

土耳其语的NLP流水线: 需要保留或生成证据细微差别的系统——例如自动新闻写作、法律文档起草或情感分析——不能依赖现成的大语言模型来遵循来源可信度提示。
提示工程的局限性: 仅仅重新表述提示并不能保证模型会纳入来源可靠性等语用信息；开发者必须设计任务特定的微调或检索增强方法。
评估基准: 该论文的基准可以重新用于对任何声称具备“语用意识”的多语言大模型进行合理性检查，帮助产品团队在部署前捕捉潜在偏见。
人机交互工作流: 对于高风险领域（例如医学建议翻译），在大模型能够可靠处理来源敏感的形态学之前，可能需要回退到基于规则或混合模型的方案。