[Paper] 没有普遍礼貌：跨语言、多模型研究礼貌对 LLMs 的影响（使用 PLUM Corpus）

发布: 3周前 (2026年4月18日 GMT+8 01:33)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.16275v1

概述

该论文研究了大型语言模型（LLMs）在不同礼貌程度的提示下的反应——从礼貌到极度粗鲁——在三种语言（英语、印地语、西班牙语）和五个流行模型中的表现。通过系统地测量响应质量的变化，作者表明语气并非“一刀切”的因素：其影响取决于语言、模型以及对话上下文。

跨语言礼貌基准（PLUM）：公开发布的包含 1,500 条经人工验证的提示的数据集，覆盖英语、印地语和西班牙语的五个礼貌层级。
大规模实证研究：对 22,500 对提示‑响应进行评估，涵盖八个质量维度（连贯性、清晰度、深度等）。
模型特定语气敏感性分析：量化五种被检验的大语言模型（Gemini‑Pro、GPT‑4o Mini、Claude 3.7 Sonnet、DeepSeek‑Chat、Llama 3）对礼貌与不礼貌输入的反应。
基于假设的验证：检验来源于经典礼貌理论的六个可证伪预测，为社会语言学与人工智能之间搭建严谨的桥梁。
面向开发者的可操作洞见：针对不同语言和模型的提示措辞提供具体建议，以最大化响应质量。

Prompt Design – 使用 Brown & Levinson 的礼貌理论和 Culpeper 的不礼貌框架，作者构建了五种语气类别（例如，恭敬、直接、坚定、粗鲁）。每个类别被翻译成英语、印地语和西班牙语，产生了 1,500 条独特提示。
Interaction Histories – 对每个提示，模拟了三种对话情境：原始（无先前交流）、礼貌历史和不礼貌历史，以捕捉先前语气如何影响下一轮发言。
Model Sampling – 将提示通过公开 API 输入到五个最先进的语言模型（LLM）中。每个模型生成一个响应，形成了 22,500 对提示‑响应。
Evaluation Framework – 人类标注者对每个响应在八个因素上进行评分（连贯性、清晰度、深度、响应性、上下文保持、毒性、简洁性、可读性）。分数经过归一化，以生成整体质量指标。
Statistical Analysis – 作者计算了每个模型和每种语言的效应大小，进行 ANOVA 检验，并考察语气、语言与模型之间的交互效应。他们还将六个理论假设与实证数据进行对照。

礼貌提升质量，但并非均匀 – 礼貌的提示整体上可将平均响应质量提升约 11 %，而不礼貌的提示则可能以类似幅度降低质量。
语言特定的最佳点
- 英语：礼貌或中性语气效果最佳。
- 印地语：恭敬且间接的语气能获得更高分数。
- 西班牙语：自信的语气表现优于其他语气。
模型层面的差异
- Llama 3 对礼貌程度最为敏感（在最礼貌和最粗鲁的输入之间，质量波动约为 11.5 %）。
- GPT‑4o Mini 相对稳健，波动仅约 3 %。
- Claude 3.7 Sonnet 与 Gemini‑Pro 处于中间水平。
对话历史很重要 – 礼貌的前置交流可以在一定程度上缓解粗鲁提示的负面影响，反之亦然。
假设结果 – 六个社会语言学假设中有四个得到支持（例如，“恭敬的语言在高语境语言中提升顺从度”），而两个被否定，凸显了现有理论在应用于大型语言模型时的不足。

Prompt engineering guidelines – 开发者可以根据目标语言和模型定制提示：对以印地语为中心的应用使用敬语表达，对西班牙语保持自信语气，对英语则坚持中性礼貌。
Safety and toxicity mitigation – 了解不礼貌的输入可能导致有害输出增加（尤其是在 Llama 3 等模型中），有助于团队设计前端，自动改写或标记敌对用户语言。
Customer‑support bots – 通过提供礼貌的互动历史，即使用户情绪激动，机器人也能保持更高的响应质量，从而提升用户满意度。
Multilingual product rollout – 企业可以优先选择在用户礼貌程度差异大的语言中表现稳健的模型（例如针对以英语为主的市场使用 GPT‑4o Mini）。
Benchmarking & monitoring – PLUM 语料库提供了现成的测试套件，可用于持续评估新模型发布或微调变体。