[Paper] 没有普遍礼貌:跨语言、多模型研究礼貌对 LLMs 的影响(使用 PLUM Corpus)
发布: (2026年4月18日 GMT+8 01:33)
8 分钟阅读
原文: arXiv
Source: arXiv - 2604.16275v1
概述
该论文研究了大型语言模型(LLMs)在不同礼貌程度的提示下的反应——从礼貌到极度粗鲁——在三种语言(英语、印地语、西班牙语)和五个流行模型中的表现。通过系统地测量响应质量的变化,作者表明语气并非“一刀切”的因素:其影响取决于语言、模型以及对话上下文。
关键贡献
- 跨语言礼貌基准(PLUM):公开发布的包含 1,500 条经人工验证的提示的数据集,覆盖英语、印地语和西班牙语的五个礼貌层级。
- 大规模实证研究:对 22,500 对提示‑响应进行评估,涵盖八个质量维度(连贯性、清晰度、深度等)。
- 模型特定语气敏感性分析:量化五种被检验的大语言模型(Gemini‑Pro、GPT‑4o Mini、Claude 3.7 Sonnet、DeepSeek‑Chat、Llama 3)对礼貌与不礼貌输入的反应。
- 基于假设的验证:检验来源于经典礼貌理论的六个可证伪预测,为社会语言学与人工智能之间搭建严谨的桥梁。
- 面向开发者的可操作洞见:针对不同语言和模型的提示措辞提供具体建议,以最大化响应质量。
方法论
- Prompt Design – 使用 Brown & Levinson 的礼貌理论和 Culpeper 的不礼貌框架,作者构建了五种语气类别(例如,恭敬、直接、坚定、粗鲁)。每个类别被翻译成英语、印地语和西班牙语,产生了 1,500 条独特提示。
- Interaction Histories – 对每个提示,模拟了三种对话情境:原始(无先前交流)、礼貌历史和不礼貌历史,以捕捉先前语气如何影响下一轮发言。
- Model Sampling – 将提示通过公开 API 输入到五个最先进的语言模型(LLM)中。每个模型生成一个响应,形成了 22,500 对提示‑响应。
- Evaluation Framework – 人类标注者对每个响应在八个因素上进行评分(连贯性、清晰度、深度、响应性、上下文保持、毒性、简洁性、可读性)。分数经过归一化,以生成整体质量指标。
- Statistical Analysis – 作者计算了每个模型和每种语言的效应大小,进行 ANOVA 检验,并考察语气、语言与模型之间的交互效应。他们还将六个理论假设与实证数据进行对照。
结果与发现
- 礼貌提升质量,但并非均匀 – 礼貌的提示整体上可将平均响应质量提升约 11 %,而不礼貌的提示则可能以类似幅度降低质量。
- 语言特定的最佳点
- 英语:礼貌或中性语气效果最佳。
- 印地语:恭敬且间接的语气能获得更高分数。
- 西班牙语:自信的语气表现优于其他语气。
- 模型层面的差异
- Llama 3 对礼貌程度最为敏感(在最礼貌和最粗鲁的输入之间,质量波动约为 11.5 %)。
- GPT‑4o Mini 相对稳健,波动仅约 3 %。
- Claude 3.7 Sonnet 与 Gemini‑Pro 处于中间水平。
- 对话历史很重要 – 礼貌的前置交流可以在一定程度上缓解粗鲁提示的负面影响,反之亦然。
- 假设结果 – 六个社会语言学假设中有四个得到支持(例如,“恭敬的语言在高语境语言中提升顺从度”),而两个被否定,凸显了现有理论在应用于大型语言模型时的不足。
实际意义
- Prompt engineering guidelines – 开发者可以根据目标语言和模型定制提示:对以印地语为中心的应用使用敬语表达,对西班牙语保持自信语气,对英语则坚持中性礼貌。
- Safety and toxicity mitigation – 了解不礼貌的输入可能导致有害输出增加(尤其是在 Llama 3 等模型中),有助于团队设计前端,自动改写或标记敌对用户语言。
- Customer‑support bots – 通过提供礼貌的互动历史,即使用户情绪激动,机器人也能保持更高的响应质量,从而提升用户满意度。
- Multilingual product rollout – 企业可以优先选择在用户礼貌程度差异大的语言中表现稳健的模型(例如针对以英语为主的市场使用 GPT‑4o Mini)。
- Benchmarking & monitoring – PLUM 语料库提供了现成的测试套件,可用于持续评估新模型发布或微调变体。
限制与未来工作
- 语言范围 – 仅研究了三种语言;结果可能无法推广到低资源或类型学上相距甚远的语言。
- 提示多样性 – 虽然 1,500 条提示数量可观,但它们覆盖的领域有限(主要是信息查询)。真实世界的对话广度可能会展现出不同的模式。
- 模型版本 – 本研究捕捉了每个模型 API 在某一时间点的快照;未来的更新可能会改变语气敏感性。
- 人工标注偏差 – 评估者虽为母语者,但仍可能带有文化偏见,影响评分的一致性。
- 未来方向 – 建议的下一步包括将 PLUM 扩展到更多语言、探索多模态大语言模型中的语气效应,以及将自动礼貌检测器集成到提示预处理流水线中。
作者
- Hitesh Mehta
- Arjit Saxena
- Garima Chhikara
- Rohit Kumar
论文信息
- arXiv ID: 2604.16275v1
- 分类: cs.CL
- 发布时间: 2026年4月17日
- PDF: 下载 PDF