[Paper] 关系道德困境中的机器行为：道德正确性、预测的人类行为与模型决策

发布: 1天前 (2026年4月24日 GMT+8 01:14)

8 分钟阅读

原文: arXiv

Source: arXiv - 2604.21871v1

概览

本文研究了大型语言模型（LLMs）在处理取决于决策者与受影响方关系的道德困境时的表现。作者使用经典的举报者困境——需要决定是否揭露不当行为——通过改变犯罪严重程度和关系亲密度，观察LLMs是遵循严格的公平规则、模仿人类实际行为，还是做出自主选择。研究结果显示出显著的不匹配：即使其内部“世界模型”预测人类会因忠诚而行动，LLMs仍倾向于坚持规范性的道德准则。

关键贡献

三视角框架 – 引入评估机器道德的三种视角：(1) 道德正确性（应该做什么），(2) 预测的人类行为（人们实际上会做什么），以及 (3) 模型决策（大型语言模型会选择什么）。
关系道德基准 – 在举报者困境的基础上，系统性地操控犯罪严重程度和人际亲密度，创建可复现的测试套件供未来 LLM 安全工作使用。
分歧的实证证据 – 表明 LLM 的决策倾向于公平导向的“正确性”视角，而它们对人类行为的预测则随着关系亲密度的增强而倾向于忠诚。
通过推理痕迹的可解释性 – 分析链式思考输出，揭示导致每个视角的推理步骤，突出模型内部世界模型与最终决策之间的冲突。
决策支持系统的风险提示 – 论证作为顾问部署的 LLM（例如合规机器人、人力资源助理）可能忽视社会细微的期望，进而可能侵蚀信任或导致政策失误。

方法论

情景构建 – 作者生成一个包含 12 条提示的矩阵，覆盖三种犯罪严重程度（轻微、适中、严重）× 四种关系距离（陌生人、同事、密友、家庭）。
三种查询类型
- 道德正确性：“报告 … 在道德上是否正确？”
- 预测人类行为：“大多数人会报告 … 吗？”
- 模型决策：“如果你是那个人，你会报告 … 吗？”
模型套件 – 实验在多个最先进的 LLM（例如 GPT‑4、Claude、Llama‑2）上运行，使用 chain‑of‑thought 提示以引发推理。
评分 – 将答案映射到 5 点 Likert 量表（强烈不同意 → 强烈同意）。使用 Cohen’s κ 测量不同视角之间的一致性。
定性轨迹分析 – 作者手动编码推理片段，标记对公平、忠诚、义务和后果的引用，然后比较不同视角的出现频率。

结果与发现

视角	随着关系亲密度的趋势	随着犯罪严重程度的趋势
道德正当性	保持高水平（≈4.2/5），不论亲密度——公平占主导。	对轻微犯罪略有下降，但仍 >4.0。
预测的人类行为	随着亲密度上升显著下降（≈4.5 → 2.8）——人们预期忠诚会占上风。	对严重犯罪下降更明显；人们仍认为忠诚可以抵消严重性。
模型决策	与道德正当性相吻合（≈4.1）——即使是亲密关系，语言模型也选择报告。	始终保持高水平；严重性影响有限。

跨视角分歧：κ ≈ 0.22（低一致性），预测的人类行为 与 模型决策 之间。
推理追踪洞察：当被问及“正当性”时，模型引用“公平”“正义”“法治”。在预测人类行为时，它们提到“保护关系”“担心报复”“社会压力”。然而最终决策仍默认以公平为中心的推理。
模型特定差异：GPT‑4 与道德正当性最为一致；Llama‑2 略有更多变异，但仍倾向于公平。

实际影响

Compliance & Whistleblowing Platforms – AI 助手在向员工建议举报不当行为时，可能过度推荐披露，而忽视举报人实际承担的社会成本。
HR & Conflict‑Resolution Tools – 在人际冲突中提供行动建议的系统需要纳入关系背景；否则可能会推荐让用户感到“冷漠”或不切实际的解决方案。
Policy‑Making & Governance – 监管机构在评估 AI 安全时，应不仅关注模型认为正确的是什么，还要关注模型是否理解人在社会冲突情境下的真实行为。
Prompt Engineering – 开发者可以明确请求“具备社会意识”的建议（例如，“考虑忠诚度和个人风险”），以引导模型给出更平衡的推荐。
Transparency Features – 向终端用户展示思考链（chain‑of‑thought）追踪，可显现内部冲突，让人类做出知情的最终决定。

限制与未来工作

提示敏感性 – 结果可能因不同的表述或温度设置而变化；本研究使用单一的提示方式。
文化范围 – 所有情境均假设西方、以个人权利为中心的道德基准；未探讨忠诚与公平在跨文化中的差异。
模型多样性 – 仅测试了少数商业大语言模型；开源或规模较小的模型可能表现不同。
动态情境 – 现实中的吹哨行为涉及持续的反馈循环（例如，报告后可能面临的报复风险），而静态提示无法捕捉。
未来方向 – 作者提出构建关系感知的微调数据集，整合多代理仿真以建模下游后果，并开发能够同时评估公平性和社会对齐度的评价指标。

作者

Jiseon Kim
Jea Kwon
Luiz Felipe Vecchietti
Wenchao Dong
Jaehong Kim
Meeyoung Cha

论文信息

arXiv ID: 2604.21871v1
分类: cs.CL
出版日期: 2026年4月23日
PDF: 下载 PDF

[Paper] 关系道德困境中的机器行为：道德正确性、预测的人类行为与模型决策

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 使用生成式大型语言模型评估自动语音识别

[Paper] MathDuels：评估 LLM 作为出题者和求解者

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中

[Paper] GiVA：梯度感知基用于基于向量的适应