[Paper] 从审查到调解：LLMs 能否在在线火焰战中充当调解者？

发布: 2个月前 (2025年12月3日 GMT+8 02:31)

6 分钟阅读

原文: arXiv

Source: arXiv - 2512.03005v1

概览

本文探讨了大型语言模型（LLM）的一种大胆新角色：在激烈的在线讨论或“火焰战”中充当 调解者，而不仅仅是标记有害内容。通过将调解拆分为判断（评估公平性和情绪）和引导（构造富有同理心、降温的回复）两个步骤，作者研究了当前的 LLM 是否能够帮助将对话引向建设性的结果。

关键贡献

调解框架：提出了一个两步流水线——判断与引导——使 LLM 能够既评估冲突动态，又生成平和的干预。
基于 Reddit 的调解数据集：收集并标注了大量真实的火焰战线程，包含公平性评分、情绪标签以及真实的调解回复。
多阶段评估协议：结合基于原则的打分（公平性、同理心、相关性）、模拟用户交互以及人工专家对比，评估调解质量。
实证基准：展示了商业 API 模型（如 GPT‑4、Claude）在判断准确性和引导对齐度上均优于开源 LLM。
洞察性失败分析：识别出系统性盲点（如文化细微差别、长期说服）限制了当前模型的调解效能。

方法论

数据收集
- 抓取数千个被标记为“激烈”或“有害”的 Reddit 评论线程。
- 人工标注者为每个发言标注 公平性（谁对谁错）、情绪强度，并提供 金标准调解回复。
模型设计
- 判断模块：通过提示工程让 LLM 预测每位参与者的公平性得分和情绪状态。
- 引导模块：基于判断输出生成一条富有同理心的回复，旨在降温（例如重新表述、提出澄清性问题）。
评估流水线
- 基于原则的打分：自动化指标检查回复是否遵循公平、同理心和相关性指南。
- 用户模拟：次级 LLM 扮演参与者角色，回复调解者的消息；追踪对话的毒性轨迹。
- 人工对比：领域专家对调解输出与人工基线进行评分，评估清晰度、帮助程度和冲突解决效果。

结果与发现

Model	Judgment Accuracy (F1)	Steering Alignment (Human Rating ★/5)
GPT‑4 (API)	0.84	4.2
Claude 2 (API)	0.78	3.9
LLaMA‑2‑13B (open‑source)	0.62	2.8
Falcon‑40B (open‑source)	0.58	2.6

API 模型始终提供更细致的公平性评估，并生成用户（无论是模拟的还是实际的）感受到的真正同理心的回复。
开源模型表现落后，常常遗漏细微的情绪线索，或给出通用且有时显得居高临下的建议。
在模拟对话中，加入调解者的线程相比未调解的基线 毒性分数降低了 30 %。
人类评审在 68 % 的案例中更倾向于选择 LLM 生成的调解，而非传统的审查工具。

实际意义

平台审查套件：在“删除或警告”流程中加入调解层，可将被动的内容清理转变为主动的对话修复工具，降低用户流失并提升社区健康度。
客户支持与社区管理：企业可部署 LLM 调解者，在工单或论坛争论升级前进行降温，从而节省时间并维护品牌声誉。
开发者工具包：两步 API（判断 + 引导）可封装成 SDK，帮助开发者以最少的提示工程将调解功能嵌入聊天机器人、游戏聊天或协作工作空间。
政策与合规：富有同理心的调解符合新兴法规的要求，这些法规不仅要求删除有害内容，还要求 危害降低 与 用户福祉。

局限性与未来工作

文化与情境差距：当前模型在处理细微的文化引用时仍有困难，可能误解讽刺，从而导致不恰当的干预。
长期说服：本研究聚焦于单轮干预；在多轮交互中实现持续的冲突解决仍是未解之题。
开源差距：性能差异凸显了需要更易获取、高质量的开源 LLM 或针对调解任务的微调方案。
评估真实性：模拟用户模型可能无法捕捉真实情感反应；需要更大规模的现场 A/B 测试来验证实际影响。

结论：虽然仍处于早期阶段，研究表明 LLM 能够超越单纯的语言审查，主动引导 更健康的在线 discourse——这是迈向 AI 增强社会调解的有希望的一步。

作者

Dawei Li
Abdullah Alnaibari
Arslan Bisharat
Manny Sandoval
Deborah Hall
Yasin Silva
Huan Liu

论文信息

arXiv ID: 2512.03005v1
Categories: cs.AI
Published: December 2, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] 用 Entity Linking 提升教育平台的 Retrieval-Augmented Generation

在大型语言模型（LLMs）时代，检索增强生成（RAG）架构因其能够将语言……

[Paper] 训练时动作条件化实现高效实时分块

实时分块（RTC）使视觉‑语言‑动作模型（VLAs）能够通过异步预测动作块，生成平滑、响应迅速的机器人轨迹……

[Paper] 只要剩下的必须为真：过滤驱动LLMs的推理，塑造多样性

强化学习 (RL) 已成为微调大型语言模型 (LLMs) 以解决涉及推理任务的事实标准。然而，越来越多的证据表明，模型 tra...

[Paper] AQUA-Net：自适应频率融合与光照感知网络用于水下图像增强

水下图像常常因波长依赖的光吸收和散射而出现严重的颜色失真、低对比度和雾化外观。Si...