[Paper] 鲁棒的角色感知有害内容检测:提示优化与学习式集成

发布: (2026年1月6日 GMT+8 02:32)
6 min read
原文: arXiv

Source: arXiv - 2601.02337v1

概述

检测有毒语言历来具有主观性——一个群体认为冒犯的内容,另一个群体可能不这么认为。本文通过系统评估大型语言模型(LLMs)在使用不同人口角色“个性化”后对有毒提示的响应,来应对这一挑战。作者展示,没有单一的提示配方能够对每个模型‑角色组合都表现最佳,并且他们提出了一种轻量级集成方法,能够在整体上持续提升性能。

关键贡献

  • 首次系统性比较 多个大型语言模型中基于角色的提示策略在有害内容检测中的表现。
  • 自动化提示优化框架,可为特定角色‑模型组合搜索定制提示。
  • 元集成技术:一个简单的线性 SVM,接受来自四种不同提示变体的 4 位预测向量并学习如何组合。
  • 实证表明,SVM 元集成在多样角色集合上优于每个单独提示以及传统的多数投票集成。
  • 开源评估流水线,可复用于其他主观 NLP 任务(如仇恨言论、偏见检测)。

方法论

  1. Persona Definition – 作者定义了一组人口统计角色(例如,“年轻的黑人女性”,“年长的白人男性”),这些角色编码了影响有毒性认知的社会先验。
  2. Prompt Variants – 探索了四种提示风格:
    • Base prompt(纯粹的有毒性查询)
    • Persona‑injected prompt(明确提及角色)
    • Optimized prompt(通过对提示模板的自动搜索生成)
    • Hybrid prompt(结合角色和优化线索)
  3. Model Suite – 在多个开源大语言模型上进行实验(如 LLaMA‑2、Falcon、Mistral),以捕捉不同架构之间的变异性。
  4. Ensembling – 每个提示产生一个二元有毒性标签。四个标签构成每个示例的 4 位向量。使用小型验证集在这些向量上训练 SVM,以预测最终标签,学习哪些组合最可靠。
  5. Evaluation – 计算每个角色的标准指标(F1、精确率、召回率),并汇总评估整体鲁棒性。

结果与发现

提示变体平均 F1(跨角色)多数投票 F1SVM 元集成 F1
基础0.710.78
注入角色0.730.79
优化0.740.80
混合0.750.82
多数投票(4 位)0.77
SVM 集成0.82
  • 没有单一提示占据优势;性能在不同模型‑角色组合之间有明显差异。
  • SVM 元集成始终优于最佳单个提示和朴素的多数投票基线。
  • 增益在历史上出现更高假阴性率的角色(例如边缘化群体)中最为显著。

实际意义

  • 更公平的审核工具 – 部署 SVM meta‑ensemble 可以在不牺牲整体检测质量的前提下,降低对弱势群体的偏见。
  • 即插即用的安全层 – 由于该集成仅需要四个二元预测,可在现有基于 LLM‑based moderation pipelines 的审核流水线之上添加,且延迟开销最小。
  • 快速的人格适配 – 当需要支持新的 demographic personas 时,可重新运行自动 prompt optimizer,使系统具备前瞻性。
  • 可推广的框架 – 相同的集成逻辑可用于其他主观分类任务(例如政治偏见检测、情感分析),在这些任务中多视角同样重要。

限制与未来工作

  • 人格粒度 – 研究使用了一套有限的手工制作人格;现实中的用户可能认同更细致的交叉身份。
  • 优化的可扩展性 – 对于非常大的模型,提示搜索过程可能计算成本高昂,尽管最终的集成仍然轻量。
  • 数据集偏差 – 评估依赖现有的有害内容基准,这些基准可能无法完整捕捉现实线上话语的多样性。
  • 未来方向 建议包括:扩展到多语言大模型,探索更丰富的集成学习器(例如神经元元模型),以及整合用户反馈循环以持续改进人格表示。

作者

  • Berk Atil
  • Rebecca J. Passonneau
  • Ninareh Mehrabi

论文信息

  • arXiv ID: 2601.02337v1
  • 分类: cs.CL
  • 发表日期: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »