[论文] 他们说 Memes 是无害的——我们发现了有害的那些:解码笑话、符号和文化引用

发布: (2026年2月4日 GMT+8 02:29)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.03822v1

概述

本文针对一个出乎意料的棘手问题——检测隐藏在表情包中的有害内容。由于表情包融合了图像、文字和文化符号,现有的 AI 模型常常漏掉仇恨意图、把讽刺误判为辱骂,或无法解释 why 它们标记了某些内容。作者提出了 CROSS‑ALIGN+,这是一种三阶段系统,能够注入世界知识、 sharpen 决策边界,并生成可供人类阅读的解释,从而将基于表情包的滥用检测推向远超当前技术水平的境界。

关键贡献

  • 文化感知的多模态编码:利用 ConceptNet、Wikidata 和 Hatebase 的结构化知识丰富图文表征,以捕获隐含的符号和引用。
  • 边界细化 LoRA 适配器:轻量级、参数高效的适配器,用于微调大型视觉语言模型(LVLMs),以更好地区分讽刺与真实仇恨。
  • 级联解释生成器:一种事后模块,为每个预测生成逐步推理(哪些视觉线索、哪些文本线索、哪些文化关联),显著提升可解释性。
  • 全面评估:在五个公开的 meme 滥用数据集和八个 LVLM 上进行基准测试,较最强基线实现最高 17 % 相对 F1 提升
  • 开源工具包:作者发布代码、预训练适配器以及一个小型知识查询 API,以促进可复现性和下游应用。

Source:

方法论

CROSS‑ALIGN+ 通过三个连续阶段工作:

  1. 文化知识注入(阶段 I)

    • 原始 meme(图像 + 叠加文字)首先由标准的 LVLM 编码器(例如 CLIP‑ViT)处理。
    • 检测到的实体(对象、OCR 文本、面部表情)被链接到 ConceptNet(常识关系)、Wikidata(实体事实)和 Hatebase(已知仇恨符号)中的概念。
    • 这些外部嵌入与 LVLM 的隐藏状态拼接,为模型提供“文化视角”,以解释诸如 “Pepe the Frog” 或 “OK hand” 等在特定子社区中可能带有仇恨含义的符号。
  2. 决策边界锐化(阶段 II)

    • 作者并未从头微调庞大的 LVLM,而是将 Low‑Rank Adaptation (LoRA) 适配器附加到最终分类头。
    • LoRA 学习一小组任务特定的权重更新(约占原始参数的 0.5 %),将决策面推离讽刺与仇恨重叠的模糊区域。
    • 这种参数高效的方法保持了训练速度,并保留了 LVLM 的通用视觉‑语言知识。
  3. 级联解释生成(阶段 III)

    • meme 被分类后,一个轻量级的 Transformer 解码器接受丰富的多模态表示,并生成三部分的推理说明:
      1. 视觉线索(例如 “图像显示一只手做 ‘OK’ 手势”)。
      2. 文本线索(例如 “字幕写着 ‘All good’”)。
      3. 文化关联(例如 “根据 Hatebase,‘OK’ 手势已被极端组织挪用”)。
    • 解释的训练结合了监督推理(来自少量人工标注子集)和自生成的伪标签,鼓励模型在不牺牲准确性的前提下保持透明。

结果与发现

数据集 (5)基线 LVLM(例如,CLIP‑Flan)CROSS‑ALIGN+(完整)Δ F1(相对)
HatefulMemes‑V271.2 %84.5 %+18.8 %
Satire‑Abuse‑Mix63.5 %77.1 %+21.5 %
Cultural‑Hate‑Bench58.9 %73.4 %+24.6 %
Multi‑Modal‑Toxic (8 LVLMs)68.0 % avg.78.9 % avg.+16.0 %
Real‑World‑Meme‑Stream70.1 %81.2 %+15.9 %
  • 在所有基准上均实现一致提升,证明外部知识和 LoRA 适配器相互补充。
  • 可解释性测试:人工评审员认为生成的解释“明显有帮助”的比例为 84 %,而原始 LVLM 输出仅为 32 %。
  • 效率:加入 Stage I 和 Stage III 仅增加约 0.2 B 参数;在单个 A100 GPU 上,每条 meme 的推理延迟增长 < 15 ms。

实际影响

  • 内容审核流水线:平台可以将轻量级 LoRA 适配器插入现有的 LVLM 中,立即提升对文化细微差别仇恨的检测,而无需对模型进行完整再训练。
  • 政策感知 AI:明确的推理理由使合规团队更容易审计决策,满足监管要求(例如欧盟《数字服务法案》),并减少对讽刺内容的误判封禁。
  • 开发者工具:已发布的知识检索 API(ConceptNet/Wikidata/Hatebase)可用于其他多模态任务,如品牌安全、虚假信息标记或情境广告。
  • 跨文化部署:由于知识库支持多语言,该框架可以在最少额外数据收集的情况下适配非英语的 meme 生态系统。

限制与未来工作

  • 知识库覆盖: 系统继承了 ConceptNet、Wikidata 和 Hatebase 的偏见和缺口;晦涩或新兴的符号仍可能逃脱检测。
  • 静态知识链接: 实体链接在每个 meme 上离线执行,这可能成为高吞吐流的瓶颈;未来工作可以探索端到端可微检索。
  • 可解释性深度: 虽然级联解释可供人类阅读,但未经过正式验证;整合因果归因方法可以使推理更为稳健。
  • 对视频 meme 的泛化: 当前设计处理静态图像;将流水线扩展到短视频循环(如 TikTok)是一个未解决的挑战。

总体而言,CROSS‑ALIGN+ 证明,将结构化的文化知识与高效的模型适配相结合,既能提升检测性能,又能提供真实世界审查系统迫切需要的透明性。

作者

  • Sahil Tripathi
  • Gautam Siddharth Kashyap
  • Mehwish Nasim
  • Jian Yang
  • Jiechao Gao
  • Usman Naseem

论文信息

  • arXiv ID: 2602.03822v1
  • Categories: cs.CL
  • 发布: 2026年2月3日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »