[论文] 上下文感知语用元认知提示用于讽刺检测

发布: (2025年11月26日 GMT+8 13:19)
6 min read
原文: arXiv

Source: arXiv - 2511.21066v1

概览

即使使用强大的预训练语言模型(PLM)和大语言模型(LLM),文本讽刺检测仍然是 NLP 系统面临的难题。本文基于最近的提示技术 Pragmatic Metacognitive Prompting (PMP),展示了加入 上下文知识——包括来自网络的外部信息和模型自身内部记忆——如何显著提升多个基准数据集上的讽刺检测性能。

关键贡献

  • 上下文感知提示: 引入一种检索感知的 PMP 扩展,当模型缺乏必要的文化或领域知识时提供外部背景信息。
  • 自我知识感知: 提出一种 “自我知识” 策略,要求 LLM 调出它已经掌握的相关事实,从而降低对外部检索的依赖。
  • 实证提升: 在印尼 Twitter 讽刺数据集上实现最高 +9.87 % macro‑F1 的提升,并在英文基准(SemEval‑2018 Task 3、MUStARD)上实现约 3–4 % 的一致性提升。
  • 开源流水线: 发布代码和数据处理脚本,保证可复现性并便于集成到现有讽刺检测工作流中。

方法论

  1. 基础提示(PMP): 作者从已有的 Pragmatic Metacognitive Prompt 开始,将讽刺检测框定为一种元认知推理任务——先让模型考虑字面意义,再考虑语用(讽刺)意图。
  2. 检索感知增强:
    • 非参数(网络)检索: 对每条输入句子,轻量级搜索引擎抓取 top‑k 网络片段,这些片段可能包含相关的俚语、文化引用或冷门实体。随后将这些片段拼接到提示中,作为 “背景知识”。
    • 自我知识检索: 首先用元提示(“你知道哪些事实可以帮助解释这句话?”)询问 LLM。模型生成的知识随后被反馈到主讽刺检测提示中。
  3. 提示构成: 最终提示由三部分组成——(a) 原始 PMP 指令,(b) 检索得到的知识块,(c) 目标句子。
  4. 评估: 在三个公开讽刺语料库上使用 GPT‑3.5‑style LLM 通过 OpenAI API 进行实验。Macro‑F1 为主要指标,反映讽刺与非讽刺两类的平衡表现。

结果与发现

数据集基线 PMP (macro‑F1)+非参数检索+自我知识检索
印尼 Twitter 讽刺数据集62.3 %72.2 % (+9.87 %)
SemEval‑2018 Task 378.1 %81.4 % (+3.29 %)
MUStARD71.5 %75.6 % (+4.08 %)
  • 上下文重要性: 当文本包含地区特有的俚语或模型未知的引用时,加入网络来源的背景信息能显著提升性能。
  • 自我知识互补性: 即使没有外部检索,提示模型调出自身事实也能带来稳定提升,尤其在英文数据集上因为 LLM 已具备更广的覆盖面。
  • 错误分析: 剩余错误大多涉及多轮讽刺或高度模糊的幽默,需要超出单句上下文的更深层话语建模。

实际意义

  • 更佳的内容审核工具: 社交媒体平台可集成检索感知的 PMP 流水线,更可靠地标记讽刺或潜在有害内容,降低因字面解释导致的误报。
  • 跨文化聊天机器人: 在多语言市场(如印尼)部署的客服机器人可利用网络检索组件保持对本地俚语的最新了解,提升用户体验并避免误解。
  • 低资源适配: 该方法依赖即插即用的检索而非大模型微调,开发者可在计算开销极小的情况下为现有 LLM 流水线加装此功能。
  • 可解释性: 检索到的片段对开发者可见,提供了讽刺预测背后的透明 “原因”,有助于审计和合规。

局限性与未来工作

  • 检索质量依赖: 噪声或不相关的网络片段会削弱性能;当前系统仅使用简单的 BM25 排序器,缺乏高级相关性反馈。
  • 延迟开销: 实时应用需在额外的检索 API 调用与响应时间之间权衡。
  • 评估范围: 实验仅覆盖三套数据集;仍需在多轮对话和其他语言上进行更广泛的测试。
  • 未来方向: 作者计划探索检索文档的神经重排序、自适应提示长度控制,以及与多模态线索(如表情符号、图像)的融合,以捕捉跨文本与视觉的讽刺。

作者

  • Michael Iskandardinata
  • William Christian
  • Derwin Suhartono

论文信息

  • arXiv ID: 2511.21066v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »