[论文] 上下文感知语用元认知提示用于讽刺检测
发布: (2025年11月26日 GMT+8 13:19)
6 min read
原文: arXiv
Source: arXiv - 2511.21066v1
概览
即使使用强大的预训练语言模型(PLM)和大语言模型(LLM),文本讽刺检测仍然是 NLP 系统面临的难题。本文基于最近的提示技术 Pragmatic Metacognitive Prompting (PMP),展示了加入 上下文知识——包括来自网络的外部信息和模型自身内部记忆——如何显著提升多个基准数据集上的讽刺检测性能。
关键贡献
- 上下文感知提示: 引入一种检索感知的 PMP 扩展,当模型缺乏必要的文化或领域知识时提供外部背景信息。
- 自我知识感知: 提出一种 “自我知识” 策略,要求 LLM 调出它已经掌握的相关事实,从而降低对外部检索的依赖。
- 实证提升: 在印尼 Twitter 讽刺数据集上实现最高 +9.87 % macro‑F1 的提升,并在英文基准(SemEval‑2018 Task 3、MUStARD)上实现约 3–4 % 的一致性提升。
- 开源流水线: 发布代码和数据处理脚本,保证可复现性并便于集成到现有讽刺检测工作流中。
方法论
- 基础提示(PMP): 作者从已有的 Pragmatic Metacognitive Prompt 开始,将讽刺检测框定为一种元认知推理任务——先让模型考虑字面意义,再考虑语用(讽刺)意图。
- 检索感知增强:
- 非参数(网络)检索: 对每条输入句子,轻量级搜索引擎抓取 top‑k 网络片段,这些片段可能包含相关的俚语、文化引用或冷门实体。随后将这些片段拼接到提示中,作为 “背景知识”。
- 自我知识检索: 首先用元提示(“你知道哪些事实可以帮助解释这句话?”)询问 LLM。模型生成的知识随后被反馈到主讽刺检测提示中。
- 提示构成: 最终提示由三部分组成——(a) 原始 PMP 指令,(b) 检索得到的知识块,(c) 目标句子。
- 评估: 在三个公开讽刺语料库上使用 GPT‑3.5‑style LLM 通过 OpenAI API 进行实验。Macro‑F1 为主要指标,反映讽刺与非讽刺两类的平衡表现。
结果与发现
| 数据集 | 基线 PMP (macro‑F1) | +非参数检索 | +自我知识检索 |
|---|---|---|---|
| 印尼 Twitter 讽刺数据集 | 62.3 % | 72.2 % (+9.87 %) | – |
| SemEval‑2018 Task 3 | 78.1 % | – | 81.4 % (+3.29 %) |
| MUStARD | 71.5 % | – | 75.6 % (+4.08 %) |
- 上下文重要性: 当文本包含地区特有的俚语或模型未知的引用时,加入网络来源的背景信息能显著提升性能。
- 自我知识互补性: 即使没有外部检索,提示模型调出自身事实也能带来稳定提升,尤其在英文数据集上因为 LLM 已具备更广的覆盖面。
- 错误分析: 剩余错误大多涉及多轮讽刺或高度模糊的幽默,需要超出单句上下文的更深层话语建模。
实际意义
- 更佳的内容审核工具: 社交媒体平台可集成检索感知的 PMP 流水线,更可靠地标记讽刺或潜在有害内容,降低因字面解释导致的误报。
- 跨文化聊天机器人: 在多语言市场(如印尼)部署的客服机器人可利用网络检索组件保持对本地俚语的最新了解,提升用户体验并避免误解。
- 低资源适配: 该方法依赖即插即用的检索而非大模型微调,开发者可在计算开销极小的情况下为现有 LLM 流水线加装此功能。
- 可解释性: 检索到的片段对开发者可见,提供了讽刺预测背后的透明 “原因”,有助于审计和合规。
局限性与未来工作
- 检索质量依赖: 噪声或不相关的网络片段会削弱性能;当前系统仅使用简单的 BM25 排序器,缺乏高级相关性反馈。
- 延迟开销: 实时应用需在额外的检索 API 调用与响应时间之间权衡。
- 评估范围: 实验仅覆盖三套数据集;仍需在多轮对话和其他语言上进行更广泛的测试。
- 未来方向: 作者计划探索检索文档的神经重排序、自适应提示长度控制,以及与多模态线索(如表情符号、图像)的融合,以捕捉跨文本与视觉的讽刺。
作者
- Michael Iskandardinata
- William Christian
- Derwin Suhartono
论文信息
- arXiv ID: 2511.21066v1
- 分类: cs.CL, cs.AI
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF