[论文] 上下文感知语用元认知提示用于讽刺检测

发布: 2个月前 (2025年11月26日 GMT+8 13:19)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21066v1

概览

即使使用强大的预训练语言模型（PLM）和大语言模型（LLM），文本讽刺检测仍然是 NLP 系统面临的难题。本文基于最近的提示技术 Pragmatic Metacognitive Prompting (PMP)，展示了加入 上下文知识——包括来自网络的外部信息和模型自身内部记忆——如何显著提升多个基准数据集上的讽刺检测性能。

关键贡献

上下文感知提示： 引入一种检索感知的 PMP 扩展，当模型缺乏必要的文化或领域知识时提供外部背景信息。
自我知识感知： 提出一种 “自我知识” 策略，要求 LLM 调出它已经掌握的相关事实，从而降低对外部检索的依赖。
实证提升： 在印尼 Twitter 讽刺数据集上实现最高 +9.87 % macro‑F1 的提升，并在英文基准（SemEval‑2018 Task 3、MUStARD）上实现约 3–4 % 的一致性提升。
开源流水线： 发布代码和数据处理脚本，保证可复现性并便于集成到现有讽刺检测工作流中。

方法论

基础提示（PMP）： 作者从已有的 Pragmatic Metacognitive Prompt 开始，将讽刺检测框定为一种元认知推理任务——先让模型考虑字面意义，再考虑语用（讽刺）意图。
检索感知增强：
- 非参数（网络）检索： 对每条输入句子，轻量级搜索引擎抓取 top‑k 网络片段，这些片段可能包含相关的俚语、文化引用或冷门实体。随后将这些片段拼接到提示中，作为 “背景知识”。
- 自我知识检索： 首先用元提示（“你知道哪些事实可以帮助解释这句话？”）询问 LLM。模型生成的知识随后被反馈到主讽刺检测提示中。
提示构成： 最终提示由三部分组成——(a) 原始 PMP 指令，(b) 检索得到的知识块，(c) 目标句子。
评估： 在三个公开讽刺语料库上使用 GPT‑3.5‑style LLM 通过 OpenAI API 进行实验。Macro‑F1 为主要指标，反映讽刺与非讽刺两类的平衡表现。

结果与发现

数据集	基线 PMP (macro‑F1)	+非参数检索	+自我知识检索
印尼 Twitter 讽刺数据集	62.3 %	72.2 % (+9.87 %)	–
SemEval‑2018 Task 3	78.1 %	–	81.4 % (+3.29 %)
MUStARD	71.5 %	–	75.6 % (+4.08 %)

上下文重要性： 当文本包含地区特有的俚语或模型未知的引用时，加入网络来源的背景信息能显著提升性能。
自我知识互补性： 即使没有外部检索，提示模型调出自身事实也能带来稳定提升，尤其在英文数据集上因为 LLM 已具备更广的覆盖面。
错误分析： 剩余错误大多涉及多轮讽刺或高度模糊的幽默，需要超出单句上下文的更深层话语建模。

实际意义

更佳的内容审核工具： 社交媒体平台可集成检索感知的 PMP 流水线，更可靠地标记讽刺或潜在有害内容，降低因字面解释导致的误报。
跨文化聊天机器人： 在多语言市场（如印尼）部署的客服机器人可利用网络检索组件保持对本地俚语的最新了解，提升用户体验并避免误解。
低资源适配： 该方法依赖即插即用的检索而非大模型微调，开发者可在计算开销极小的情况下为现有 LLM 流水线加装此功能。
可解释性： 检索到的片段对开发者可见，提供了讽刺预测背后的透明 “原因”，有助于审计和合规。

局限性与未来工作

检索质量依赖： 噪声或不相关的网络片段会削弱性能；当前系统仅使用简单的 BM25 排序器，缺乏高级相关性反馈。
延迟开销： 实时应用需在额外的检索 API 调用与响应时间之间权衡。
评估范围： 实验仅覆盖三套数据集；仍需在多轮对话和其他语言上进行更广泛的测试。
未来方向： 作者计划探索检索文档的神经重排序、自适应提示长度控制，以及与多模态线索（如表情符号、图像）的融合，以捕捉跨文本与视觉的讽刺。

作者

Michael Iskandardinata
William Christian
Derwin Suhartono

论文信息

arXiv ID: 2511.21066v1
分类: cs.CL, cs.AI
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

相关文章

阅读更多 »

我们只为格式化 JSON 文件而启动行星大小的大脑

概述：我们正在启动行星级规模的大脑，仅仅是为了格式化一个 JSON 文件。这就是“上帝模型谬误”的简要说明。我们正处于“恐怖谷”中：90 % 的...

阿谀奉承是第一个 LLM ‘暗黑模式’

请提供您希望翻译的摘录或摘要文本，我将为您翻译成简体中文。

20 年时尚经验，30 天 AI 之旅：我如何使用 ChatGPT 预测 2026 年趋势

开发者意外踏入Fashion AI的旅程 30 天实验改变了一切问题 = “2026 年时尚会流行什么？” 第 2 周：T...

Agent Prompting的艺术：Anthropic AI团队的经验教训

大多数“prompt engineering”建议是为单轮聊天机器人编写的——而不是为在循环中使用工具、记忆和副作用的代理（agents）编写的。Anthropic的Appli...