[Paper] SwanNLP在SemEval-2026任务5:基于LLM的叙事词义消歧合理性评分框架

发布: (2026年4月18日 GMT+8 01:18)
6 分钟阅读
原文: arXiv

Source: arXiv - 2604.16262v1

概述

本文提出了 SwanNLP,一个利用大型语言模型(LLMs)对短篇叙事中某个特定词义的合理性进行评分的框架。通过解决 SemEval‑2026 Task 5——叙事词义消歧的合理性评分,作者展示了现代 LLM 可以模仿人类对歧义词在故事情境中“适配”哪种意义的判断。

关键贡献

  • 基于LLM的可信度评分器,将结构化推理与微调小模型或大型商业模型的动态少样本提示相结合。
  • 实证比较低参数微调模型与高参数少样本提示,发现后者最接近人类可信度评分。
  • 集成策略聚合多个LLM的预测,适度提升与五位人工标注者共识的一致性。
  • 全面分析推理策略(例如链式思考、对比提示)及其对感知识别准确性的影响。

方法论

  1. 任务制定 – 每个实例包括一个短篇故事、一个目标同形词以及两个候选义项。系统必须输出一个 合理性分数(0–1),反映人类选择每个义项的可能性。
  2. 模型族
    • 微调低参数 LLM(≈ 300 M–1 B 参数)在经过策划的义项消歧示例上进行训练,使用显式推理提示。
    • 动态少样本提示的大型商业 LLM(≈ 10 B–175 B 参数),提示在运行时从最相似的训练示例中构建。
  3. 结构化推理 – 两种方法都在前置一个“推理模板”,强制模型 (a) 重述故事,(b) 列出可能的义项,(c) 对比上下文线索,(d) 输出置信分数。此链式思考方式提升可解释性和一致性。
  4. 集成 – 来自三种不同模型的预测(一个微调模型,两个少样本模型)取平均,并通过简单的校准步骤使集成输出与人工标注分数的分布对齐。

结果与发现

模型类型Plausibility‑F1(平均)Sense‑Acc(top‑1)
微调小型 LLM0.710.84
大型 LLM + 动态 few‑shot0.780.89
集成(3 个模型)0.800.91
  • 使用动态 few‑shot 提示的大型 LLM 在与人类可行性判断的相关性方面最高,超过微调小型模型约 7 % 的 F1。
  • 集成 带来小幅但持续的提升,尤其在人工标注者意见不一致的情况下,表明集成更好地捕捉了“多数意见”。
  • 结构化推理提示降低了运行间的方差,使模型的决策过程更为透明。

实际意义

  • 叙事感知应用 – 聊天机器人、互动小说引擎以及 AI 辅助写作工具可以使用可信度评分器来选择词义,从而保持故事的连贯性和自然流畅感。
  • 内容审核与偏见检测 – 通过标记不可信的词义使用,平台可以发现用户生成叙事中的尴尬或潜在误导性语言。
  • 低资源适配 – 微调流水线表明,即使是中等规模的模型也能在设备端部署(例如移动写作助手),并保持可接受的性能;而少样本方法则为基于云的服务提供即插即用的 API。
  • 可解释人工智能 – 思路链输出提供了人类可读的推理依据,可用于调试或在需要模型决策解释的合规场景(例如解释词语选择建议的教育软件)。

局限性与未来工作

  • 领域覆盖 – 训练和评估数据侧重于短篇文学摘录;在技术性散文、对话或多语言叙事上的表现尚未测试。
  • 提示工程开销 – 动态少样本提示需要检索系统来获取相关示例,这会为实时服务增加延迟。
  • 人工一致性上限 – 即使是最好的模型也无法超越标注者之间固有的变异性;未来的工作可以探索对单个标注者画像进行建模,或引入外部知识库(例如 WordNet)以缩小可信度差距。

底线:SwanNLP 表明,通过恰当的提示和推理框架,当前的 LLM 能够可靠地评估词义在故事中的“自然”程度——为开发者和内容创作者提供更智能、上下文感知的语言工具打开了大门。

作者

  • Deshan Sumanathilaka
  • Nicholas Micallef
  • Julian Hough
  • Saman Jayasinghe

论文信息

  • arXiv ID: 2604.16262v1
  • 分类: cs.CL
  • 出版日期: April 17, 2026
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »