[Paper] SwanNLP 在 SemEval-2026 Task 5:基于LLM的叙事词义消歧合理性评分框架
发布: (2026年4月18日 GMT+8 01:18)
6 分钟阅读
原文: arXiv
Source: arXiv - 2604.16262v1
概述
本文介绍了 SwanNLP,一个利用大型语言模型(LLMs)对短篇叙事中某个词义的合理性进行评分的框架。通过完成 SemEval‑2026 Task 5——叙事词义消歧的合理性评分,作者展示了现代 LLM 能够模拟人类对模糊词在故事情境中“适配”程度的判断。
关键贡献
- 基于LLM的可信度评分器,将结构化推理与微调小模型或大型商业模型的动态 few‑shot 提示相结合。
- 实证比较低参数微调模型 vs. 高参数 few‑shot 提示,揭示后者最接近人类可信度评分。
- 集成策略聚合多个 LLM 的预测,适度提升与五位人工标注者共识的一致性。
- 全面分析推理策略(例如 chain‑of‑thought、contrastive prompting)及其对感知识别准确性的影响。
方法论
- Task formulation – 每个实例包括一个短篇故事、一个目标同形词以及两个候选义项。系统必须输出一个 plausibility score(0–1),反映人类选择每个义项的可能性。
- Model families
- Fine‑tuned low‑parameter LLMs(≈ 300 M–1 B 参数)在一套精心挑选的义项消歧示例上进行微调,使用显式推理提示。
- Dynamic few‑shot prompting 的大型商业 LLM(≈ 10 B–175 B 参数),提示在运行时根据最相似的训练示例动态构建。
- Structured reasoning – 两种方法都在前面加入一个“reasoning template”,强制模型 (a) 重述故事,(b) 列出可能的义项,(c) 对比上下文线索,(d) 输出置信分数。此 chain‑of‑thought 风格提升可解释性和一致性。
- Ensembling – 来自三个多样化模型(一个微调模型,两个 few‑shot 模型)的预测取平均,并通过一个简单的校准步骤,使集成输出与人工标注者分数的分布对齐。
Results & Findings
| 模型类型 | 合理性‑F1(平均) | 感知准确率(top‑1) |
|---|---|---|
| 微调小型语言模型 | 0.71 | 0.84 |
| 大型语言模型 + 动态少样本 | 0.78 | 0.89 |
| 集成(3 个模型) | 0.80 | 0.91 |
- 使用动态少样本提示的大型语言模型在与人类合理性判断的相关性上最高,F1 提升约 7%,超越了微调的小型模型。
- 集成带来小幅但持续的提升,尤其在人工标注者意见不一致的情况下,表明集成更好地捕捉了“多数意见”。
- 结构化推理提示降低了不同运行之间的方差,使模型的决策过程更透明。
实际意义
- 具备叙事感知的应用 – 聊天机器人、互动小说引擎以及 AI 辅助写作工具可以使用可信度评分器来挑选保持故事连贯且自然的词义。
- 内容审核与偏见检测 – 通过标记不可信的词义使用,平台能够发现用户生成叙事中的尴尬或潜在误导性语言。
- 低资源适配 – 微调流水线表明,即使是中等规模模型也能在设备端(例如移动写作助理)部署并保持可接受的性能,而少样本方法则为基于云的服务提供即插即用的 API。
- 可解释人工智能 – 思路链输出提供了人类可读的推理过程,便于调试或在需要模型决策解释的合规场景中使用(例如解释词汇选择建议的教育软件)。
限制与未来工作
- 领域覆盖 – 训练和评估数据侧重于短篇文学摘录;在技术散文、对话或多语言叙事上的表现尚未测试。
- 提示工程开销 – 动态少样本提示需要检索系统来获取相关示例,这会为实时服务增加延迟。
- 人工一致性上限 – 即使是最好的模型也无法超越标注者之间固有的变异性;未来的工作可以探索对单个标注者画像进行建模,或引入外部知识库(例如 WordNet)以缩小可信度差距。
底线:SwanNLP 表明,只要使用恰当的提示和推理框架,当前的 LLM 能够可靠地评估词义在故事中的“自然”程度——为开发者和内容创作者提供更智能、上下文感知的语言工具打开了大门。
作者
- Deshan Sumanathilaka
- Nicholas Micallef
- Julian Hough
- Saman Jayasinge
论文信息
- arXiv ID: 2604.16262v1
- 分类: cs.CL
- 出版时间: 2026年4月17日
- PDF: Download PDF