[Paper] SwanNLP 在 SemEval-2026 Task 5：基于LLM的叙事词义消歧合理性评分框架

发布: 3周前 (2026年4月18日 GMT+8 01:18)

6 分钟阅读

原文: arXiv

Source: arXiv - 2604.16262v1

概述

本文介绍了 SwanNLP，一个利用大型语言模型（LLMs）对短篇叙事中某个词义的合理性进行评分的框架。通过完成 SemEval‑2026 Task 5——叙事词义消歧的合理性评分，作者展示了现代 LLM 能够模拟人类对模糊词在故事情境中“适配”程度的判断。

Task formulation – 每个实例包括一个短篇故事、一个目标同形词以及两个候选义项。系统必须输出一个 plausibility score（0–1），反映人类选择每个义项的可能性。
Model families
- Fine‑tuned low‑parameter LLMs（≈ 300 M–1 B 参数）在一套精心挑选的义项消歧示例上进行微调，使用显式推理提示。
- Dynamic few‑shot prompting 的大型商业 LLM（≈ 10 B–175 B 参数），提示在运行时根据最相似的训练示例动态构建。
Structured reasoning – 两种方法都在前面加入一个“reasoning template”，强制模型 (a) 重述故事，(b) 列出可能的义项，(c) 对比上下文线索，(d) 输出置信分数。此 chain‑of‑thought 风格提升可解释性和一致性。
Ensembling – 来自三个多样化模型（一个微调模型，两个 few‑shot 模型）的预测取平均，并通过一个简单的校准步骤，使集成输出与人工标注者分数的分布对齐。

具备叙事感知的应用 – 聊天机器人、互动小说引擎以及 AI 辅助写作工具可以使用可信度评分器来挑选保持故事连贯且自然的词义。
内容审核与偏见检测 – 通过标记不可信的词义使用，平台能够发现用户生成叙事中的尴尬或潜在误导性语言。
低资源适配 – 微调流水线表明，即使是中等规模模型也能在设备端（例如移动写作助理）部署并保持可接受的性能，而少样本方法则为基于云的服务提供即插即用的 API。
可解释人工智能 – 思路链输出提供了人类可读的推理过程，便于调试或在需要模型决策解释的合规场景中使用（例如解释词汇选择建议的教育软件）。

领域覆盖 – 训练和评估数据侧重于短篇文学摘录；在技术散文、对话或多语言叙事上的表现尚未测试。
提示工程开销 – 动态少样本提示需要检索系统来获取相关示例，这会为实时服务增加延迟。
人工一致性上限 – 即使是最好的模型也无法超越标注者之间固有的变异性；未来的工作可以探索对单个标注者画像进行建模，或引入外部知识库（例如 WordNet）以缩小可信度差距。

底线：SwanNLP 表明，只要使用恰当的提示和推理框架，当前的 LLM 能够可靠地评估词义在故事中的“自然”程度——为开发者和内容创作者提供更智能、上下文感知的语言工具打开了大门。