[Paper] 对比学习与Narrative Twins用于建模故事显著性

发布: 1周前 (2026年1月13日 GMT+8 01:48)

7 min read

原文: arXiv

Source: arXiv - 2601.07765v1

概述

本文提出了一种新颖的对比学习框架，教会模型在故事中识别最显著的事件。通过将每个叙事与一个以不同措辞讲述相同情节的“孪生”文本配对，系统学会将情节相关的内容与表层冗余区分开来。作者展示了这些故事嵌入在短文本（ROCStories）和长文本（Wikipedia 剧情）上均优于标准的掩码语言模型基线，并探讨了四种简单操作（删除、移位、扰动、摘要）用于提取显著句子。

关键贡献

Narrative‑Twin Contrastive Objective: 一种训练方案，迫使模型区分故事与其“孪生体”（相同情节、不同表层形式）以及与干扰项（表层特征相似、情节不同）。
Salience‑Inference Operations: 对四种叙事学启发的操作（删除、移位、扰动、摘要）进行形式化和实证评估，以探查模型认定的重要句子。
Empirical Gains: 实验证明，对比学习得到的故事嵌入在两套不同长度和体裁的数据集上，显著优于强大的掩码语言模型基线的显著性检测表现。
Twin‑Generation Strategies: 表明在缺乏精心策划的孪生体时，随机 token dropout 可近似生成孪生体；且有效的干扰项可以来源于 LLM 生成的备选文本或同一故事内部的片段。

方法论

数据准备
- 叙事双胞胎（Narrative Twins）： 对于每个故事，创建一个双胞胎，保持底层情节不变但重新编写语言。在 ROCStories 场景中，双胞胎由人工策划；对于更长的 Wikipedia 情节，则通过提示大型语言模型（LLM）生成。
- 干扰项（Distractors）： 使用两种类型：(a) 表面相似但情节不同的文本（由 LLM 生成）和 (b) 同一长篇叙事的不同章节。
对比学习设置
- 使用 transformer 编码器（例如 RoBERTa）将每个故事映射为固定大小的嵌入向量。
- 损失函数使原始故事的嵌入更接近其双胞胎，同时远离干扰项，采用标准的 InfoNCE 公式。
显著性探测操作
- 删除（Deletion）： 删除一个句子，测量与原始嵌入相似度的下降。
- 移动（Shifting）： 将句子移动到不同位置，观察嵌入的变化。
- 扰乱（Disruption）： 用随机句子替换原句，计算其影响。
- 摘要（Summarization）： 用自动生成的摘要替换整个故事，并比较嵌入。
- 产生最大嵌入位移的操作被视为该句子具有显著性的指示。
评估
- 将人工标注的显著句子作为金标准。
- 将模型预测与这些标注进行比较，使用精确率、召回率和 F1 分数进行评估。

结果与发现

数据集	基线 (MLM)	对比模型	最佳操作
ROCStories（5 句）	F1 = 0.42	F1 = 0.58	摘要
Wikipedia Plot（≈30 句）	F1 = 0.35	F1 = 0.51	摘要

摘要始终优于其他三种操作，表明模型的嵌入对全局重要内容的删除最为敏感。
随机 dropout 双胞胎仍然比基线有提升，证实并不严格需要完美的双胞胎。
由 LLM 生成的干扰项与人工制作的同样有效，简化了新领域的数据创建。

Practical Implications

自动化故事编辑: 工具可以标记或建议删除低显著性句子，帮助作者紧凑叙事或生成简洁的情节大纲。
内容摘要: 基于嵌入的显著性检测可以输入下游摘要模型，优先考虑情节关键事件，提升媒体、游戏或法律案例摘要的故事感知能力。
叙事驱动的推荐: 平台（例如交互式小说引擎、视频游戏对话系统）可以利用显著性分数向用户展示最有影响力的故事分支。
NLP 数据集创建: 双生成配方（LLM 提示或 dropout）提供了一种低成本的方式，为任何情节对齐重要的体裁（如新闻文章、产品评论）快速构建对比数据集。

限制与未来工作

Twin Quality Dependency: 虽然随机 dropout 有效，但最佳性能仍依赖高质量的 twins；为非常长或复杂的叙事生成真正保持情节的改写仍具挑战性。
Domain Generalization: 实验聚焦于短篇小说和 Wikipedia 情节；尚不清楚该方法在对话密集的剧本、多模态故事或非英语语料库中的扩展性如何。
Interpretability: 对比嵌入是黑箱；未来工作可以探索基于 attention‑based visualizations 的可视化，以使显著性决策对作者更透明。
Integration with Generation Models: 将 salience detector 与可控文本生成相结合（例如，提示 LLMs 生成高显著性续写）是实现更丰富叙事 AI 的开放方向。

作者

Igor Sterner
Alex Lascarides
Frank Keller

论文信息

arXiv ID: 2601.07765v1
分类: cs.CL
出版日期: 2026年1月12日
PDF: 下载 PDF

[Paper] 对比学习与Narrative Twins用于建模故事显著性

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 一根绳子有多长？ 对Tokenizer的简要实证分析

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] 一根绳子有多长？对Tokenizer的简要实证分析