[Paper] 从 sunblock 到 softblock:分析已发表写作和社交媒体中 neology 的相关因素

发布: (2026年2月14日 GMT+8 01:19)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.13123v1

概览

该论文 “From sunblock to softblock: Analyzing the correlates of neology in published writing and on social media” 探讨了为何新的英文词汇(新词)会出现在不同的文本场域——传统印刷媒体与 Twitter。通过扩展先前依赖静态词向量的研究,作者引入了上下文词向量,并比较了在这两种截然不同的传播渠道中推动词汇创造的力量。

关键贡献

  • 跨域分析:首次系统比较已发表写作(报纸、书籍)和社交媒体(Twitter)中新词驱动因素。
  • 上下文嵌入方法论:提出一个利用现代上下文模型(例如 BERT‑style 嵌入)以及经典静态向量来检测和表征新词的流程。
  • 对先前发现的复现:确认先前识别的两个因素——语义新颖性话题流行度增长——在两个领域中都与新词形成相关。
  • 领域特定细微差别:显示话题流行度增长在 Twitter 上的预测力较弱,暗示形成机制不同(例如,基于 meme 的造词 vs. 编辑创新)。
  • 开源资源:发布精心整理的 Twitter 新词数据集和可复现的基于嵌入的分析代码。

方法论

  1. 数据收集

    • 已发表的写作:一个跨越数十年的历史语料库,涵盖报纸、杂志和图书(与 Ryskina et al., 2020 使用的来源相同)。
    • Twitter:大规模公开推文转储(≈ 2 亿条),过滤为英文并带时间戳,以实现纵向追踪。
  2. 新词识别

    • 构建候选列表,其中的词在基线词典(如 WordNet)中在某一年之前不存在,而在之后出现。
    • 应用频率阈值并进行人工抽查,以剔除噪声(拼写错误、标签、用户名)。
  3. 嵌入提取

    • 静态嵌入:在每个语料切片(按年)上训练 word2vec。
    • 上下文嵌入:在相同切片上微调 BERT‑base 模型,并为每个候选词在其上下文中提取 token 级别表示。
  4. 特征工程

    • 语义新颖性:衡量候选词嵌入与前一年最近语义邻居中心的余弦距离。
    • 主题流行度增长:追踪最相关主题(通过 LDA)随时间的上升趋势;计算词首次出现前主题频率的斜率。
  5. 统计分析

    • 使用逻辑回归模型预测候选词是否成为“稳定”新词(存活 ≥ 2 年),特征为上述两项。
    • 在两个领域之间比较系数,以评估相对重要性。

Results & Findings

DomainSemantic Novelty (β)Topic Popularity Growth (β)Overall predictive power (AUC)
Published writing+0.42 (p < 0.001)+0.31 (p < 0.01)0.78
Twitter+0.38 (p < 0.001)+0.12 (p = 0.08)0.71
  • Semantic novelty 是两种环境中都非常强且一致的驱动因素:与现有词汇语义距离较大的词更容易被接受。
  • Topic popularity growth 对印刷媒体(编辑周期与新兴公共议题相吻合)有重要影响,但在 Twitter 上仅表现为边际作用,因为快速的 meme 循环和用户生成的幽默占主导。
  • 上下文嵌入能够提升对细微新词(例如 “softblock”)的检测,而静态向量往往会漏检,尤其是在使用情境高度多变的 Twitter 上。

实际意义

  • NLP 产品路线图:需要最新词汇的语言模型(例如聊天机器人、内容审核工具)可以优先监测 语义新颖性 信号,而不是仅仅关注流行话题,尤其是对于快速变化的平台。
  • 词典编纂与品牌监测:公司可以通过追踪上下文新颖度得分更早地标记新出现的品牌相关词汇,从而实现主动的商标检查或营销活动。
  • 社交媒体分析:用于发现新兴俚语或行话的工具可以将语义距离的权重设得高于原始标签(hashtag)量,减少因短暂 meme 引起的误报。
  • 课程与语言学习应用:了解正式写作中新词往往与上升话题相吻合,可帮助教育者策划阅读列表,使学习者接触到最“有用”的新词。

限制与未来工作

  • 词典偏差:基线词典可能已经包含非正式或特定领域的术语,这可能低估了 Twitter 等平台上的新词率。
  • 时间粒度:年度切片会平滑 Twitter 活动的快速爆发;更细的粒度(例如每周)可能揭示额外的动态。
  • 语言范围:本研究仅聚焦英文;跨语言复制可以检验观察到的模式是否在类型学上多样的语言中成立。
  • 因果推断:相关性并不等同因果关系;未来工作可以通过受控干预(例如种子话题)来检验假设的形成机制。

结论:通过将现代上下文嵌入与经典语言学理论相结合,本研究表明,新词创造背后的“为什么”在印刷媒体和社交媒体之间出奇地一致——而“如何”则呈现差异,为任何构建语言感知技术的人提供了可操作的洞见。

作者

  • Maria Ryskina
  • Matthew R. Gormley
  • Kyle Mahowald
  • David R. Mortensen
  • Taylor Berg‑Kirkpatrick
  • Vivek Kulkarni

论文信息

  • arXiv ID: 2602.13123v1
  • 分类: cs.CL
  • 出版日期: 2026年2月13日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »