[Paper] 将人类在概念生成中的语义导航表征为Embedding Space中的轨迹

发布: (2026年2月6日 GMT+8 02:23)
9 分钟阅读
原文: arXiv

Source: arXiv - 2602.05971v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文提出了一种新颖的视角来审视人们生成概念的方式——比如给动物命名、列举属性,或进行口头流畅性测试——通过将他们说出的每个词视为在高维嵌入空间中的一步(与现代 transformer 模型如 BERT 或 RoBERTa 使用的空间相同)。将一系列口语词汇转化为 语义轨迹 后,作者能够测量“运动”(距离、速度、方向),并比较这些动态在不同语言、任务乃至临床人群之间的差异。

关键贡献

  • 基于轨迹的框架:引入累计词嵌入向量作为连续空间中的点,将任何概念生成任务转化为几何路径。
  • 丰富的度量集合:定义标量和向量度量(例如,下一个词的距离、到质心的距离、熵、速度、加速度),捕捉 说了什么如何说
  • 跨语言、跨任务验证:将该方法应用于四个数据集(英语神经退行性流畅性、英语脏话流畅性、意大利房产列表、德国语房产列表),并展示一致的模式。
  • 临床相关性:证明轨迹度量能够在不需要大量人工标注的情况下区分临床组(例如,神经退行性疾病患者 vs. 健康对照)。
  • 模型无关的鲁棒性:发现不同的基于 Transformer 的嵌入模型(如 BERT、RoBERTa、多语言模型)产生高度相似的轨迹统计,表明该方法并不依赖特定架构。
  • 累计 vs. 非累计嵌入:显示累计嵌入(将每个新词加入运行和)在较长语句中表现最佳,而非累计(单词视图)可能更适用于非常短的序列。

方法论

  1. 数据收集 – 参与者执行概念生成任务(例如,“列出尽可能多的动物”)。口头或键入的回答被分词成按时间顺序排列的单词列表。
  2. 嵌入提取 – 将每个单词输入预训练的 transformer 文本编码器(BERT、RoBERTa、多语言 BERT 等),获得密集向量(通常为 768 维)。
  3. 累计表示 – 对于第 i 个单词,作者计算从第一个单词到第 i 个单词的嵌入之和(或平均),得到嵌入空间中的一点 pᵢ。完整列表 [p₁, p₂, …, pₙ] 即为 语义轨迹
  4. 度量计算 – 从轨迹中导出:
    • Δ‑distance:相邻点之间的欧氏距离(意义跳跃的幅度)。
    • Centroid distance:每个点到轨迹整体均值的距离(当前概念的“中心性”)。
    • Entropy:距离分布的 Shannon 熵,反映变异性。
    • Velocity & acceleration:轨迹的一阶和二阶时间导数(变化率及其变化)。
  5. 统计分析 – 将度量在不同组别(如患者 vs. 对照)和不同语言之间进行比较,使用标准检验(t‑tests、ANOVAs)和效应量计算。
  6. 基线比较 – 评估非累计版本(每一点 = 单个单词的嵌入),以了解上下文累计的贡献。

结果与发现

  • 群体歧视 – 在神经退行性流畅性数据集中,患者的平均速度显著降低且质心距离增大,表明与健康参与者相比,其语义跳跃更慢且更分散。
  • 跨语言一致性 – 意大利语和德语的属性列举任务产生了相似的度量模式,证实轨迹方法能够推广到英语之外的语言。
  • 嵌入模型等价性 – 无论使用 BERT‑base、RoBERTa‑large 还是 multilingual BERT,得到的轨迹统计在统计上没有显著差异,强调该方法利用了这些模型学习的共享语义几何。
  • 累计优势 – 对于长度超过约 10 个词的序列,累计嵌入产生了更高的分类准确率(≈ 78 % 对比 65 % 的非累计方式),因为累积的上下文使轨迹更为稳定。对于非常短的列表(< 5 个词),非累计方法略有优势。
  • 熵作为诊断线索 – 更高的熵与健康说话者的词汇多样性更大相关,而更低的熵则是受限或受损输出的标志(例如在脏话流畅性任务中,参与者很快耗尽了有限的词汇池)。

Practical Implications

  • Rapid clinical screening – 开发数字健康工具的人员可以将此轨迹分析嵌入语音或文本应用中,以在无需语言学专家标注回复的情况下标记认知衰退的早期迹象。
  • Multilingual AI diagnostics – 由于该方法适用于多语言 transformer 模型,同一流水线可以在各国部署,实现一致的跨文化评估。
  • Human‑AI interaction research – 理解“语义导航速度”可以为自适应聊天机器人提供依据,使其根据用户当前的轨迹调整响应复杂度(例如,当用户的速度下降时放慢节奏)。
  • Benchmarking artificial cognition – 研究人员可以将语言模型(如 GPT‑4 生成列表)的轨迹与人类轨迹进行比较,以量化模型的语义搜索有多“类人”。
  • Feature engineering for downstream ML – 轨迹度量(速度、熵等)可作为紧凑、可解释的特征,用于神经心理学、心理语言学或甚至用户行为分析中的分类模型。

Source:

限制与未来工作

  • 稀有语言的数据稀疏性 – 本研究仅覆盖英语、意大利语和德语;扩展到低资源语言可能需要更大的多语言模型或微调。
  • 线性累加的假设 – 将嵌入相加视为每个词对语义上下文的贡献相等;采用其他组合方案(例如注意力加权累加)可能更好地捕捉细微差别。
  • 时间粒度 – 当前方法仅使用词序;加入实际语音时序信息(停顿、发音速率)可以丰富速度/加速度度量。
  • 临床验证 – 虽具潜力,但该方法需要在更大、更具多样性的患者群体中进行前瞻性验证,方可在医疗环境中部署。
  • 面向临床医生的可解释性 – 将抽象的几何度量转化为可操作的临床洞见,需要用户友好的可视化以及领域特定的阈值。

要点:通过将简单的词列表转化为在 transformer 派生的语义空间中的可导航路径,这项工作为开发者提供了一个即插即用、语言无关的工具包,用于量化人们的思考、言语——以及关键的,当认知受损时这些过程如何变化。

作者

  • Felipe D. Toro-Hernández
  • Jesuino Vieira Filho
  • Rodrigo M. Cabral-Carvalho

论文信息

  • arXiv ID: 2602.05971v1
  • 分类: cs.CL, cs.LG, q-bio.NC
  • 出版日期: 2026年2月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »