[Paper] 将人类在概念生成中的语义导航表征为Embedding Space中的轨迹
发布: (2026年2月6日 GMT+8 02:23)
9 分钟阅读
原文: arXiv
Source: arXiv - 2602.05971v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概述
本文提出了一种新颖的视角来审视人们生成概念的方式——比如给动物命名、列举属性,或进行口头流畅性测试——通过将他们说出的每个词视为在高维嵌入空间中的一步(与现代 transformer 模型如 BERT 或 RoBERTa 使用的空间相同)。将一系列口语词汇转化为 语义轨迹 后,作者能够测量“运动”(距离、速度、方向),并比较这些动态在不同语言、任务乃至临床人群之间的差异。
关键贡献
- 基于轨迹的框架:引入累计词嵌入向量作为连续空间中的点,将任何概念生成任务转化为几何路径。
- 丰富的度量集合:定义标量和向量度量(例如,下一个词的距离、到质心的距离、熵、速度、加速度),捕捉 说了什么 与 如何说。
- 跨语言、跨任务验证:将该方法应用于四个数据集(英语神经退行性流畅性、英语脏话流畅性、意大利房产列表、德国语房产列表),并展示一致的模式。
- 临床相关性:证明轨迹度量能够在不需要大量人工标注的情况下区分临床组(例如,神经退行性疾病患者 vs. 健康对照)。
- 模型无关的鲁棒性:发现不同的基于 Transformer 的嵌入模型(如 BERT、RoBERTa、多语言模型)产生高度相似的轨迹统计,表明该方法并不依赖特定架构。
- 累计 vs. 非累计嵌入:显示累计嵌入(将每个新词加入运行和)在较长语句中表现最佳,而非累计(单词视图)可能更适用于非常短的序列。
方法论
- 数据收集 – 参与者执行概念生成任务(例如,“列出尽可能多的动物”)。口头或键入的回答被分词成按时间顺序排列的单词列表。
- 嵌入提取 – 将每个单词输入预训练的 transformer 文本编码器(BERT、RoBERTa、多语言 BERT 等),获得密集向量(通常为 768 维)。
- 累计表示 – 对于第 i 个单词,作者计算从第一个单词到第 i 个单词的嵌入之和(或平均),得到嵌入空间中的一点 pᵢ。完整列表 [p₁, p₂, …, pₙ] 即为 语义轨迹。
- 度量计算 – 从轨迹中导出:
- Δ‑distance:相邻点之间的欧氏距离(意义跳跃的幅度)。
- Centroid distance:每个点到轨迹整体均值的距离(当前概念的“中心性”)。
- Entropy:距离分布的 Shannon 熵,反映变异性。
- Velocity & acceleration:轨迹的一阶和二阶时间导数(变化率及其变化)。
- 统计分析 – 将度量在不同组别(如患者 vs. 对照)和不同语言之间进行比较,使用标准检验(t‑tests、ANOVAs)和效应量计算。
- 基线比较 – 评估非累计版本(每一点 = 单个单词的嵌入),以了解上下文累计的贡献。
结果与发现
- 群体歧视 – 在神经退行性流畅性数据集中,患者的平均速度显著降低且质心距离增大,表明与健康参与者相比,其语义跳跃更慢且更分散。
- 跨语言一致性 – 意大利语和德语的属性列举任务产生了相似的度量模式,证实轨迹方法能够推广到英语之外的语言。
- 嵌入模型等价性 – 无论使用 BERT‑base、RoBERTa‑large 还是 multilingual BERT,得到的轨迹统计在统计上没有显著差异,强调该方法利用了这些模型学习的共享语义几何。
- 累计优势 – 对于长度超过约 10 个词的序列,累计嵌入产生了更高的分类准确率(≈ 78 % 对比 65 % 的非累计方式),因为累积的上下文使轨迹更为稳定。对于非常短的列表(< 5 个词),非累计方法略有优势。
- 熵作为诊断线索 – 更高的熵与健康说话者的词汇多样性更大相关,而更低的熵则是受限或受损输出的标志(例如在脏话流畅性任务中,参与者很快耗尽了有限的词汇池)。
Practical Implications
- Rapid clinical screening – 开发数字健康工具的人员可以将此轨迹分析嵌入语音或文本应用中,以在无需语言学专家标注回复的情况下标记认知衰退的早期迹象。
- Multilingual AI diagnostics – 由于该方法适用于多语言 transformer 模型,同一流水线可以在各国部署,实现一致的跨文化评估。
- Human‑AI interaction research – 理解“语义导航速度”可以为自适应聊天机器人提供依据,使其根据用户当前的轨迹调整响应复杂度(例如,当用户的速度下降时放慢节奏)。
- Benchmarking artificial cognition – 研究人员可以将语言模型(如 GPT‑4 生成列表)的轨迹与人类轨迹进行比较,以量化模型的语义搜索有多“类人”。
- Feature engineering for downstream ML – 轨迹度量(速度、熵等)可作为紧凑、可解释的特征,用于神经心理学、心理语言学或甚至用户行为分析中的分类模型。
Source: …
限制与未来工作
- 稀有语言的数据稀疏性 – 本研究仅覆盖英语、意大利语和德语;扩展到低资源语言可能需要更大的多语言模型或微调。
- 线性累加的假设 – 将嵌入相加视为每个词对语义上下文的贡献相等;采用其他组合方案(例如注意力加权累加)可能更好地捕捉细微差别。
- 时间粒度 – 当前方法仅使用词序;加入实际语音时序信息(停顿、发音速率)可以丰富速度/加速度度量。
- 临床验证 – 虽具潜力,但该方法需要在更大、更具多样性的患者群体中进行前瞻性验证,方可在医疗环境中部署。
- 面向临床医生的可解释性 – 将抽象的几何度量转化为可操作的临床洞见,需要用户友好的可视化以及领域特定的阈值。
要点:通过将简单的词列表转化为在 transformer 派生的语义空间中的可导航路径,这项工作为开发者提供了一个即插即用、语言无关的工具包,用于量化人们的思考、言语——以及关键的,当认知受损时这些过程如何变化。
作者
- Felipe D. Toro-Hernández
- Jesuino Vieira Filho
- Rodrigo M. Cabral-Carvalho
论文信息
- arXiv ID: 2602.05971v1
- 分类: cs.CL, cs.LG, q-bio.NC
- 出版日期: 2026年2月5日
- PDF: 下载 PDF