[Paper] 将人类在概念生成中的语义导航表征为Embedding Space中的轨迹

发布: 3天前 (2026年2月6日 GMT+8 02:23)

9 分钟阅读

原文: arXiv

Source: arXiv - 2602.05971v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

本文提出了一种新颖的视角来审视人们生成概念的方式——比如给动物命名、列举属性，或进行口头流畅性测试——通过将他们说出的每个词视为在高维嵌入空间中的一步（与现代 transformer 模型如 BERT 或 RoBERTa 使用的空间相同）。将一系列口语词汇转化为 语义轨迹 后，作者能够测量“运动”（距离、速度、方向），并比较这些动态在不同语言、任务乃至临床人群之间的差异。

关键贡献

基于轨迹的框架：引入累计词嵌入向量作为连续空间中的点，将任何概念生成任务转化为几何路径。
丰富的度量集合：定义标量和向量度量（例如，下一个词的距离、到质心的距离、熵、速度、加速度），捕捉 说了什么 与 如何说。
跨语言、跨任务验证：将该方法应用于四个数据集（英语神经退行性流畅性、英语脏话流畅性、意大利房产列表、德国语房产列表），并展示一致的模式。
临床相关性：证明轨迹度量能够在不需要大量人工标注的情况下区分临床组（例如，神经退行性疾病患者 vs. 健康对照）。
模型无关的鲁棒性：发现不同的基于 Transformer 的嵌入模型（如 BERT、RoBERTa、多语言模型）产生高度相似的轨迹统计，表明该方法并不依赖特定架构。
累计 vs. 非累计嵌入：显示累计嵌入（将每个新词加入运行和）在较长语句中表现最佳，而非累计（单词视图）可能更适用于非常短的序列。

方法论

数据收集 – 参与者执行概念生成任务（例如，“列出尽可能多的动物”）。口头或键入的回答被分词成按时间顺序排列的单词列表。
嵌入提取 – 将每个单词输入预训练的 transformer 文本编码器（BERT、RoBERTa、多语言 BERT 等），获得密集向量（通常为 768 维）。
累计表示 – 对于第 i 个单词，作者计算从第一个单词到第 i 个单词的嵌入之和（或平均），得到嵌入空间中的一点 pᵢ。完整列表 [p₁, p₂, …, pₙ] 即为 语义轨迹。
度量计算 – 从轨迹中导出：
- Δ‑distance：相邻点之间的欧氏距离（意义跳跃的幅度）。
- Centroid distance：每个点到轨迹整体均值的距离（当前概念的“中心性”）。
- Entropy：距离分布的 Shannon 熵，反映变异性。
- Velocity & acceleration：轨迹的一阶和二阶时间导数（变化率及其变化）。
统计分析 – 将度量在不同组别（如患者 vs. 对照）和不同语言之间进行比较，使用标准检验（t‑tests、ANOVAs）和效应量计算。
基线比较 – 评估非累计版本（每一点 = 单个单词的嵌入），以了解上下文累计的贡献。

结果与发现

群体歧视 – 在神经退行性流畅性数据集中，患者的平均速度显著降低且质心距离增大，表明与健康参与者相比，其语义跳跃更慢且更分散。
跨语言一致性 – 意大利语和德语的属性列举任务产生了相似的度量模式，证实轨迹方法能够推广到英语之外的语言。
嵌入模型等价性 – 无论使用 BERT‑base、RoBERTa‑large 还是 multilingual BERT，得到的轨迹统计在统计上没有显著差异，强调该方法利用了这些模型学习的共享语义几何。
累计优势 – 对于长度超过约 10 个词的序列，累计嵌入产生了更高的分类准确率（≈ 78 % 对比 65 % 的非累计方式），因为累积的上下文使轨迹更为稳定。对于非常短的列表（< 5 个词），非累计方法略有优势。
熵作为诊断线索 – 更高的熵与健康说话者的词汇多样性更大相关，而更低的熵则是受限或受损输出的标志（例如在脏话流畅性任务中，参与者很快耗尽了有限的词汇池）。

Practical Implications

Rapid clinical screening – 开发数字健康工具的人员可以将此轨迹分析嵌入语音或文本应用中，以在无需语言学专家标注回复的情况下标记认知衰退的早期迹象。
Multilingual AI diagnostics – 由于该方法适用于多语言 transformer 模型，同一流水线可以在各国部署，实现一致的跨文化评估。
Human‑AI interaction research – 理解“语义导航速度”可以为自适应聊天机器人提供依据，使其根据用户当前的轨迹调整响应复杂度（例如，当用户的速度下降时放慢节奏）。
Benchmarking artificial cognition – 研究人员可以将语言模型（如 GPT‑4 生成列表）的轨迹与人类轨迹进行比较，以量化模型的语义搜索有多“类人”。
Feature engineering for downstream ML – 轨迹度量（速度、熵等）可作为紧凑、可解释的特征，用于神经心理学、心理语言学或甚至用户行为分析中的分类模型。

Source: …

限制与未来工作

稀有语言的数据稀疏性 – 本研究仅覆盖英语、意大利语和德语；扩展到低资源语言可能需要更大的多语言模型或微调。
线性累加的假设 – 将嵌入相加视为每个词对语义上下文的贡献相等；采用其他组合方案（例如注意力加权累加）可能更好地捕捉细微差别。
时间粒度 – 当前方法仅使用词序；加入实际语音时序信息（停顿、发音速率）可以丰富速度/加速度度量。
临床验证 – 虽具潜力，但该方法需要在更大、更具多样性的患者群体中进行前瞻性验证，方可在医疗环境中部署。
面向临床医生的可解释性 – 将抽象的几何度量转化为可操作的临床洞见，需要用户友好的可视化以及领域特定的阈值。

要点：通过将简单的词列表转化为在 transformer 派生的语义空间中的可导航路径，这项工作为开发者提供了一个即插即用、语言无关的工具包，用于量化人们的思考、言语——以及关键的，当认知受损时这些过程如何变化。

作者

Felipe D. Toro-Hernández
Jesuino Vieira Filho
Rodrigo M. Cabral-Carvalho

论文信息

arXiv ID: 2602.05971v1
分类: cs.CL, cs.LG, q-bio.NC
出版日期: 2026年2月5日
PDF: 下载 PDF

[Paper] 将人类在概念生成中的语义导航表征为Embedding Space中的轨迹

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习查询感知 Budget-Tier 路由用于 Runtime Agent Memory

[论文] 通过自蒸馏的多标记预测

[Paper] 利用 OpenAI Whisper 表征和注意力池化方法的语音情感识别

[Paper] DARWIN：动态代理式重写自我改进网络