从词语到向量:语义如何从语言学走向大型语言模型
I’m happy to translate the article for you, but I’ll need the full text you’d like translated (the content after the source line). Could you please paste the article’s body here? Once I have it, I’ll provide a Simplified‑Chinese translation while preserving the original formatting, markdown, and any code blocks or URLs.
语义学的语言学根源
现代语义学的起点不是计算机,而是语言本身。19 世纪末至 20 世纪初,语言学家开始摒弃那种天真的观点——词语仅仅“指向”世界上的事物。在这一转变中,最具影响力的人物之一是 费迪南·德·索绪尔,他主张语言是一个结构化的符号系统,而不是单纯的命名方案。
索绪尔提出,每个语言符号由两个不可分割的部分组成:
- 能指 – 声音或书写形式
- 所指 – 所唤起的概念
关键在于,两者之间的关系是 任意的。单词 dog 本身并没有任何固有的“狗的”特性。它的意义产生于它在更广阔的对比系统中的位置:dog 有意义是因为它不是 cat,不是 wolf,也不是 table。
“意义,索绪尔声称,是关系性的。词语的意义来源于它们与其他词语的差异,而不是与现实的直接对应。”
这一洞见悄然为从结构语言学到现代基于向量的表征等所有领域奠定了概念基础。
哲学精确性:弗雷格的意义与指称
当语言学家专注于结构时,哲学家追求精确性。特别是,Gottlob Frege 通过将语义学嵌入形式逻辑中进行改革。弗雷格提出了一个关键的区分:
- Sense – 对观念的呈现方式
- Reference – 实际被指涉的对象
这一区分解释了为何两个表达式可以指向同一事物,却传递不同的信息。“晨星”和“昏星”都指向Venus,但在所有语境中并不能互换使用。因此,意义不能仅仅归结为指称。
更重要的是,弗雷格形式化了compositionality的概念:句子的意义由其组成部分的意义以及组合这些部分的规则决定。这一原则不仅在哲学中奠定了基础,后来也成为编程语言、逻辑系统以及早期人工智能模型的基石。回顾来看,compositionality 正是使意义能够被视为可计算的(至少在理论上)的关键。
符号式人工智能:早期乐观与其局限性
当人工智能在20世纪中叶作为一个领域出现时,它继承了哲学对符号和逻辑的信心。早期系统假设意义可以通过形式结构明确表示:符号、谓词、规则和本体。要“理解”语言,就是按照精心设计的规则对符号进行转换。
有一段时间,这种方法奏效了。专家系统、知识图谱以及一阶逻辑引擎在医学诊断、化学分析和配置问题等 narrowly defined domains(狭窄定义的领域)中取得了令人印象深刻的成果。在精心限定的世界里,符号语义似乎是可处理的。
然而,人类语言很快暴露了这种方法的局限。语言具有歧义、依赖上下文且不断演变。将所有可能的意义和解释全部编码出来,不仅困难,而且根本不可扩展。符号系统脆弱:当面对哪怕稍有偏离其假设的输入时,它们并不是逐渐失效,而是会出现灾难性的崩溃。
事实证明,语义远比逻辑所允许的要混乱得多,也更难以被完整地书写下来。
Distributional semantics: Meaning from usage
当语言学家和计算机科学家开始关注使用模式而不是规则时,一场静悄悄的革命悄然开始。意义可以从词语的使用方式而非定义中推断的观点在20世纪中叶逐渐获得认可。
核心洞见既简单又深刻:出现在相似语境中的词往往具有相似的意义。与其显式编码语义,不如通过分析大规模文本语料库,用统计方法来衡量语义。
这种方法被称为distributional semantics,它把意义重新定义为一种经验性的而非规定性的东西。词语被表示为共现统计的向量。相似度不再是二元的或基于规则的,而是呈现为渐进且近似的。这标志着与符号主义人工智能的决定性决裂,也在精神上回归了索绪尔的关系意义观。
神经词嵌入:意义的几何
分布式思想随着神经词嵌入的引入而显著成熟,尤其是 Word2Vec 等模型。与依赖稀疏频率计数不同,这些模型学习了密集、低维的向量表示,并通过预测语言上下文进行优化。
出现的现象甚至让它们的创造者感到惊讶。语义关系表现为向量空间中的几何规律。向量之间的差异编码了类比、层次结构和语义接近度。意义变成了可以用余弦相似度来衡量的东西。
“这并不是符号理解……”
(摘录至此;原文在此处截断。)
机器学习中的语义演进
作者:Sergey Lunev,VCAL 项目创始人
从静态嵌入到上下文表示
静态嵌入有一个根本性的局限:每个词只有一个向量,不论其出现的上下文如何。
但人类语言 并非 这样运作。词义会随周围词语、说话者意图、情境乃至情感而变化。
基于 Transformer 的模型,尤其是 BERT,通过使表示 具备上下文 来解决这一问题。
模型不再问 “这个词是什么意思?”,而是学习去问 “这个词在 这里 是什么意思?”
通过注意力机制,Transformer 动态地建模 token 之间的关系。
意义不再存储在每个词的单一向量中,而是分布在层与激活之间,随上下文而响应。
这标志着向 语用语义 的关键一步:语言是实际使用的方式,而非抽象定义的方式。
大语言模型中的涌现
像 GPT 这样的 大语言模型并不以传统意义上显式的语义表示存在。
它们被训练来预测序列中的下一个 token,但在大规模下,它们展现出令人惊讶的语义行为:摘要、推理、翻译、抽象等。
核心概念是 涌现。当模型压缩海量语言数据时,它们内部化了关于世界、语言和人类交流的规律。语义并非作为专门的模块出现,而是学习高效表示的副作用。
这些模型并不以哲学意义上的“知道”意义,但它们在一个语法、语义和语用不可分割、关系结构占主导的空间中运作。
为什么这段历史对实践者重要
对于任何构建 语义搜索系统、RAG 流水线 或 LLM 相关基础设施 的人来说,这段历史不仅是学术背景——它解释了为何某些设计始终有效,而其他设计会失败。
- 精确匹配 会失效,因为自然语言很少逐字重复。
- 嵌入 能成功并非因为它们多么聪明,而是因为它们映射了意义在实践中的行为:近似、关联,并容忍变异。
架构层面的影响
一旦理解了上述内容,若干后果自然显现:
- 检索质量 更依赖于选择能够保留语义邻域的表示,而非完美召回。
- 缓存策略 只有在等价性由相似度而非身份定义时才可行。
- 评估指标 必须考虑分级相关性,而非二元正确性。
- 系统边界 发生转变:组件不再交换“事实”,而是交换在特定上下文中仍有用的意义近似。
语义系统之所以有效,正因为它们 不 试图消除歧义——而是吸收歧义。无论你是在设计向量存储、在 LLM 前放置语义缓存,还是为对话系统构建长期记忆层,你都在隐式决定系统容忍多少近似以及在何处强加这种容忍。
更大的图景
最初的语言学洞见——词义通过与其他词的关系获得——悄然成为整个计算系统的组织原则。
- 意义不再存在于词典、规则或符号中,而是存在于 模式 中:表达式如何聚类、分散并在浩瀚语言空间中重复出现。
- 语义不再是系统 拥有 的东西;它是系统 穿行 的空间。
这一转变耗时逾百年。它要求哲学家区分意义与指称,语言学家放弃命名理论,工程师接受近似而非确定。当数据充裕、计算成本相对低廉时,这一演进才得以实现。
他的漫长轨迹汇聚成可操作的东西。
语义学,曾在讲堂和脚注中被争论,如今已成为基础设施——隐式的、分布式的、共享的。
那个想法,在最初提出时是激进的,已经等待了一百多年,直到有足够的数据和计算能力使其变得实用。
而现在,终于实现了。