단어에서 벡터로: 의미론이 언어학에서 대형 언어 모델로 어떻게 이동했는가

발행: (2026년 1월 17일 오후 07:20 GMT+9)
13 min read
원문: Dev.to

Sure! I’m ready to translate the article for you. Could you please paste the text you’d like translated (the content from the Dev.to article) here? I’ll keep the source line exactly as you provided and translate the rest into Korean while preserving all formatting.

의미론의 언어학적 뿌리

현대 의미론은 컴퓨터가 아니라 언어 자체에서 시작됩니다. 19세기 말과 20세기 초에 언어학자들은 단어가 단순히 세계의 사물을 “가리킨다”는 순진한 생각을 거부하기 시작했습니다. 이 변화에서 가장 영향력 있는 인물 중 하나는 Ferdinand de Saussure였으며, 그는 언어가 명명 체계가 아니라 기호의 구조화된 시스템이라고 주장했습니다.

Saussure는 각 언어 기호가 두 개의 불가분한 부분으로 구성된다고 제안했습니다:

  • Signifier – 소리 또는 문자 형태
  • Signified – 떠오르는 개념

중요하게도, 두 요소 사이의 관계는 임의적입니다. dog이라는 단어에 본질적으로 “개와 같은” 특성이 있는 것은 아닙니다. 그 의미는 더 넓은 대비 체계 안에서 위치를 차지하기 때문에 발생합니다: dogcat, wolf, table이 아니기 때문에 의미를 갖습니다.

“Saussure가 주장했듯이 의미는 관계적입니다. 단어는 현실과의 직접적인 대응이 아니라 다른 단어와 어떻게 다른가에 따라 의미를 얻습니다.”

이 통찰은 구조주의 언어학에서 현대의 벡터 기반 표현에 이르기까지 모든 것의 개념적 토대를 조용히 마련했습니다.

철학적 정밀성: 프레게의 의미와 지시

언어학자들이 구조에 초점을 맞춘 반면, 철학자들은 정밀성을 추구했습니다. 특히 Gottlob Frege는 의미론을 형식 논리 안에 끼워 넣음으로써 변혁을 일으켰습니다. 프레게는 다음과 같은 중요한 구분을 도입했습니다:

  • Sense – 아이디어의 제시 방식
  • Reference – 실제로 지시되는 대상

이 구분은 두 표현이 같은 대상을 가리키면서도 서로 다른 정보를 전달할 수 있음을 설명했습니다. “아침 별”과 “저녁 별”은 모두 Venus를 가리키지만, 모든 상황에서 서로 교환될 수는 없습니다. 따라서 의미는 단순히 지시(reference)만으로는 환원될 수 없습니다.

더 중요한 점은 프레게가 compositionality라는 개념을 형식화했다는 것입니다: 문장의 의미는 그 구성 요소들의 의미와 그것들을 결합하는 규칙에 의해 결정됩니다. 이 원리는 철학뿐만 아니라 이후 프로그래밍 언어, 논리 시스템, 초기 AI 모델에서도 기본이 되었습니다. 되돌아보면, compositionality는 의미를 최소한 이론적으로는 계산 가능한 것으로 다룰 수 있게 만든 핵심 요소였습니다.

상징적 AI: 초기 낙관과 그 한계

AI가 20세기 중반에 학문 분야로 등장했을 때, 그것은 철학이 가지고 있던 기호와 논리에 대한 확신을 물려받았다. 초기 시스템들은 의미가 기호, 술어, 규칙, 온톨로지와 같은 형식 구조를 통해 명시적으로 표현될 수 있다고 가정했다. 언어를 “이해한다”는 것은 신중하게 설계된 규칙에 따라 기호를 변환하는 것을 의미했다.

잠시 동안은 이것이 효과가 있었다. 전문가 시스템, 지식 그래프, 그리고 1차 논리 엔진은 의료 진단, 화학 분석, 구성 문제와 같은 좁게 정의된 영역에서 인상적인 결과를 달성했다. 신중하게 경계된 세계 안에서는 상징적 의미론이 다루기 쉬워 보였다.

하지만 인간 언어는 이 접근법의 한계를 빠르게 드러냈다. 언어는 모호하고, 상황에 의존하며, 끊임없이 진화한다. 모든 가능한 의미와 해석을 인코딩하는 것은 단순히 어렵다기보다 근본적으로 확장할 수 없다는 것이 증명되었다. 상징적 시스템은 취약했다: 가정에서 약간이라도 벗어나는 입력을 마주했을 때 점진적으로가 아니라 재앙적으로 실패했다.

결국 의미론은 논리가 허용한 것보다 훨씬 더 복잡했고, 완전히 기록되기에는 훨씬 더 저항력이 있었다.

분포 의미론: 사용으로부터의 의미

조용한 혁명이 시작되었습니다. 언어학자와 컴퓨터 과학자들이 규칙이 아니라 사용 패턴을 살펴보기 시작했기 때문입니다. 의미를 정의가 아니라 단어가 사용되는 방식으로 추론할 수 있다는 생각은 20세기 중반에 주목받기 시작했습니다.

핵심 통찰은 간단하지만 심오했습니다: 비슷한 맥락에서 나타나는 단어들은 비슷한 의미를 갖는 경향이 있다는 것입니다. 의미를 명시적으로 인코딩하는 대신, 방대한 텍스트 코퍼스를 분석하여 통계적으로 측정할 수 있었습니다.

이 접근법은 분포 의미론이라고 불리며, 의미를 규범적인 것이 아니라 경험적인 것으로 재구성했습니다. 단어는 동시 발생 통계의 벡터가 되었습니다. 유사성은 더 이상 이진적이거나 규칙 기반이 아니라, 등급화되고 근사적인 것이었습니다. 이는 상징적 AI와의 결정적인 단절을 의미했으며, 정신적으로는 소쉬르의 관계적 의미관으로의 회귀였습니다.

신경망 단어 임베딩: 의미의 기하학

분포적 아이디어는 신경망 단어 임베딩, 특히 Word2Vec과 같은 모델이 도입되면서 크게 발전했습니다. 희소한 빈도 카운트에 의존하는 대신, 이러한 모델은 언어적 문맥을 예측하도록 최적화된 조밀하고 저차원인 벡터 표현을 학습했습니다.

그 결과는 그 창시자들조차 놀라게 했습니다. 의미적 관계가 벡터 공간의 기하학적 규칙성으로 나타났습니다. 벡터 간 차이는 유추, 계층 구조, 그리고 의미적 근접성을 인코딩했습니다. 의미는 이제 코사인 유사도로 측정할 수 있는 것이 되었습니다.

“이것은 상징적 이해가 아니었다…”

(발췌는 여기서 끝납니다; 원본 텍스트는 이 지점에서 끊깁니다.)

Source:

Semantic Evolution in Machine Learning

By Sergey Lunev, Founder of the VCAL Project

From Static Embeddings to Contextual Representations

Static embeddings had a fundamental limitation: each word had exactly one vector, regardless of context.
But human language does not work that way. The meaning of a word shifts depending on surrounding words, speaker intent, situation, and even emotion.

Transformer‑based models, particularly BERT, addressed this by making representations contextual.
Instead of asking “What does this word mean?” the model learns to ask “What does this word mean here?”

Through attention mechanisms, transformers model relationships between tokens dynamically.
Meaning is no longer stored in a single vector per word, but distributed across layers and activations that respond to context.

This marked a crucial step toward pragmatic semantics: language as it is actually used, not as it is abstractly defined.

Emergence in Large Language Models

Large language models such as GPT do not contain explicit semantic representations in the traditional sense.
They are trained to predict the next token in a sequence, yet at scale they display behaviors that look strikingly semantic: summarization, reasoning, translation, abstraction.

The key idea is emergence. As models compress vast amounts of linguistic data, they internalize regularities about the world, language, and human communication. Semantics arises not as a dedicated module, but as a side effect of learning efficient representations.

These models do not “know” meaning in a philosophical sense, but they operate in a space where syntax, semantics, and pragmatics are inseparable, and where relational structure dominates.

Why This History Matters for Practitioners

For anyone building semantic search systems, RAG pipelines, or LLM‑adjacent infrastructure, this history is not merely academic background—it explains why certain designs consistently work while others fail.

  • Exact matching breaks down because natural language rarely repeats itself verbatim.
  • Embeddings succeed not because they are clever, but because they mirror how meaning behaves in practice: approximately, relationally, and with tolerance for variation.

Architectural Consequences

Once the above is understood, several consequences follow naturally:

  1. Retrieval quality depends less on perfect recall and more on selecting representations that preserve semantic neighborhoods.
  2. Caching strategies become viable only when equivalence is defined by similarity rather than identity.
  3. Evaluation metrics must account for graded relevance instead of binary correctness.
  4. System boundaries shift: components no longer exchange “facts,” but approximations of meaning that remain useful within context.

Semantic systems are effective precisely because they do not attempt to eliminate ambiguity—they absorb it. Whether you are designing a vector store, placing a semantic cache in front of an LLM, or building a long‑term memory layer for conversational systems, you are implicitly deciding how much approximation your system tolerates and where that tolerance is enforced.

The Bigger Picture

What began as a linguistic insight—that words gain meaning through their relations to other words—has quietly become an organizing principle for entire computational systems.

  • Meaning no longer lives in dictionaries, rules, or symbols, but in patterns: in how expressions cluster, diverge, and reappear across vast landscapes of language.
  • Semantics is no longer something a system contains; it is something a system moves through.

This shift took more than a century to unfold. It required philosophers to separate sense from reference, linguists to abandon naming theories, and engineers to accept approximation over certainty. Only when data became abundant and computation relatively cheap did t

그의 긴 궤적은 무언가 실용적인 것으로 수렴한다.

Semantics, once debated in lecture halls and footnotes, has become infrastructure—implicit, distributed, and shared.

처음 제안될 때 급진적이었던 그 아이디어는 충분한 데이터와 연산 능력이 실용화될 때까지 백 년이 넘도록 기다려 왔다.
그리고 이제, 마침내, 그것이 실현되었다.

Back to Blog

관련 글

더 보기 »

🧠 LLMs를 5살 아이에게 설명하듯

도서관 사서 비유 상상해 보세요, 다음과 같은 사서를: - 도서관의 모든 책을 읽었다 - 언어가 작동하는 패턴을 암기했다 - 다음에 올 단어를 예측할 수 있다…

시각적인 Python 예제로 ReLU 이해

ReLU 활성화 함수를 사용하기 이전 기사들에서는 역전파(back‑propagation)를 사용하고 그래프를 그려 값을 정확히 예측했습니다. 모든 예제는 …