9일 차 - 희소 임베딩 계속 - RAG

발행: 1주 전 (2026년 5월 28일 AM 11:52 GMT+9)

3 분 소요

원문: Dev.to

출처: Dev.to

역문서 빈도 (IDF)

입력 문서 전체에서 단어가 얼마나 드물게 등장하는지를 판단합니다. 드문 단어는 높은 IDF 점수를 받고, 흔한 단어는 낮은 점수를 받습니다. 따라서 드문 단어일수록 검색 시 더 높은 우선순위를 부여받게 됩니다.

IDF 그림

쿼리에 자주 등장하는 단어(낮은 IDF)가 포함되어 있으면 검색 결과가 부실할 수 있습니다. 반대로 드문 단어(높은 IDF)가 포함된 쿼리는 더 좋은 결과를 도출하는 경향이 있습니다.

IDF의 한계

예를 들어 “kubernetes”와 같이 한 문서에만 등장하는 용어가 있다면, 해당 문서는 그 용어가 잠깐 언급되었을 뿐이라도 높은 순위에 오르게 됩니다. 이 때문에 실제 쿼리와는 크게 관련 없는 문서가 반환될 수 있습니다.

TF‑IDF

TF‑IDF는 용어 빈도(TF)와 역문서 빈도(IDF)를 각각 계산한 뒤 두 점수를 곱해 결합합니다.

TF‑IDF 그림

BM‑25 (Best Match‑25)

BM‑25는 TF‑IDF를 개선한 방식입니다. “25”는 점수를 매길 때 고려되는 상위 25개의 매칭 용어를 의미하며, 일반 TF‑IDF보다 더 좋은 결과를 제공하는 경우가 많습니다.

BM‑25 그림

하이브리드 검색

희소 임베딩은 키워드 검색을 수행하지만, 이는 Retrieval‑Augmented Generation (RAG) 파이프라인에 단독으로는 충분하지 않습니다. 의미적 유사도와 키워드 관련성을 모두 활용하려면, 밀집 임베딩(예: Sentence‑Transformers)과 희소 임베딩(예: BM‑25)을 결합합니다. 이러한 방식을 하이브리드 검색이라고 합니다.

9일 차 - 희소 임베딩 계속 - RAG

역문서 빈도 (IDF)

IDF의 한계

TF‑IDF

BM‑25 (Best Match‑25)

하이브리드 검색

관련 글

[논문] Lumos‑Nexus: 비디오 통합 모델을 위한 동질 잠재 공간 기반 효율적 주파수 연결

[논문] KLIP: 역문제에서 확산 사전과 KL 발산을 통한 국소 분포 변동 탐지

[논문] 분산 최적화에서 오류 피드백 알고리즘에 대한 엄밀한 이론

[논문] 상태 기반 온라인 모니터링, 분산 에이전트 공격 탐지