9일 차 - 희소 임베딩 계속 - RAG
출처: Dev.to
역문서 빈도 (IDF)
입력 문서 전체에서 단어가 얼마나 드물게 등장하는지를 판단합니다. 드문 단어는 높은 IDF 점수를 받고, 흔한 단어는 낮은 점수를 받습니다. 따라서 드문 단어일수록 검색 시 더 높은 우선순위를 부여받게 됩니다.

쿼리에 자주 등장하는 단어(낮은 IDF)가 포함되어 있으면 검색 결과가 부실할 수 있습니다. 반대로 드문 단어(높은 IDF)가 포함된 쿼리는 더 좋은 결과를 도출하는 경향이 있습니다.
IDF의 한계
예를 들어 “kubernetes”와 같이 한 문서에만 등장하는 용어가 있다면, 해당 문서는 그 용어가 잠깐 언급되었을 뿐이라도 높은 순위에 오르게 됩니다. 이 때문에 실제 쿼리와는 크게 관련 없는 문서가 반환될 수 있습니다.
TF‑IDF
TF‑IDF는 용어 빈도(TF)와 역문서 빈도(IDF)를 각각 계산한 뒤 두 점수를 곱해 결합합니다.

BM‑25 (Best Match‑25)
BM‑25는 TF‑IDF를 개선한 방식입니다. “25”는 점수를 매길 때 고려되는 상위 25개의 매칭 용어를 의미하며, 일반 TF‑IDF보다 더 좋은 결과를 제공하는 경우가 많습니다.

하이브리드 검색
희소 임베딩은 키워드 검색을 수행하지만, 이는 Retrieval‑Augmented Generation (RAG) 파이프라인에 단독으로는 충분하지 않습니다. 의미적 유사도와 키워드 관련성을 모두 활용하려면, 밀집 임베딩(예: Sentence‑Transformers)과 희소 임베딩(예: BM‑25)을 결합합니다. 이러한 방식을 하이브리드 검색이라고 합니다.