PageIndex를 활용한 RAG 시스템 개선

발행: (2026년 3월 14일 오전 08:21 GMT+9)
8 분 소요
원문: Dev.to

Source: Dev.to

위에 제공된 텍스트 외에 번역할 내용이 포함되어 있지 않습니다. 번역을 원하는 본문을 제공해 주시면 한국어로 번역해 드리겠습니다.

전통적인 RAG의 숨겨진 문제

대부분의 RAG 파이프라인은 다음과 같은 유사한 워크플로를 따릅니다:

  1. 문서를 청크(조각)로 나눕니다.
  2. 각 청크를 임베딩으로 변환합니다.
  3. 임베딩을 벡터 데이터베이스에 저장합니다.
  4. 질의 시점에 시스템이 가장 유사한 청크를 검색합니다.
  5. 검색된 청크를 LLM에 컨텍스트로 전달합니다.

이 접근 방식은 초기에는 잘 작동하지만 구조적인 약점이 있습니다: 청크가 원본 문서와의 관계를 잃어버린다는 점입니다. 시스템이 컨텍스트를 검색할 때 문서의 전혀 다른 부분에서 조각을 끌어올 수 있어, 정보가 파편화됩니다.

예시:
연구 논문이 다음과 같이 구성되어 있다고 가정해 보겠습니다:

  • 1페이지 — 서론
  • 2페이지 — 시스템 아키텍처
  • 3페이지 — 구현 세부 사항
  • 4페이지 — 결과

전형적인 RAG 질의는 1페이지에서 한 청크, 4페이지에서 또 다른 청크, 그리고 2페이지에서 세 번째 청크를 검색할 수 있습니다. 이렇게 되면 모델은 서로 연결되지 않은 파편들을 받게 되고, 검색된 청크와 같은 페이지에 존재할 수 있는 중요한 컨텍스트를 놓치게 됩니다.

PageIndex RAG란?

PageIndex RAG는 검색 중 문서 구조를 보존하는 간단한 개선점입니다. 각 청크를 독립된 정보 조각으로 다루는 대신, 메타데이터에 청크가 속한 페이지(또는 섹션)를 기록합니다. 관련 청크가 검색되면 시스템은 같은 페이지의 다른 청크들을 컨텍스트에 추가하여, LLM이 원래 함께 작성된 주변 정보를 볼 수 있게 합니다.

핵심 아이디어

  • 가장 관련성 높은 청크를 검색한다.
  • 해당 청크의 페이지를 식별한다.
  • 그 페이지의 추가 청크들을 컨텍스트에 포함한다.

페이지 구조가 중요한 이유

문서는 의도적으로 구조화됩니다; 저자는 관련 정보를 같은 페이지나 섹션에 그룹화하고, 종종 여러 단락에 걸쳐 배치합니다. 이 구조를 무시하면 정보의 논리적 흐름이 깨집니다. PageIndex는 원래 조직을 보존하는 일관된 컨텍스트 블록을 제공함으로써 그 흐름을 복원하며, 이는 답변 품질을 크게 향상시킬 수 있습니다.

PageIndex가 검색을 개선하는 방법

PageIndex는 검색과 생성 사이에 한 단계를 추가합니다:

  1. 벡터 검색 – 가장 관련성이 높은 청크를 가져옵니다.
  2. 페이지 식별 – 해당 청크가 속한 페이지를 결정합니다.
  3. 컨텍스트 확장 – 같은 페이지에 있는 주변 청크를 수집합니다.
  4. 정렬된 조합 – 결합된 청크를 원본 문서 순서와 동일하게 배열합니다.

LLM에 전달되는 최종 컨텍스트에는 다음이 포함됩니다:

  • 트리거가 된 관련 청크.
  • 동일한 페이지의 주변 청크.
  • 원본 문서와 같은 순서로 정렬된 내용.

실제 이점: 더 나은 맥락 재구성

대형 언어 모델은 정보를 일관된 구조로 볼 수 있을 때 최상의 성능을 발휘합니다. 설명의 절반만 제공하면 환각이 발생할 수 있지만, 주변 문단을 포함하면 모델이 전체 설명을 토대로 추론할 수 있어 불완전한 답변과 환각을 크게 줄일 수 있습니다.

PageIndex가 가장 효과적인 경우

PageIndex는 다음과 같이 구조가 명확히 조직된 문서에 특히 유용합니다:

  • 연구 논문
  • PDF 파일
  • 기술 문서
  • 법률 문서
  • 보고서
  • 교과서

이러한 경우, 관련 정보가 보통 페이지나 섹션 내에 그룹화되어 있어, 그 그룹화를 유지하는 것이 정확한 이해에 중요합니다.

PageIndex vs. 더 큰 컨텍스트 윈도우

컨텍스트 윈도우 크기를 늘린다고 해서 검색 품질이 아닙니다. 시스템이 잘못된 청크를 가져오면, 더 큰 윈도우는 단지 더 많은 무관한 정보를 추가할 뿐입니다. PageIndex는 검색된 컨텍스트의 품질을 향상시키며, 양이 아니라 질을 개선합니다. 이는 실제 응용 프로그램에서 매우 중요합니다.

왜 이 기술은 과소평가되는가

많은 RAG 논의는 다음에 초점을 맞춥니다:

  • 더 나은 임베딩
  • 하이브리드 검색
  • 재정렬 모델
  • 벡터 데이터베이스 튜닝

이러한 개선이 중요하지만, 종종 더 간단한 요소인 문서 구조를 간과합니다. PageIndex는 검색을 인간이 정보를 조직하는 방식에 맞추어 구조적 신호를 최소한의 추가 복잡성으로 활용합니다.

최종 생각

RAG 파이프라인은 종종 순수한 의미 검색 시스템으로 취급되지만, 문서는 성능을 크게 향상시킬 수 있는 구조적 신호를 가지고 있습니다. PageIndex는 손실된 구조 중 일부를 복원하는 가벼운 기법입니다. 청크를 원래 페이지와 다시 연결함으로써, LLM이 단편적인 스니펫이 아니라 완전한 정보 조각을 기반으로 추론할 수 있게 됩니다. 때때로 가장 큰 개선은 가장 단순한 아이디어에서 나오며, PageIndex가 그 좋은 예시입니다.

0 조회
Back to Blog

관련 글

더 보기 »