LiteParse: 개발자를 위한 빠른 로컬 문서 파서

발행: (2026년 6월 7일 PM 01:03 GMT+9)
7 분 소요
원문: Dev.to

출처: Dev.to

LiteParse는 깔끔하고 구조가 잘 잡힌 파일에서 텍스트를 추출하기 위한 빠른 로컬 문서 파서입니다. PDF, DOCX, HTML 등 다양한 형식을 최소한의 설정만으로 처리하며, API 호출이 전혀 필요 없습니다. 모든 작업이 로컬에서 이루어지므로 문서가 환경을 떠나지 않습니다.

프로젝트는 자신의 범위에 대해 솔직하게 밝히고 있어 신선합니다. 다음과 같은 경우에 특히 적합합니다:

  • 문서가 비교적 단순하고 복잡한 표, 혼합 레이아웃, 스캔 페이지가 없는 경우
  • 데이터를 외부 서비스에 보내지 않고 로컬에서 파싱하고 싶은 경우
  • 프로토타이핑이나 가벼운 파이프라인을 구축하고 있으며 엔터프라이즈 수준의 정확도가 필요하지 않은 경우

복잡한 작업(밀집된 표, 다중 컬럼 레이아웃, 차트, 손글씨, 스캔된 PDF 등)이 필요하다면, 유지보수자는 클라우드 제품인 LlamaParse를 사용하라고 안내합니다. LiteParse는 “빠르고 가볍게”라는 목표에 집중하고 모든 기능을 제공하려 하지 않습니다.

내부 구조

LiteParse는 PDF.js를 활용해 공간적인 텍스트 파싱을 수행하며, AI 파이프라인에 유용한 몇 가지 기능을 제공합니다:

  • 정확한 바운딩 박스와 함께 텍스트 추출 – 페이지 내 텍스트 위치를 알 수 있습니다.
  • 유연한 OCR 시스템 – Tesseract.js가 기본으로 제공되며 설정이 필요 없습니다. 필요에 따라 EasyOCR이나 PaddleOCR 같은 HTTP OCR 서버를 연결해 정확도를 높일 수 있습니다.
  • 스크린샷 생성 – 페이지 이미지를 만들어 LLM 에이전트가 시각 정보를 활용하도록 합니다.
  • JSON 또는 일반 텍스트 형식 출력
  • Linux, macOS(Intel·ARM), Windows에서 동작하는 독립 실행 파일

LiteParse는 CLI와 라이브러리 형태로 제공됩니다. 각각의 빠른 사용 방법은 다음과 같습니다.

권장 설치 방법

전역 npm 설치를 하면 lit 명령을 어디서든 사용할 수 있습니다:

npm i -g @llamaindex/liteparse

macOS와 Linux에서는 Homebrew도 이용할 수 있습니다:

brew tap run-llama/liteparse
brew install llamaindex-liteparse

기본 파싱 (OCR은 기본적으로 Tesseract를 통해 활성화됨)

lit parse document.pdf
  • JSON을 파일로 저장
lit parse document.pdf --format json -o output.md
  • 특정 페이지만 파싱
lit parse document.pdf --target-pages "1-5,10,15-20"
  • OCR 완전 비활성화
lit parse document.pdf --no-ocr

배치 파이프라인

배치 모드에서는 PDF 엔진을 파일 간에 재사용해 효율성을 높입니다:

lit batch-parse ./input-directory ./output-directory

스크린샷 생성

lit screenshot document.pdf -o ./screenshots
  • 특정 페이지를 고해상도로
lit screenshot document.pdf --target-pages "1,3,5" --dpi 300 -o ./screenshots

코드에서 사용하기

라이브러리 형태로 사용하려면 의존성을 설치합니다:

npm install @llamaindex/liteparse
# 또는
pnpm add @llamaindex/liteparse

그 후 몇 줄만으로 파싱이 가능합니다:

import { LiteParse } from '@llamaindex/liteparse';

const parser = new LiteParse({ ocrEnabled: true });
const result = await parser.parse('document.pdf');
console.log(result.text);

자동 포맷 변환

PDF 전용 도구와 차별화되는 점은 자동 포맷 변환입니다. Office 문서나 이미지 파일을 지정하면 먼저 PDF로 변환해 줍니다(필요한 변환 도구가 설치돼 있어야 함).

  • Office 문서 (Word, PowerPoint, 스프레드시트) – LibreOffice 설치

    # macOS
    brew install --cask libreoffice
    
    # Ubuntu/Debian
    apt-get install libreoffice
  • 이미지 (JPG, PNG, GIF, BMP, TIFF, WebP, SVG) – ImageMagick 설치

    # macOS
    brew install imagemagick
    
    # Ubuntu/Debian
    apt-get install imagemagick

위 도구들을 설치하면 LiteParse가 백그라운드에서 변환을 처리합니다.

설정 파일 활용

CLI 옵션 대신 liteparse.config.json 파일에 기본값을 정의할 수 있습니다:

{
  "ocrLanguage": "en",
  "ocrEnabled": true,
  "maxPages": 1000,
  "dpi": 150,
  "outputFormat": "json",
  "preciseBoundingBox": true,
  "preserveVerySmallText": false
}

외부 OCR 서버를 사용하려면 ocrServerUrl을 추가합니다:

{
  "ocrServerUrl": "http://localhost:8828/ocr",
  "ocrLanguage": "en",
  "outputFormat": "json"
}

그 후 다음과 같이 실행합니다:

lit parse document.pdf --config liteparse.config.json

기본 Tesseract.js 엔진은 별도 설정이 필요 없지만, 더 높은 정확도가 필요하면 LiteParse의 간단한 API 사양을 따르는 어떤 OCR 서비스든 연결할 수 있습니다. 계약은 최소한으로, 파일과 언어를 받아서 텍스트, 바운딩 박스, 신뢰도 점수를 포함한 JSON을 반환하는 POST /ocr 엔드포인트만 있으면 됩니다. 레포지토리에는 EasyOCR와 PaddleOCR용 예시 래퍼가 포함돼 있어 템플릿으로 활용할 수 있습니다.


LiteParse는 목적이 명확하고 경계가 뚜렷해 이해하기 쉽습니다. 깨끗한 문서에서 로컬, 빠른 텍스트 추출이 필요하고 RAG 파이프라인, 에이전트, 빠른 프로토타입 등에 활용하고 싶다면 의존성이 적은 좋은 선택이 됩니다. 반면 문서가 복잡하거나 스캔된 형태, 표가 많이 포함된 경우라면 유지보수자가 제안하는 더 무거운 솔루션을 고려해야 합니다.

0 조회
Back to Blog

관련 글

더 보기 »