Docling CLI를 사용하여 PDF를 파싱하고 여러 형식으로 내보내기

발행: (2026년 3월 28일 PM 12:22 GMT+9)
3 분 소요
원문: Dev.to

Source: Dev.to

Docling은 다양한 문서 형식을 구조화된 출력으로 변환하는 오픈‑소스 문서‑처리 라이브러리입니다.
이 라이브러리는 Retrieval‑Augmented Generation (RAG) 파이프라인에서 중요한 역할을 합니다.

PDF를 구조화된 형식으로 파싱하는 과정을 안내해 드리겠습니다.

Step 1: Set up

Create the project structure in your terminal:

mkdir docling_cli
cd docling_cli

Create your virtual environment and activate it.

Fedora

Fedora 설정 스크린샷

Windows

Windows 설정 스크린샷

Step 2: Installing docling

pip install docling
docling --version

Fedora

Fedora 설치 출력

Windows

Windows 설치 출력

docling 버전 확인:

버전 확인 출력

3단계: 입력 및 출력 폴더 만들기

  1. PDF를 저장할 data 폴더를 만듭니다.
  2. outputs 폴더를 만듭니다.
  3. outputs 안에 세 개의 하위 폴더인 markdown_outputs, html_outputs, json_outputs를 만듭니다.

폴더 구조 다이어그램

Step 4: PDF를 HTML로 변환

docling --to html *.pdf --output ~/Documents/docling_cli/outputs/html_outputs

HTML 변환 결과

Step 5: PDFs를 다른 형식으로 변환하기

1. 마크다운

마크다운 변환 결과

2. JSON

JSON 변환 결과

3. 일반 텍스트

일반 텍스트 변환 결과

4. YAML

YAML 변환 결과

html_split_page

html_split_page의 스크린샷

DOCtags

Screenshot of DOCtags

vtt

vtt 스크린샷

Step 6 – 결과 분석

저는 세 종류의 PDF를 사용했습니다:

  1. 표가 포함된 PDF
  2. 텍스트와 이미지가 포함된 PDF
  3. 표와 단락이 포함된 PDF

1. 표가 포함된 PDF

  • HTML: 행과 열이 원본 PDF보다 더 잘 표시되었습니다.
  • Markdown: 데이터를 잃지 않고 깔끔한 표를 마크다운 형식으로 생성했습니다.
  • JSON: 모든 내용을 중첩 객체로 분해했습니다(프로그램에서 접근하기에 유용).
  • Plain text: 괜찮지만 마크다운 표현만큼 명확하지는 않았습니다.

2. 텍스트와 이미지가 포함된 PDF

  • HTML: 이미지의 원래 색상이 손실되었습니다.

3. 표와 단락이 포함된 PDF

  • All formats: 단락이 일반 텍스트로 올바르게 추출되었습니다.
0 조회
Back to Blog

관련 글

더 보기 »

GitHub Copilot CLI가 Chronicle으로 강화됨

번역할 텍스트를 제공해 주시겠어요? 현재는 URL만 포함되어 있어 어떤 내용을 번역해야 할지 알 수 없습니다. 텍스트를 알려주시면 한국어로 번역해 드리겠습니다.