Docling CLI를 사용하여 PDF를 파싱하고 여러 형식으로 내보내기
발행: (2026년 3월 28일 PM 12:22 GMT+9)
3 분 소요
원문: Dev.to
Source: Dev.to
Docling은 다양한 문서 형식을 구조화된 출력으로 변환하는 오픈‑소스 문서‑처리 라이브러리입니다.
이 라이브러리는 Retrieval‑Augmented Generation (RAG) 파이프라인에서 중요한 역할을 합니다.
PDF를 구조화된 형식으로 파싱하는 과정을 안내해 드리겠습니다.
Step 1: Set up
Create the project structure in your terminal:
mkdir docling_cli
cd docling_cli
Create your virtual environment and activate it.
Fedora

Windows

Step 2: Installing docling
pip install docling
docling --version
Fedora

Windows

docling 버전 확인:

3단계: 입력 및 출력 폴더 만들기
- PDF를 저장할
data폴더를 만듭니다. outputs폴더를 만듭니다.outputs안에 세 개의 하위 폴더인markdown_outputs,html_outputs,json_outputs를 만듭니다.

Step 4: PDF를 HTML로 변환
docling --to html *.pdf --output ~/Documents/docling_cli/outputs/html_outputs

Step 5: PDFs를 다른 형식으로 변환하기
1. 마크다운

2. JSON

3. 일반 텍스트

4. YAML

html_split_page
DOCtags
vtt
Step 6 – 결과 분석
저는 세 종류의 PDF를 사용했습니다:
- 표가 포함된 PDF
- 텍스트와 이미지가 포함된 PDF
- 표와 단락이 포함된 PDF
1. 표가 포함된 PDF
- HTML: 행과 열이 원본 PDF보다 더 잘 표시되었습니다.
- Markdown: 데이터를 잃지 않고 깔끔한 표를 마크다운 형식으로 생성했습니다.
- JSON: 모든 내용을 중첩 객체로 분해했습니다(프로그램에서 접근하기에 유용).
- Plain text: 괜찮지만 마크다운 표현만큼 명확하지는 않았습니다.
2. 텍스트와 이미지가 포함된 PDF
- HTML: 이미지의 원래 색상이 손실되었습니다.
3. 표와 단락이 포함된 PDF
- All formats: 단락이 일반 텍스트로 올바르게 추출되었습니다.


