PaddleOCR 3.5: Transformers 백엔드를 사용한 OCR 및 문서 파싱 작업 실행
I’m happy to translate the article for you, but I need the full text you’d like translated. Could you please paste the content (excluding the source line you already provided) so I can convert it into Korean while preserving the formatting and code blocks?
저자
무엇이 바뀌었나요?
PaddleOCR 3.5는 보다 유연한 인퍼런스‑엔진 인터페이스를 도입했습니다. 개발자는 engine 매개변수를 통해 백엔드를 선택하고, 백엔드‑특화 옵션은 engine_config를 통해 전달할 수 있습니다.
실제로 이는 다음을 의미합니다:
- 이 작업들의 파이프라인은 PaddleOCR가 관리하므로 개발자가 각 내부 컴포넌트를 수동으로 호출할 필요가 없습니다.
- Transformers가 지원되는 PaddleOCR 모델을 실행하기 위한 지원 인퍼런스 백엔드 중 하나가 됩니다.
- 개발자는
engine_config를 통해dtype, 디바이스 배치, 어텐션 구현과 같은 백엔드 관련 옵션을 구성할 수 있습니다.
스택 개요
| 레이어 | 의미 | 예시 |
|---|---|---|
| 애플리케이션 레이어 | OCR 및 문서 파싱 결과를 사용하는 애플리케이션 | RAG, 에이전트, Document AI… |
| 모델 레이어 | OCR 및 문서 파싱 기능 | PP‑OCRv5, PaddleOCR‑VL 1.5… |
| 인퍼런스 백엔드 레이어 | 지원되는 모델을 실행하는 데 사용되는 런타임 | Paddle static graph, Paddle dynamic graph, Transformers |
이 릴리스는 주로 인퍼런스 백엔드 레이어에 영향을 줍니다: PaddleOCR는 OCR 및 문서 파싱 기능을 계속 제공하고, Transformers는 Hugging Face 중심 환경에 자연스럽게 맞는 또 다른 백엔드 옵션을 추가합니다. 더 큰 Document AI 워크플로우는 여전히 개발자와 애플리케이션 구축자의 손에 달려 있습니다.
왜 이것이 중요한가
RAG, Document AI, 그리고 문서‑에이전트 애플리케이션에서 어려운 부분은 종종 LLM 이전에 시작됩니다.
개발자는 먼저 PDF, 스캔된 문서, 스크린샷, 표, 차트, 수식, 복잡한 페이지 레이아웃을 신뢰할 수 있는 구조화된 데이터로 변환해야 합니다. 이 수집 단계가 약하면 하위 LLM 워크플로가 핵심 정보를 놓치거나 잘못된 컨텍스트를 검색하거나 신뢰할 수 없는 답변을 생성할 수 있습니다.
PaddleOCR는 PP‑OCRv5와 같은 OCR 시리즈 모델 및 PaddleOCR‑VL‑1.5와 같은 문서‑파싱 시리즈 모델을 제공하여 이 수집 문제를 해결하는 데 도움을 줍니다.
PaddleOCR 3.5와 함께라면 이러한 기능을 Transformers‑중심 스택과 더 쉽게 연결할 수 있습니다. 지원되는 PaddleOCR 모델은 Transformers 백엔드에서 실행될 수 있으며, PaddleOCR는 백그라운드에서 OCR 또는 문서‑파싱 파이프라인을 계속 관리합니다.
개발자에게 이는 통합 마찰 감소와 문서에서 하위 RAG, 에이전트, 검색, 분석 또는 자동화 워크플로로의 보다 자연스러운 경로를 의미합니다.
Source: …
빠른 시작
설치
# CUDA 12.6 예시
python -m pip install torch torchvision torchaudio \
--index-url https://download.pytorch.org/whl/cu126
python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
CPU, ROCm 또는 기타 환경에서는 대상 하드웨어에 맞는 PyTorch 빌드를 설치하세요.
명령줄 사용법
paddleocr ocr \
-i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \
--device gpu:0 \
--engine transformers
Python API
from paddleocr import PaddleOCR
pipeline = PaddleOCR(
device="gpu:0",
engine="transformers",
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine_config={"dtype": "float32"},
)
results = pipeline.predict(
"https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png"
)
for result in results:
print(result)
Hugging Face Space는 광범위한 호환성을 위해 float32를 사용합니다. 자체 하드웨어에 맞게 engine_config를 통해 백엔드별 옵션을 조정할 수 있습니다:
engine_config = {
"dtype": "bfloat16",
"device_type": "gpu",
"device_id": 0,
"attn_implementation": "sdpa",
}
최적의 구성은 모델, 하드웨어 및 배포 환경에 따라 달라집니다.
언제 Transformers 백엔드를 사용해야 할까요?
Transformers 백엔드는 PaddleOCR의 OCR 및 문서 파싱 기능을 Hugging Face 중심 스택에 보다 자연스럽게 맞추고 싶을 때 사용합니다.
특히 RAG, Document AI, 검색, 분석, 에이전트 애플리케이션을 구축하고 있으며 모델 로드, 실험, 배포, 모델‑아티팩트 관리 등에 PyTorch / Transformers 인프라에 이미 의존하고 있는 경우에 유용합니다.
Transformers 백엔드는 다음과 같은 경우에 적합합니다:
- 이미 Transformers를 사용하고 있는 팀에게 더 익숙한 개발 경험을 제공합니다.
- 지원되는 PaddleOCR 모델에 대해 Hub‑호환 모델 검색 및 배포를 지원합니다.
- 기존 PyTorch / Transformers 서비스와의 통합이 용이합니다.
OCR 또는 문서 파싱 처리량을 최우선으로 할 때는 PaddleOCR의 … (원본 텍스트가 여기서 끊깁니다).
기본 paddle_static 백엔드가 일반적으로 권장되는 선택입니다.
이번 릴리스는 한 백엔드를 다른 백엔드로 교체하는 것이 아닙니다.
개발자에게 더 큰 유연성을 제공하는 것이 목표입니다: OCR 및 문서 파싱 기능을 위해 PaddleOCR를 사용하고, 스택에 가장 적합한 추론 백엔드를 선택하세요.
지금 사용해 보세요
Hugging Face Spaces 데모
▶️ PaddleOCR 3.5 Transformers 데모
Hub에서 PaddleOCR 모델 탐색
📦 PaddleOCR 모델
PaddleOCR 3.5는 OCR 및 문서 파싱 기능을 Transformers 중심 워크플로에 더 가깝게 제공하며, 개발자에게 이를 기반으로 더 큰 Document AI 애플리케이션을 구축할 자유를 제공합니다.
Resources
- 문서 –
- GitHub 저장소 –
- Hugging Face의 PaddlePaddle 조직 –
- Spaces의 Transformers 데모 –
감사의 글
우리는 PaddleOCR 3.5 Transformers 통합을 지원해 주신 Hugging Face 엔지니어 여러분께 진심으로 감사드립니다.
특히 Anton Vlasjuk 님께서는 모든 관련 풀 리퀘스트를 검토하고 병합하는 등 전 과정에 걸쳐 참여해 주셨습니다.
또한 Raushan Turganbay 님과 Yoni Gozlan 님의 귀중한 PR 리뷰와 피드백에도 감사드립니다.
그들의 지도 덕분에 Hugging Face 커뮤니티를 위한 통합 품질, 문서 및 개발자 경험이 크게 향상되었습니다.