Microsoft Markitdown으로 문서 일괄 마크다운 변환

발행: (2026년 6월 19일 AM 02:01 GMT+9)
2 분 소요
원문: Dev.to

Source: Dev.to

여기서 최근 제게 들어온 빠른 도구는 microsoft/markitdown입니다. 이는 PDF, Word 문서, PowerPoint, Excel 파일을 Markdown으로 변환하는 Python CLI입니다. 혁신적이지 않지만, 정적인 사이트에 레거시 문서 폴더를 처리해야 했던 적이 있다면 수동으로 하는 번거로움을 피할 수 있다는 점을 알게 될 것입니다.

두 가지 유용한 것을 발견했습니다:

  • 배치 변환 및 파이프라인 사용
  • markitdown --input document.docx --output converted/
  • 디렉터리를 지정하면 한 번에 모든 파일을 처리합니다.
  • 표준 Unix 도구와 결합하여:
    • find ./legacy-docs -name '*.docx' | xargs -I{} sh -c 'markitdown --input {} --output ./md/'
  • 스크립팅용 stdout 출력
  • markitdown document.pdf

이것은 PyPI ( pip install markitdown ) 에서 제공되며, CI 파이프라인에 쉽게 통합할 수 있습니다. 문서 마이그레이션을 진행 중이고 수동 변환에 지쳤다면 한 번 살펴볼 가치가 있습니다.

https://github.com/microsoft/markitdown

0 조회
Back to Blog

관련 글

더 보기 »

프로젝트 부팅 시에만 CI 적용

I did not add CI to Knot Forget before the Django project existed. There would not have been much point: nothing meaningful to install, lint, or test. I added i...