Microsoft Markitdown으로 문서 일괄 마크다운 변환
Source: Dev.to
여기서 최근 제게 들어온 빠른 도구는 microsoft/markitdown입니다. 이는 PDF, Word 문서, PowerPoint, Excel 파일을 Markdown으로 변환하는 Python CLI입니다. 혁신적이지 않지만, 정적인 사이트에 레거시 문서 폴더를 처리해야 했던 적이 있다면 수동으로 하는 번거로움을 피할 수 있다는 점을 알게 될 것입니다.
두 가지 유용한 것을 발견했습니다:
- 배치 변환 및 파이프라인 사용
- “
markitdown --input document.docx --output converted/” - 디렉터리를 지정하면 한 번에 모든 파일을 처리합니다.
- 표준 Unix 도구와 결합하여:
- “
find ./legacy-docs -name '*.docx' | xargs -I{} sh -c 'markitdown --input {} --output ./md/'”
- “
- 스크립팅용 stdout 출력
- “
markitdown document.pdf”
이것은 PyPI ( pip install markitdown ) 에서 제공되며, CI 파이프라인에 쉽게 통합할 수 있습니다. 문서 마이그레이션을 진행 중이고 수동 변환에 지쳤다면 한 번 살펴볼 가치가 있습니다.