介绍
MarkItDown 是微软团队开源的一个文档转换工具,它可以将多种格式的文件转换为 Markdown 格式。MarkItDown 支持的文件格式包括:
- Word
- Excel
- PowerPoint
- HTML
- Text-based formats (CSV, JSON, XML)
- Images (EXIF metadata and OCR) …
安装
MarkItDown 是 Python 编写的,可以通过 pip 安装:
windows or linux:
pip install markitdown
macOS:
brew install markitdown
使用
使用 MarkItDown 非常简单,只需要在终端中输入以下命令:
markitdown test.pdf test.md
或者使用 -o 参数指定输出文件:
markitdown test.pdf -o rename.md