MarkItDown:微软开源文档转换神器,一键将PDF/Word/PPT/Excel转Markdown

MarkItDown是一款由微软AutoGen团队开源的Python文档转换工具,可以将PDF、Word、PowerPoint、Excel、HTML等各种常见格式的文件转换为Markdown格式,输出内容结构清晰、语义完整,非常适合喂给大语言模型(LLM)进行处理和分析。

MarkItDown的核心优势在于「专注结构,输出纯净」。与textract等传统方案相比,它不是简单地把文档内容变成一堆乱码文字,而是保留了标题层级、列表顺序、表格结构、链接地址等关键信息,最终输出一个接近纯文本但又自带结构的Markdown文件。这对于需要批量处理文档的AI应用来说简直是神器。

MarkItDown支持的文件格式非常全面:
– PDF文档(保留文字层次)
– PowerPoint演示文稿(每页独立输出)
– Word文档(.docx格式)
– Excel表格(多Sheet支持)
– 图片文件(自动OCR识别文字并提取EXIF元数据)
– 音频文件(语音转录+EXIF信息提取)
– HTML网页(提取正文内容)
– CSV/JSON/XML等文本格式
– ZIP压缩包(自动遍历内部文件)
– YouTube视频URL(直接传入视频链接即可转录)
– EPUB电子书

安装方法非常简单,MarkItDown要求Python 3.10及以上版本:

pip install ‘markitdown[all]’

如果使用uv管理环境:

uv venv –python=3.12 .venv
source .venv/bin/activate
uv pip install ‘markitdown[all]’

从源码安装:

git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e ‘packages/markitdown[all]’

命令行使用方式是MarkItDown最便捷的场景:

markitdown input.pdf -o output.md
markitdown presentation.pptx -o slides.md
markitdown spreadsheet.xlsx -o data.md
markitdown ‘https://example.com/page’ -o page.md
markitdown video.mp4 -o transcript.md

Python API调用同样直观:

from markitdown import MarkItDown

md = MarkItDown()
result = md.convert(‘document.docx’)
print(result.text_content)

MarkItDown已经内置了MCP(Model Context Protocol)服务器,可以直接对接到Claude Desktop等AI应用,实现「上传文档→AI自动分析」的流畅体验。

适用场景非常广泛:构建知识库系统时批量处理历史文档、AI训练数据预处理、法律/财务文档的结构化提取、内容审核平台批量分析附件,以及将Office文档喂给LLM做智能问答。

项目采用MIT开源协议,完全免费商用。

GitHub地址:https://github.com/microsoft/markitdown


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。


服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞6 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容