一、项目简介
Docling(github.com/docling-project/docling)是一款强大的开源文档解析工具,能够将PDF、DOCX、PPTX、XLSX、HTML、图片、LaTeX等多种格式的文档统一转换为Markdown、HTML或JSON格式。GitHub星标数已超过57000颗,是文档处理领域最受欢迎的开源项目之一。
Docling最大的亮点是支持高级PDF理解——能够识别表格结构、提取公式、理解阅读顺序、处理扫描件OCR等,让AI能够真正「读懂」复杂文档内容。
二、特色功能
- 多格式支持:PDF、DOCX、PPTX、XLSX、HTML、PNG/TIFF/JPEG图片、LaTeX、WAV/MP3音频、WebVTT字幕等
- 高级PDF解析:自动识别页面布局、阅读顺序、表格结构、代码块、公式
- 图表理解:能理解柱状图、饼图、折线图并转换为文字描述
- OCR识别:内置OCR支持,可处理扫描的PDF文档
- 多格式导出:Markdown、HTML、WebVTT、DocTags JSON等多种输出格式
- 行业标准支持:支持USPTO专利、JATS学术文章、XBRL财务报告等专用格式
- 本地运行:支持离线/内网环境,不依赖云服务
- MCP服务器:提供MCP协议接口,可集成到AI Agent中使用
- 主流框架集成:支持LangChain、LlamaIndex、CrewAI、Haystack等
三、安装步骤
使用pip安装
pip install docling
使用uv安装(推荐)
uv pip install docling
验证安装
python -c "import docling; print(docling.__version__)"
额外依赖安装
如果需要OCR功能,还需要安装:
uv pip install docling[ocr]
四、使用方法
Python API使用
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
# 转换PDF文档
result = converter.convert("path/to/document.pdf")
# 输出为Markdown
print(result.markdown)
# 保存为文件
with open("output.md", "w", encoding="utf-8") as f:
f.write(result.markdown)
命令行使用
# 转换单个文件
docling document.pdf
# 批量转换
docling document1.pdf document2.docx
# 指定输出格式
docling --format html document.pdf
表格提取
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("table.pdf")
# 获取所有表格
for table in result.tables:
print(table.export_to_dataframe()) # pandas DataFrame
MCP服务器使用
# 启动Docling MCP服务器
docling mcp-server
# 然后在AI Agent中配置使用
五、适用场景
- RAG知识库构建:将大量历史文档转换为可检索的文本格式
- 合同分析:批量提取合同中的关键条款和数字
- 学术论文处理:将PDF论文转换为Markdown便于AI阅读理解
- 数据录入自动化:从图片或PDF中提取表格数据
- 企业文档数字化:将扫描件PDF转换为可搜索文本
- AI训练数据准备:为LLM微调准备高质量文本语料
六、开源协议
Docling采用MIT开源协议,完全免费可商用。
服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END








暂无评论内容