Surya: 开源90+语言OCR工具支持表格识别和阅读顺序检测-壹联网络

文档数字化是现代办公和企业数字化的基础需求。今天推荐的开源项目 Surya（https://github.com/datalab-to/surya）是一款强大的文档 OCR 工具包，支持 90 多种语言的文字识别，性能可以对标商业云服务，而且完全免费开源。项目在 GitHub 上拥有超过 19,000 颗星，采用 GPL-3.0 开源协议。Surya 这个名字来源于印度太阳神，寓意「普照万物、无所不见」。

项目介绍

Surya 是一个开源文档智能工具包，主要功能包括：通用文字识别（OCR）、文字区域检测、布局分析、阅读顺序检测、表格识别以及 LaTeX OCR。它可以处理扫描的 PDF、拍的照片、截图等多种类型的文档。

核心特色功能

90+ 语言支持：包括中文、英文、日文、韩文、阿拉伯文、印地文等主流语言
文字区域检测：精确定位图片中每行文字的位置
布局分析：自动识别页面中的不同区域：文字、表格、图片、标题等
阅读顺序检测：智能判断文字的阅读顺序，输出结构化结果
表格识别：检测表格的行、列结构，输出可编辑的表格数据
LaTeX OCR：对数学公式截图直接识别为 LaTeX 代码
性能优异：在多语言 OCR 基准测试中优于主流商业云服务
完全本地运行：无需联网，所有处理在本地完成，保护数据隐私

支持的文档类型

Surya 可以处理：扫描文档、科学论文、PPT/演示文稿、表单、教科书、新闻报纸、多语言混合文档等。

安装步骤

Surya 需要 Python 3.10+ 和 PyTorch 环境：

# 安装 PyTorch（已有 GPU 可选 CUDA 版本）
pip install torch

# 安装 Surya
pip install surya-ocr

首次运行时会自动下载模型权重。

使用方法

# OCR 识别
surya_ocr image.png

# 布局分析
surya_layout image.png

# 表格识别
surya_table image.png

# 阅读顺序检测
surya_order image.png

适用场景

企业文档数字化：将纸质合同、发票、报表批量数字化
学术研究：批量提取论文中的文字和表格数据
数据录入自动化：减少人工录入工作量
无障碍辅助：将印刷材料转换为可访问的数字文本
隐私敏感场景：本地 OCR，无需将文档上传到第三方

服务支持：如有兴趣不会搭建，可以联系微信：WRYD6166，开源项目搭建10-50元。

文章版权归作者所有，未经允许请勿转载。

THE END

技术分享

Surya: 开源90+语言OCR工具 支持表格识别和阅读顺序检测