Surya: 开源90+语言OCR工具 支持表格识别和阅读顺序检测

文档数字化是现代办公和企业数字化的基础需求。今天推荐的开源项目 Surya(https://github.com/datalab-to/surya)是一款强大的文档 OCR 工具包,支持 90 多种语言的文字识别,性能可以对标商业云服务,而且完全免费开源。项目在 GitHub 上拥有超过 19,000 颗星,采用 GPL-3.0 开源协议。Surya 这个名字来源于印度太阳神,寓意「普照万物、无所不见」。

项目介绍

Surya 是一个开源文档智能工具包,主要功能包括:通用文字识别(OCR)、文字区域检测、布局分析、阅读顺序检测、表格识别以及 LaTeX OCR。它可以处理扫描的 PDF、拍的照片、截图等多种类型的文档。

核心特色功能

  • 90+ 语言支持:包括中文、英文、日文、韩文、阿拉伯文、印地文等主流语言
  • 文字区域检测:精确定位图片中每行文字的位置
  • 布局分析:自动识别页面中的不同区域:文字、表格、图片、标题等
  • 阅读顺序检测:智能判断文字的阅读顺序,输出结构化结果
  • 表格识别:检测表格的行、列结构,输出可编辑的表格数据
  • LaTeX OCR:对数学公式截图直接识别为 LaTeX 代码
  • 性能优异:在多语言 OCR 基准测试中优于主流商业云服务
  • 完全本地运行:无需联网,所有处理在本地完成,保护数据隐私

支持的文档类型

Surya 可以处理:扫描文档、科学论文、PPT/演示文稿、表单、教科书、新闻报纸、多语言混合文档等。

安装步骤

Surya 需要 Python 3.10+ 和 PyTorch 环境:

# 安装 PyTorch(已有 GPU 可选 CUDA 版本)
pip install torch

# 安装 Surya
pip install surya-ocr

首次运行时会自动下载模型权重。

使用方法

# OCR 识别
surya_ocr image.png

# 布局分析
surya_layout image.png

# 表格识别
surya_table image.png

# 阅读顺序检测
surya_order image.png

适用场景

  • 企业文档数字化:将纸质合同、发票、报表批量数字化
  • 学术研究:批量提取论文中的文字和表格数据
  • 数据录入自动化:减少人工录入工作量
  • 无障碍辅助:将印刷材料转换为可访问的数字文本
  • 隐私敏感场景:本地 OCR,无需将文档上传到第三方

服务支持:如有兴趣不会搭建,可以联系微信:WRYD6166,开源项目搭建10-50元。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容