天天看点

Tesseract-OCR识别

官方项目: https://github.com/tesseract-ocr/tesseract 。 网上详解: https://www.cnblogs.com/holden1/p/9878286.html 。 描述: Tesseract(识别引擎),一款由HP实验室开发由Google维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

安装说明:Tesseract-ocr安装很容易,在网上找到下载地址直接下载安装就可以,安装过程中需要 注意的是语言模块(根据自己的需要选择需要安装的语言包,建议安装中文简体和中文繁体),注意记住自己安装的路径。 安装完成之后需要配置环境变量,配置完环境变量之后可以在cmd命令行中输入tesseract验证Tesseract-ocr能否使用。 除了需要配置Tesseract-ocr文件的环境变量外,还需要配置Tesseract-ocr文件下的tessdata(语言包)的环境变量。 tessdata官方语言包: https://github.com/tesseract-ocr/tessdata 。

Tesseract-OCR识别

操作说明:打开cmd,将命令行切换至目标图像文件目录,比如我们转换文件为test.png(图片文件允许多种格式),位于C:\Users\Lian\Desktop\test;然后在命令行中输入 tesseract test.png output_1 –l eng 【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…] imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata), 如不标-l eng则默认为eng(英语)。

关于java项目调用操作: 1)、原始方式(cmd命令窗口):根据传入的参数,使用 Process 和 ProcessBuilder 调用tesseract.exe执行文件识别图形内容并输出。 缺点:需要用到tesseract软件,即服务器环境里必须要安装tesseract。

Tesseract-OCR识别

2)、下载相关的第三方jar包 下载Tess4J jar:该库提供光学字符识别(OCR)支持,tess4j是针对tesseract进行封装的javaAPI。安装好依赖库之后,就不需要另外再安装tessereact-ocr了,因为tess4j的jar包里面自带了tessereact-ocr。 网址: http://tess4j.sourceforge.net/ 。

Tesseract-OCR识别

只要指定语言包即可识别图片

Tesseract-OCR识别

相关扩展:处理图片的工具库openCV: https://opencv.org/ 。

ocr

继续阅读