Tesseract-OCR简介

一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本，支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

Tesseract安装

我这里提供的是windows系统的安装文件，其他系统的请自行下载。下载地址：http://pan.baidu.com/s/1i58trVJ 。

常规安装，安装成功后，打开安装目录如下：

tesseract 识别图片应用一 Tesseract-OCR简介

附录: tessdata 目录存放的是语言字库文件，和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。如果想能识别其他语言，可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。这里提供简体中文字的下载地址：http://pan.baidu.com/s/1slVJ9kL 下载完成后将该文件剪切到tessdata目录下去就可以了。

Tesseract 使用

PS：默认情况下安装程序会给你配置系统环境变量,以指向安装目录（之后可以通过DOS界面在任意目录运行tesseract）。安装完成打开命令行，输入tesseract，展现如下图说明已经安装成功。

tesseract 识别图片应用一 Tesseract-OCR简介

tesseract 识别图片应用一 Tesseract-OCR简介
接下来就可以使用tesseract进行图片识别了。准备一副待识别的图像 test.jpg，我这里准备的是数字图片，所以使用默认的英文语言包即可。

tesseract 识别图片应用一 Tesseract-OCR简介

tesseract 识别图片应用一 Tesseract-OCR简介

定位到图片所在的目录：然后输入命令：tesseract test.jpg result -l eng，回车执行。然后再图片目录下查看文件，会发现生成了1个result.txt文件里面结果为：22711。
命令说明
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract 图片名输出文件名 -l 字库文件 -psm pagesegmode 配置文件例如： tesseract test.jpg result -l eng -psm 7 nobatch -l eng 表示用英文文字库（默认使用英文。如需要下载中文字库文件，解压后，存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata，命令为：chi_sim） -psm 7 表示告诉tesseract test.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3 configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名. [] 中配置是可选配置。
中文识别

图片名字：word.jpg 命令：tesseract word.jpg result -l chi_sim

以上就是tesseract的简单使用。识别率还是可以的。如果有复杂的文本识别，duitesseract有较高的识别要求，可以通过使用训练后的语言库来提高识别的精度。这个没有做过研究，不做介绍。下篇博客，介绍如何在java中使用 tesseract在项目中的应用。

tesseract 识别图片应用一 Tesseract-OCR简介

Tesseract-OCR简介

Tesseract安装

Tesseract 使用

继续阅读

Python第三方模块tesserocr安装

window10下tesserocr的安装详解

Python 3.7环境下安装tesserocr失败（已解决）

Tesserocr的安装(python3应用)Tesserocr的安装(python3应用)

win7系统安装tesseract及tesserocr1.tesserocr下载及安装2.tesseract下载及安装3.验证

Python下Tesseract Ocr引擎及安装介绍，tesseractocr

基于tensorflow的lenet5卷积神经网络的图片识别关于tensorflow的基础卷积神经网络模型介绍总结

【新人填坑016】ubuntu里使用tesseract识别时报xxxxx tesseract is not installed or it's not in your path

python使用tesseract识别图片验证码

京东价格图片识别

电脑图片文字识别，得力OCR文字识别

Python+Tesseract-OCR识别图片文字并保存到word文档使用Python+Tesseract-OCR识别图片文字并保存到word文档

2 Tesseract-ocr 系列： Tesseract-ocr training (训练)

教你用TensorFlow实现VGGNet

tesseract训练字库

Java OCR tesseract 图片识别技术（二）