天天看点

tesseract 识别图片应用一 Tesseract-OCR简介

Tesseract-OCR简介

    一个Google支持的开源的OCR图文识别开源项目。支持多种语言(我使用的是3.02 版本,支持包括英文,简体中文,繁体中文),支持Windows,Linux,Mac OSX 多平台。

      Tesseract安装

        我这里提供的是windows系统的安装文件,其他系统的请自行下载。下载地址:http://pan.baidu.com/s/1i58trVJ 。

        常规安装,安装成功后,打开安装目录如下:

tesseract 识别图片应用一 Tesseract-OCR简介
tesseract 识别图片应用一 Tesseract-OCR简介

    附录:         tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。         如果想能识别其他语言,可以到https://github.com/tesseract-ocr/tessdata下载对应的语言的字库文件。         这里提供简体中文字的下载地址:http://pan.baidu.com/s/1slVJ9kL 下载完成后将该文件剪切到tessdata目录下去就可以了。

   Tesseract 使用

    PS:默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。    安装完成打开命令行,输入tesseract,展现如下图说明已经安装成功。   
tesseract 识别图片应用一 Tesseract-OCR简介
tesseract 识别图片应用一 Tesseract-OCR简介
  接下来就可以使用tesseract进行图片识别了。准备一副待识别的图像 test.jpg,我这里准备的是数字图片,所以使用默认的英文语言包即可。  
tesseract 识别图片应用一 Tesseract-OCR简介
tesseract 识别图片应用一 Tesseract-OCR简介
定位到图片所在的目录:然后输入命令:tesseract test.jpg result -l eng,回车执行。然后再图片目录下查看文件,会发现生成了1个result.txt文件里面结果为:22711。
命令说明
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件 例如: tesseract test.jpg result -l eng -psm 7 nobatch -l eng 表示用英文文字库(默认使用英文。如需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata,命令为:chi_sim) -psm 7 表示告诉tesseract test.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3 configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名. [] 中配置是可选配置。
中文识别

图片名字:word.jpg 命令:tesseract word.jpg result -l chi_sim

以上就是tesseract的简单使用。识别率还是可以的。如果有复杂的文本识别,duitesseract有较高的识别要求,可以通过使用训练后的语言库来提高识别的精度。这个没有做过研究,不做介绍。 下篇博客,介绍如何在java中使用 tesseract在项目中的应用。

继续阅读