天天看点

Tesseract-ocr在Ubuntu12.04下的安装下详解

本文主要讲Tesseract-OCR在Ubuntu12.04下的具体安装过程。

1.安装前必备的包

一般Ubuntu系统都配置好了

  sudo apt-get install  gcc

  sudo apt-get install  g++

  sudo apt-get install  automake

而为了支持除了tif格式之外的图片,我们可以安装以下

  sudo apt-get install  libpng12-dev

  sudo apt-get install  libjpeg62-dev

  sudo apt-get install  libtiff4-dev

2.安装leptonlib

  tesseract-ocr依赖于leptonlib,所以下面给出了2种方法安装leptonlib-1.6.8

(1)通过wget下载包,然后再解压安装

  wget  http://www.leptonica.org/source/leptonlib-1.67.tar.gz

  tar -zxvf  leptonlib-1.67.tar.gz

  cd leptonlib-1.67

  ./configure

  make

  make install

  注意:在configure的时候可以选择最终的安装路径,比如安装在/home/administrator/tesseract-ocr目录下边:

 ./configure --prefix=//home/administrator/tesseract-ocr

 本博文选择的是默认安装。

(2)直接通过sudo安装

    sudo apt-get install libleptonica-dev

    下载完源文件包后,进入当前目录

   ./configure

   make

   sudo make install

3.安装Tesseract-ocr

  wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz

  tar -zxvf  tesseract-3.00.tar.gz

  cd tesseract-3.00

  ./configure

  make

 make install

 注意:

 ./configure --prefix=/home/administrator/tesseract-ocr 

 与leptonlib-1.67安装目录相同。本博文选择默认安装。

4.安装语言包

(1)英文支持包

cd /usr/local/share/tessdata

sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz

sudo gunzip eng.traineddata.gz

也可以下载完解压好之后移动到相应的安装目录下

1.gzip -d eng.traineddata.gz

移动到安装目录下,默认的地方是/usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share

(2)中文支持包

cd /usr/local/share/tessdata

sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz

sudo gunzip chi_sim.traineddata.gz

同样的,可以下载完中文支持包后解压完移动到相应的安装目录下,参照英文包

5.配置环境变量

查看PATH环境变量,可以用echo $PATH命令查询

通常设置环境变量有三种方法:

(1)、临时设置

  export PATH=/usr/local/tesseract-cor/bin:$PATH

(2)、当前用户的全局设置

 打开~/.bashrc,添加行:

 export PATH=/usr/local/tesseract-cor/bin:$PATH

然后运行source bashrc使生效

(3)、所有用户的全局设置

  $ vim /etc/profile

  在里面加入:

  export PATH=/usr/local/tesseract-cor/bin:$PATH

  然后运行source profile使生效

 本博文选择第三种设置方式,在/etc/profile中加入环境变量

  export PATH=/usr/local/tesseract-cor/bin:$PATH

  export LD_LIBRARY_PATH=/usr/local/tesseract-ocr/lib:$LD_LIBRARY_PATH

6.测试

在终端输入命令

tesseract picture.tif  test -l chi_sim

picture.tif是图片,test是存放结果的test.txt文件,-l是指定使用的语言包参数,默认是英文

如果在测试时,出现问题,需要再次配置一下子ldconfig。

sudo gedit /etc/ld.so.conf

在其中添加:

/usr/local/tesseract-ocr/lib

然后sudo ldconfig

继续阅读