本文主要讲Tesseract-OCR在Ubuntu12.04下的具体安装过程。
1.安装前必备的包
一般Ubuntu系统都配置好了
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
而为了支持除了tif格式之外的图片,我们可以安装以下
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
2.安装leptonlib
tesseract-ocr依赖于leptonlib,所以下面给出了2种方法安装leptonlib-1.6.8
(1)通过wget下载包,然后再解压安装
wget http://www.leptonica.org/source/leptonlib-1.67.tar.gz
tar -zxvf leptonlib-1.67.tar.gz
cd leptonlib-1.67
./configure
make
make install
注意:在configure的时候可以选择最终的安装路径,比如安装在/home/administrator/tesseract-ocr目录下边:
./configure --prefix=//home/administrator/tesseract-ocr
本博文选择的是默认安装。
(2)直接通过sudo安装
sudo apt-get install libleptonica-dev
下载完源文件包后,进入当前目录
./configure
make
sudo make install
3.安装Tesseract-ocr
wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
tar -zxvf tesseract-3.00.tar.gz
cd tesseract-3.00
./configure
make
make install
注意:
./configure --prefix=/home/administrator/tesseract-ocr
与leptonlib-1.67安装目录相同。本博文选择默认安装。
4.安装语言包
(1)英文支持包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
sudo gunzip eng.traineddata.gz
也可以下载完解压好之后移动到相应的安装目录下
1.gzip -d eng.traineddata.gz
移动到安装目录下,默认的地方是/usr/local/share/tessdata
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share
(2)中文支持包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
sudo gunzip chi_sim.traineddata.gz
同样的,可以下载完中文支持包后解压完移动到相应的安装目录下,参照英文包
5.配置环境变量
查看PATH环境变量,可以用echo $PATH命令查询
通常设置环境变量有三种方法:
(1)、临时设置
export PATH=/usr/local/tesseract-cor/bin:$PATH
(2)、当前用户的全局设置
打开~/.bashrc,添加行:
export PATH=/usr/local/tesseract-cor/bin:$PATH
然后运行source bashrc使生效
(3)、所有用户的全局设置
$ vim /etc/profile
在里面加入:
export PATH=/usr/local/tesseract-cor/bin:$PATH
然后运行source profile使生效
本博文选择第三种设置方式,在/etc/profile中加入环境变量
export PATH=/usr/local/tesseract-cor/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/tesseract-ocr/lib:$LD_LIBRARY_PATH
6.测试
在终端输入命令
tesseract picture.tif test -l chi_sim
picture.tif是图片,test是存放结果的test.txt文件,-l是指定使用的语言包参数,默认是英文
如果在测试时,出现问题,需要再次配置一下子ldconfig。
sudo gedit /etc/ld.so.conf
在其中添加:
/usr/local/tesseract-ocr/lib
然后sudo ldconfig