本文主要講Tesseract-OCR在Ubuntu12.04下的具體安裝過程。
1.安裝前必備的包
一般Ubuntu系統都配置好了
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
而為了支援除了tif格式之外的圖檔,我們可以安裝以下
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
2.安裝leptonlib
tesseract-ocr依賴于leptonlib,是以下面給出了2種方法安裝leptonlib-1.6.8
(1)通過wget下載下傳包,然後再解壓安裝
wget http://www.leptonica.org/source/leptonlib-1.67.tar.gz
tar -zxvf leptonlib-1.67.tar.gz
cd leptonlib-1.67
./configure
make
make install
注意:在configure的時候可以選擇最終的安裝路徑,比如安裝在/home/administrator/tesseract-ocr目錄下邊:
./configure --prefix=//home/administrator/tesseract-ocr
本博文選擇的是預設安裝。
(2)直接通過sudo安裝
sudo apt-get install libleptonica-dev
下載下傳完源檔案包後,進入目前目錄
./configure
make
sudo make install
3.安裝Tesseract-ocr
wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz
tar -zxvf tesseract-3.00.tar.gz
cd tesseract-3.00
./configure
make
make install
注意:
./configure --prefix=/home/administrator/tesseract-ocr
與leptonlib-1.67安裝目錄相同。本博文選擇預設安裝。
4.安裝語言包
(1)英文支援包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz
sudo gunzip eng.traineddata.gz
也可以下載下傳完解壓好之後移動到相應的安裝目錄下
1.gzip -d eng.traineddata.gz
移動到安裝目錄下,預設的地方是/usr/local/share/tessdata
mv eng.traineddata /usr/local/share/tessdata
export TESSDATA_PREFIX=/usr/local/share
(2)中文支援包
cd /usr/local/share/tessdata
sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz
sudo gunzip chi_sim.traineddata.gz
同樣的,可以下載下傳完中文支援包後解壓完移動到相應的安裝目錄下,參照英文包
5.配置環境變量
檢視PATH環境變量,可以用echo $PATH指令查詢
通常設定環境變量有三種方法:
(1)、臨時設定
export PATH=/usr/local/tesseract-cor/bin:$PATH
(2)、目前使用者的全局設定
打開~/.bashrc,添加行:
export PATH=/usr/local/tesseract-cor/bin:$PATH
然後運作source bashrc使生效
(3)、所有使用者的全局設定
$ vim /etc/profile
在裡面加入:
export PATH=/usr/local/tesseract-cor/bin:$PATH
然後運作source profile使生效
本博文選擇第三種設定方式,在/etc/profile中加入環境變量
export PATH=/usr/local/tesseract-cor/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/tesseract-ocr/lib:$LD_LIBRARY_PATH
6.測試
在終端輸入指令
tesseract picture.tif test -l chi_sim
picture.tif是圖檔,test是存放結果的test.txt檔案,-l是指定使用的語言包參數,預設是英文
如果在測試時,出現問題,需要再次配置一下子ldconfig。
sudo gedit /etc/ld.so.conf
在其中添加:
/usr/local/tesseract-ocr/lib
然後sudo ldconfig