天天看點

Tesseract-ocr在Ubuntu12.04下的安裝下詳解

本文主要講Tesseract-OCR在Ubuntu12.04下的具體安裝過程。

1.安裝前必備的包

一般Ubuntu系統都配置好了

  sudo apt-get install  gcc

  sudo apt-get install  g++

  sudo apt-get install  automake

而為了支援除了tif格式之外的圖檔,我們可以安裝以下

  sudo apt-get install  libpng12-dev

  sudo apt-get install  libjpeg62-dev

  sudo apt-get install  libtiff4-dev

2.安裝leptonlib

  tesseract-ocr依賴于leptonlib,是以下面給出了2種方法安裝leptonlib-1.6.8

(1)通過wget下載下傳包,然後再解壓安裝

  wget  http://www.leptonica.org/source/leptonlib-1.67.tar.gz

  tar -zxvf  leptonlib-1.67.tar.gz

  cd leptonlib-1.67

  ./configure

  make

  make install

  注意:在configure的時候可以選擇最終的安裝路徑,比如安裝在/home/administrator/tesseract-ocr目錄下邊:

 ./configure --prefix=//home/administrator/tesseract-ocr

 本博文選擇的是預設安裝。

(2)直接通過sudo安裝

    sudo apt-get install libleptonica-dev

    下載下傳完源檔案包後,進入目前目錄

   ./configure

   make

   sudo make install

3.安裝Tesseract-ocr

  wget http://tesseract-ocr.googlecode.com/files/tesseract-3.00.tar.gz

  tar -zxvf  tesseract-3.00.tar.gz

  cd tesseract-3.00

  ./configure

  make

 make install

 注意:

 ./configure --prefix=/home/administrator/tesseract-ocr 

 與leptonlib-1.67安裝目錄相同。本博文選擇預設安裝。

4.安裝語言包

(1)英文支援包

cd /usr/local/share/tessdata

sudo wget http://tesseract-ocr.googlecode.com/files/eng.traineddata.gz

sudo gunzip eng.traineddata.gz

也可以下載下傳完解壓好之後移動到相應的安裝目錄下

1.gzip -d eng.traineddata.gz

移動到安裝目錄下,預設的地方是/usr/local/share/tessdata

mv eng.traineddata /usr/local/share/tessdata

export TESSDATA_PREFIX=/usr/local/share

(2)中文支援包

cd /usr/local/share/tessdata

sudo wget http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz

sudo gunzip chi_sim.traineddata.gz

同樣的,可以下載下傳完中文支援包後解壓完移動到相應的安裝目錄下,參照英文包

5.配置環境變量

檢視PATH環境變量,可以用echo $PATH指令查詢

通常設定環境變量有三種方法:

(1)、臨時設定

  export PATH=/usr/local/tesseract-cor/bin:$PATH

(2)、目前使用者的全局設定

 打開~/.bashrc,添加行:

 export PATH=/usr/local/tesseract-cor/bin:$PATH

然後運作source bashrc使生效

(3)、所有使用者的全局設定

  $ vim /etc/profile

  在裡面加入:

  export PATH=/usr/local/tesseract-cor/bin:$PATH

  然後運作source profile使生效

 本博文選擇第三種設定方式,在/etc/profile中加入環境變量

  export PATH=/usr/local/tesseract-cor/bin:$PATH

  export LD_LIBRARY_PATH=/usr/local/tesseract-ocr/lib:$LD_LIBRARY_PATH

6.測試

在終端輸入指令

tesseract picture.tif  test -l chi_sim

picture.tif是圖檔,test是存放結果的test.txt檔案,-l是指定使用的語言包參數,預設是英文

如果在測試時,出現問題,需要再次配置一下子ldconfig。

sudo gedit /etc/ld.so.conf

在其中添加:

/usr/local/tesseract-ocr/lib

然後sudo ldconfig

繼續閱讀