首先,我的本地環境:
Ubuntu16.04(基于VMWare)上安裝tesseract-ocr 4.00alpha(安裝時間2017年7月)
一、在Ubuntu下自動安裝,一鍵完成
sudo apt-get install tesseract-ocr
二、源代碼安裝(基于GitHub)
參考網址:https://github.com/tesseract-ocr/tesseract/wiki/Compiling#linux
1. 指令行安裝
2. 如果你需要訓練,則還需安裝相應的庫(若不進行訓練則此步可以跳過):sudo apt-get install g++ # or clang++ (presumably) sudo apt-get install autoconf automake libtool sudo apt-get install autoconf-archive sudo apt-get install pkg-config sudo apt-get install libpng12-dev sudo apt-get install libjpeg8-dev sudo apt-get install libtiff5-dev sudo apt-get install zlib1g-dev
3. 安裝leptonicasudo apt-get install libicu-dev sudo apt-get install libpango1.0-dev sudo apt-get install libcairo2-dev
wget http://www.leptonica.org/source/leptonica-1.74.tar.gz tar -zxvf leptonica-1.74.tar.gz cd leptonica-1.74 ./configure sudo make sudo make install
//注意,因為Ubuntu本身bug, 最後兩步必須用 sudo 指令
因為本地安裝的tesseract-ocr為4.0版本,是以要求的Leptonica必須為1.74或以上版本,這裡選用的為 Leptonica1.74
(參考:Leptonica-1.74 下載下傳位址為:http://www.leptonica.com/download.html)
Tesseract、leptonica 和 Ubuntu對應版本号:
Tesseract Leptonica Ubuntu
4.00 1.74.2 Must build from source
3.05 1.74.0 Must build from source
3.04 1.71 Ubuntu 16.04
3.03 1.70 Ubuntu 14.04
3.02 1.69 Ubuntu 12.04
3.01 1.67
4. 從 Git 安裝 Tesseract-ocr
a) 安裝必須的包:
sudo apt-get install autoconf-archive automake g++ libtool libleptonica-dev pkg-config
b) 若要進行訓練,則還需要安裝:
sudo apt-get install libpango1.0-dev
(以上兩步可能和第1.步有重複,請自行篩查)
c)下載下傳tesseract-ocr源代碼包:
git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr
// 注意,預設下載下傳最新版本,目前為4.0. 建議自行下載下傳需要的版本
新裝的Ubuntu系統可能會提示需要安裝 git, 按照提示安裝就好
d)下載下傳完成後,進入tesseract-ocr 目錄并編譯、安裝
若要訓練,請編譯、安裝訓練工具cd tesseract-ocr ./autogen.sh ./configure make sudo make install sudo make install-langs //執行此步時報錯???? sudo ldconfig
make training sudo make training-install
5. 安裝語言包
一般這裡隻安裝自己需要的語言包即可。(http://www.qisanfen.com/?p=185)
參考:
英語: eng.traineddata
簡體中文:chi_sim.traineddata
git clone https://github.com/tesseract-ocr/tessdata.git tesseract-ocr.tessdata
以上指令下載下傳的 tesseract-ocr.tessdata 包含所有語言包,總大小為1.4G左右
下載下傳完成後,需要将語言包安裝到 TESSDATA_PREFIX 目錄。因為是新手,且在安裝時沒有自己設定安裝路徑,也就是預設安裝,是以語言包的預設目錄為: /usr/local/share/tessdata/ .
因為是直接下載下傳的 tesseract-ocr.tessdata 整個包,是以将其中的檔案全部拷貝到/usr/local/share/tessdata/ 下即可
sudo cp /home/username/tesseract-ocr/tesseract-ocr.tessdata/* /usr/local/share/tessdata
至此,完成安裝。
6. 測試
在OCR檔案夾下有要是别的圖檔檔案picture2.png
cd OCR tesseract picture1.png picture1 -l eng
//調用tesseract指令, 識别picture1.png, 自動生成名為picture1.txt 的檔案。 -l eng 意為使用英語識别。
附所有參考網址:
http://blog.csdn.net/yimingsilence/article/details/51353772
http://www.qisanfen.com/?p=185
https://github.com/tesseract-ocr/tesseract/wiki/Compiling-%E2%80%93-GitInstallation
https://github.com/tesseract-ocr/tesseract/blob/master/INSTALL.GIT.md
https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract