Tesseract-OCR簡介

一個Google支援的開源的OCR圖文識别開源項目。支援多種語言(我使用的是3.02 版本，支援包括英文,簡體中文,繁體中文),支援Windows,Linux,Mac OSX 多平台。

Tesseract安裝

我這裡提供的是windows系統的安裝檔案，其他系統的請自行下載下傳。下載下傳位址：http://pan.baidu.com/s/1i58trVJ 。

正常安裝，安裝成功後，打開安裝目錄如下：

tesseract 識别圖檔應用一 Tesseract-OCR簡介

附錄: tessdata 目錄存放的是語言字庫檔案，和在指令行界面中可能用到的參數所對應的檔案. 這個安裝程式預設包含了英文字庫。如果想能識别其他語言，可以到https://github.com/tesseract-ocr/tessdata下載下傳對應的語言的字庫檔案。這裡提供簡體中文字的下載下傳位址：http://pan.baidu.com/s/1slVJ9kL 下載下傳完成後将該檔案剪切到tessdata目錄下去就可以了。

Tesseract 使用

PS：預設情況下安裝程式會給你配置系統環境變量,以指向安裝目錄（之後可以通過DOS界面在任意目錄運作tesseract）。安裝完成打開指令行，輸入tesseract，展現如下圖說明已經安裝成功。

tesseract 識别圖檔應用一 Tesseract-OCR簡介

tesseract 識别圖檔應用一 Tesseract-OCR簡介
接下來就可以使用tesseract進行圖檔識别了。準備一副待識别的圖像 test.jpg，我這裡準備的是數字圖檔，是以使用預設的英文語言包即可。

tesseract 識别圖檔應用一 Tesseract-OCR簡介

tesseract 識别圖檔應用一 Tesseract-OCR簡介

定位到圖檔所在的目錄：然後輸入指令：tesseract test.jpg result -l eng，回車執行。然後再圖檔目錄下檢視檔案，會發現生成了1個result.txt檔案裡面結果為：22711。
指令說明
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract 圖檔名輸出檔案名 -l 字庫檔案 -psm pagesegmode 配置檔案例如： tesseract test.jpg result -l eng -psm 7 nobatch -l eng 表示用英文文字庫（預設使用英文。如需要下載下傳中文字庫檔案，解壓後，存放到tessdata目錄下去,字庫檔案擴充名為 .raineddata 簡體中文字庫檔案名為: chi_sim.traineddata，指令為：chi_sim） -psm 7 表示告訴tesseract test.jpg圖檔是一行文本這個參數可以減少識别錯誤率. 預設為 3 configfile 參數值為tessdata\configs 和 tessdata\tessconfigs 目錄下的檔案名. [] 中配置是可選配置。
中文識别

圖檔名字：word.jpg 指令：tesseract word.jpg result -l chi_sim

以上就是tesseract的簡單使用。識别率還是可以的。如果有複雜的文本識别，duitesseract有較高的識别要求，可以通過使用訓練後的語言庫來提高識别的精度。這個沒有做過研究，不做介紹。下篇部落格，介紹如何在java中使用 tesseract在項目中的應用。

tesseract 識别圖檔應用一 Tesseract-OCR簡介

Tesseract-OCR簡介

Tesseract安裝

Tesseract 使用

繼續閱讀

Python第三方子產品tesserocr安裝

window10下tesserocr的安裝詳解

Python 3.7環境下安裝tesserocr失敗（已解決）

Tesserocr的安裝(python3應用)Tesserocr的安裝(python3應用)

win7系統安裝tesseract及tesserocr1.tesserocr下載下傳及安裝2.tesseract下載下傳及安裝3.驗證

Python下Tesseract Ocr引擎及安裝介紹，tesseractocr

基于tensorflow的lenet5卷積神經網絡的圖檔識别關于tensorflow的基礎卷積神經網絡模型介紹總結

【新人填坑016】ubuntu裡使用tesseract識别時報xxxxx tesseract is not installed or it's not in your path

python使用tesseract識别圖檔驗證碼

京東價格圖檔識别

電腦圖檔文字識别，得力OCR文字識别

Python+Tesseract-OCR識别圖檔文字并儲存到word文檔使用Python+Tesseract-OCR識别圖檔文字并儲存到word文檔

2 Tesseract-ocr 系列： Tesseract-ocr training (訓練)

教你用TensorFlow實作VGGNet

tesseract訓練字庫

Java OCR tesseract 圖檔識别技術（二）