天天看點

tesseract 識别圖檔應用一 Tesseract-OCR簡介

Tesseract-OCR簡介

    一個Google支援的開源的OCR圖文識别開源項目。支援多種語言(我使用的是3.02 版本,支援包括英文,簡體中文,繁體中文),支援Windows,Linux,Mac OSX 多平台。

      Tesseract安裝

        我這裡提供的是windows系統的安裝檔案,其他系統的請自行下載下傳。下載下傳位址:http://pan.baidu.com/s/1i58trVJ 。

        正常安裝,安裝成功後,打開安裝目錄如下:

tesseract 識别圖檔應用一 Tesseract-OCR簡介
tesseract 識别圖檔應用一 Tesseract-OCR簡介

    附錄:         tessdata 目錄存放的是語言字庫檔案,和在指令行界面中可能用到的參數所對應的檔案. 這個安裝程式預設包含了英文字庫。         如果想能識别其他語言,可以到https://github.com/tesseract-ocr/tessdata下載下傳對應的語言的字庫檔案。         這裡提供簡體中文字的下載下傳位址:http://pan.baidu.com/s/1slVJ9kL 下載下傳完成後将該檔案剪切到tessdata目錄下去就可以了。

   Tesseract 使用

    PS:預設情況下安裝程式會給你配置系統環境變量,以指向安裝目錄(之後可以通過DOS界面在任意目錄運作tesseract)。    安裝完成打開指令行,輸入tesseract,展現如下圖說明已經安裝成功。   
tesseract 識别圖檔應用一 Tesseract-OCR簡介
tesseract 識别圖檔應用一 Tesseract-OCR簡介
  接下來就可以使用tesseract進行圖檔識别了。準備一副待識别的圖像 test.jpg,我這裡準備的是數字圖檔,是以使用預設的英文語言包即可。  
tesseract 識别圖檔應用一 Tesseract-OCR簡介
tesseract 識别圖檔應用一 Tesseract-OCR簡介
定位到圖檔所在的目錄:然後輸入指令:tesseract test.jpg result -l eng,回車執行。然後再圖檔目錄下檢視檔案,會發現生成了1個result.txt檔案裡面結果為:22711。
指令說明
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...] tesseract 圖檔名 輸出檔案名 -l 字庫檔案 -psm pagesegmode 配置檔案 例如: tesseract test.jpg result -l eng -psm 7 nobatch -l eng 表示用英文文字庫(預設使用英文。如需要下載下傳中文字庫檔案,解壓後,存放到tessdata目錄下去,字庫檔案擴充名為 .raineddata 簡體中文字庫檔案名為: chi_sim.traineddata,指令為:chi_sim) -psm 7 表示告訴tesseract test.jpg圖檔是一行文本 這個參數可以減少識别錯誤率. 預設為 3 configfile 參數值為tessdata\configs 和 tessdata\tessconfigs 目錄下的檔案名. [] 中配置是可選配置。
中文識别

圖檔名字:word.jpg 指令:tesseract word.jpg result -l chi_sim

以上就是tesseract的簡單使用。識别率還是可以的。如果有複雜的文本識别,duitesseract有較高的識别要求,可以通過使用訓練後的語言庫來提高識别的精度。這個沒有做過研究,不做介紹。 下篇部落格,介紹如何在java中使用 tesseract在項目中的應用。

繼續閱讀