天天看點

Tesseract-OCR 訓練自己的中文字庫

先接到需求要做字元識别,故百度查詢資料後,決定通過Tesseract-OCR來實作!雖然Tesseract-OCR也可以通過網上下載下傳中文字庫進行識别!但是由于識别效果不是很理想,是以決定根據所需要的識别的内容訓練字庫!網上說字庫的訓練最好在Tesseract-OCR的安裝目錄下進行,本人Tesseract-OCR的安裝目錄位于D:\Program Files\Tesseract-OCR。先将步驟整理如下:

1.運作cmd,進入d盤 d:

2.進入Tesseract-OCR檔案夾的安裝目錄 cdProgram Files\Tesseract-OCR

3.通過jTessBoxEditor軟體 生成tif格式的檔案(Tools -> Merge TIFF->選擇要合并的圖檔->儲存為.tif圖檔檔案)

Tesseract-OCR 訓練自己的中文字庫

4.生成BOX檔案 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox

Tesseract-OCR 訓練自己的中文字庫

4.1生成chi.myself.exp0.box檔案後,需要使用jTessBoxEditor軟體對其進行識别糾正!這部分很重要,等有時間再進行補充.......

4.2如果已經有中文字庫,那麼在makebox的時候可以使用中文字庫,那樣得到的.box檔案就會有大部分是可以識别出來的,隻需添加一個參數:tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox

5.生成.tr檔案 tesseract.exe  chi.myself.exp0.tif chi.myself.exp0  nobatch box.train

Tesseract-OCR 訓練自己的中文字庫

6.生成unicharset檔案 unicharset_extractor  chi.myself.exp0.box

Tesseract-OCR 訓練自己的中文字庫

7.建立font_properties檔案 内容 myself 0 0 0 0 0

Tesseract-OCR 訓練自己的中文字庫

8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

10.cntraining.exe chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

11.重命名把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上myself.  

Tesseract-OCR 訓練自己的中文字庫

12.combine_tessdata myself.

Tesseract-OCR 訓練自己的中文字庫

13.現在即可将生成的字庫拷貝到tessdata檔案夾中使用!

注:

A.tesseract-ocr版本為3.02.02 + VS2013

繼續閱讀