tesseract 訓練字庫先做兩個準備工作
1.下載下傳工具cowboxer
http://download.csdn.net/detail/cxf7394373/5305519
2. 下載下傳tesseract-ocr.exe
https://code.google.com/p/tesseract-ocr/downloads/list
3. 安裝tessract-ocr
我直接安裝在了D:\\下面
現在可以開始了,訓練步驟包括以下幾步:
1. 識别圖檔
打開cmd,cd 至D:\\tesseract\\下面,拷貝一張圖檔1.tif至該目錄下,執行下面的指令
tesseract 1.tif 1 –l chi_sim batch.nochopmakebox
2.在cowbox中調整方框大小
在D:\\tesseract\\下會生成一個檔案1.box,用cowboxer工具打開1.box,會顯示如下圖的内容,糾正不正确的文字框,如果是中文,先輸入拼音,所有修改完之後,儲存。然後用記事本打開1.box,再改成漢字。
3. 訓練字庫,在這裡是對兩張圖檔進行了處理,也就是說這個工具可以把多張圖檔的字訓練至一個字庫中,過程如下:
tesseract 1.tif 1 nobatch box.train
tesseract 2.tif 2 nobatch box.train
training\unicharset_extractor 1.box 2.box
training\mftraining -U unicharset -O test.unicharset 1.tr 2.tr
training\cntraining 1.tr 2.tr
rename normproto test.normproto
rename Microfeat test.Microfeat
rename inttemp test.inttemp
rename pffmtable test.pffmtable
..\training\combine_tessdata test.
最後出現如下的結果,第 2,4,5,6,行出現非-1數字時說明生成了新的字庫。