tesseract訓練字庫

2023-08-05 20:39:42

tesseract 訓練字庫先做兩個準備工作

1.下載下傳工具cowboxer

http://download.csdn.net/detail/cxf7394373/5305519

2. 下載下傳tesseract-ocr.exe

https://code.google.com/p/tesseract-ocr/downloads/list

3. 安裝tessract-ocr

我直接安裝在了D:\\下面

現在可以開始了，訓練步驟包括以下幾步：

1. 識别圖檔

打開cmd，cd 至D:\\tesseract\\下面，拷貝一張圖檔1.tif至該目錄下，執行下面的指令

tesseract 1.tif 1 –l chi_sim batch.nochopmakebox

2.在cowbox中調整方框大小

在D:\\tesseract\\下會生成一個檔案1.box，用cowboxer工具打開1.box，會顯示如下圖的内容，糾正不正确的文字框，如果是中文，先輸入拼音，所有修改完之後，儲存。然後用記事本打開1.box，再改成漢字。

tesseract訓練字庫

3. 訓練字庫，在這裡是對兩張圖檔進行了處理，也就是說這個工具可以把多張圖檔的字訓練至一個字庫中，過程如下：

tesseract 1.tif 1 nobatch box.train

tesseract 2.tif 2 nobatch box.train

training\unicharset_extractor 1.box 2.box

training\mftraining -U unicharset -O test.unicharset 1.tr 2.tr

training\cntraining 1.tr 2.tr

rename normproto test.normproto

rename Microfeat test.Microfeat

rename inttemp test.inttemp

rename pffmtable test.pffmtable

..\training\combine_tessdata test.

最後出現如下的結果，第 2,4,5,6，行出現非-1數字時說明生成了新的字庫。

tesseract訓練字庫

繼續閱讀