先接到需求要做字元識别,故百度查詢資料後,決定通過Tesseract-OCR來實作!雖然Tesseract-OCR也可以通過網上下載下傳中文字庫進行識别!但是由于識别效果不是很理想,是以決定根據所需要的識别的内容訓練字庫!網上說字庫的訓練最好在Tesseract-OCR的安裝目錄下進行,本人Tesseract-OCR的安裝目錄位于D:\Program Files\Tesseract-OCR。先将步驟整理如下:
1.運作cmd,進入d盤 d:
2.進入Tesseract-OCR檔案夾的安裝目錄 cdProgram Files\Tesseract-OCR
3.通過jTessBoxEditor軟體 生成tif格式的檔案(Tools -> Merge TIFF->選擇要合并的圖檔->儲存為.tif圖檔檔案)
4.生成BOX檔案 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox
4.1生成chi.myself.exp0.box檔案後,需要使用jTessBoxEditor軟體對其進行識别糾正!這部分很重要,等有時間再進行補充.......
4.2如果已經有中文字庫,那麼在makebox的時候可以使用中文字庫,那樣得到的.box檔案就會有大部分是可以識别出來的,隻需添加一個參數:tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox
5.生成.tr檔案 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train
6.生成unicharset檔案 unicharset_extractor chi.myself.exp0.box
7.建立font_properties檔案 内容 myself 0 0 0 0 0
8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr
9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr
10.cntraining.exe chi.myself.exp0.tr
11.重命名把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上myself.
12.combine_tessdata myself.
13.現在即可将生成的字庫拷貝到tessdata檔案夾中使用!
注:
A.tesseract-ocr版本為3.02.02 + VS2013