Tesseract-OCR 訓練自己的中文字庫

2023-06-25 10:59:06

先接到需求要做字元識别，故百度查詢資料後，決定通過Tesseract-OCR來實作！雖然Tesseract-OCR也可以通過網上下載下傳中文字庫進行識别！但是由于識别效果不是很理想，是以決定根據所需要的識别的内容訓練字庫！網上說字庫的訓練最好在Tesseract-OCR的安裝目錄下進行，本人Tesseract-OCR的安裝目錄位于D:\Program Files\Tesseract-OCR。先将步驟整理如下：

1.運作cmd,進入d盤 d:

2.進入Tesseract-OCR檔案夾的安裝目錄 cdProgram Files\Tesseract-OCR

3.通過jTessBoxEditor軟體生成tif格式的檔案（Tools -> Merge TIFF->選擇要合并的圖檔->儲存為.tif圖檔檔案）

Tesseract-OCR 訓練自己的中文字庫

4.生成BOX檔案 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 batch.nochop makebox

Tesseract-OCR 訓練自己的中文字庫

4.1生成chi.myself.exp0.box檔案後，需要使用jTessBoxEditor軟體對其進行識别糾正！這部分很重要，等有時間再進行補充.......

4.2如果已經有中文字庫，那麼在makebox的時候可以使用中文字庫，那樣得到的.box檔案就會有大部分是可以識别出來的，隻需添加一個參數：tesseract.exe chi.myself.exp0.tif chi.myself.exp0 -l chi_sim batch.nochop makebox

5.生成.tr檔案 tesseract.exe chi.myself.exp0.tif chi.myself.exp0 nobatch box.train

Tesseract-OCR 訓練自己的中文字庫

6.生成unicharset檔案 unicharset_extractor chi.myself.exp0.box

Tesseract-OCR 訓練自己的中文字庫

7.建立font_properties檔案内容 myself 0 0 0 0 0

Tesseract-OCR 訓練自己的中文字庫

8.shapeclustering.exe -F font_properties.txt -U unicharset chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

9.mftraining.exe -F font_properties.txt -U unicharset -O unicharset chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

10.cntraining.exe chi.myself.exp0.tr

Tesseract-OCR 訓練自己的中文字庫

11.重命名把目錄下的unicharset、inttemp、pffmtable、shapetable、normproto這五個檔案前面都加上myself.

Tesseract-OCR 訓練自己的中文字庫

12.combine_tessdata myself.

Tesseract-OCR 訓練自己的中文字庫

13.現在即可将生成的字庫拷貝到tessdata檔案夾中使用！

注：

A.tesseract-ocr版本為3.02.02 + VS2013

Tesseract-OCR 訓練自己的中文字庫

繼續閱讀

Windows環境安裝Tesseract-OCR 4.0

Tesseract-OCR+pytesseract驗證碼環境搭建及簡單demo操作執行個體

天地元黃-恢宏古宋宣和之昌盛（從千字文版本說到逐浪字庫的立身理念）

Python3.7 pytesseract+PIL+Tesseract-OCR識别中文

Python子產品pytesseract驗證碼識别

關于tesseract-ocr原理的幾篇論文

Python+pytesseract+Tesseract-OCR圖檔文字識别（隻适合新手）

如何用python實作簡單的驗證碼識别功能

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

安裝Tesseract-OCR，實作文字識别

Tesseract-OCR編譯及ViewerDebugging使用

1 Tesseract-ocr 系列： Ubuntu16.04安裝tesseract-ocr 3.04.02

Tesseract-ocr在Ubuntu12.04下的安裝下詳解

python調用tesseract API 使用LSTM模式

Python下Tesseract Ocr引擎及安裝介紹，tesseractocr

Tesseract-OCR 的安裝與使用