天天看點

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

    • 1. 效果圖
    • 2. Tesseract 安裝及驗證
    • 參考

這篇部落格将介紹如何安裝和使用光學字元識别(OCR Optical Character Recognition)的Tesseract庫,并使用指令行對圖像中的字元進行識别;**除非圖像被清晰地分割,否則 Tesseract 會産生很差的結果。**在“嘈雜”輸入圖像的情況下,需要通過訓練自定義機器學習模型來識别特定用例中的字元來獲得更高的準确性。

OCR(Optical Character Recognition)光學字元識别是将鍵入、手寫或列印文本自動轉換為機器編碼文本的過程,然後可以通過字元串變量通路和操作這些文本。

Tesseract最初由Hewlett-Packard在20世紀80年代開發,在2005年開源。後來在2006年,谷歌采用了該項目,并從那時起一直是贊助商。

  • Tesseract軟體适用于多種自然語言,從英語到現在支援100多種書面語言,并有代碼,是以可以輕松地在其他語言上進行訓練。
  • Tesseract 最适合建構文檔處理管道,其中掃描圖像、預處理,然後需要應用光學字元識别。
  • Tesseract 最适合具有高分辨率輸入的情況,其中前景文本與背景清晰地分割開來。

1. 效果圖

OCR 指令行識别效果圖如下:

可以看到僅英文字元(紅色劃線和紫色圓圈辨別區),僅數字(藍色箭頭辨別區)都被成功識别;

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

Tesseract局限性例子,如信用卡上的數字識别效果如下:

并沒有正确識别到;

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

2. Tesseract 安裝及驗證

1. 安裝Tesseract

  • MacOS
brew install tesseract
  • ubuntu
sudo apt-get install tesseract-ocr
  • windows

官方安裝文檔見:https://github.com/UB-Mannheim/tesseract/wiki

tesseract-ocr-w32-setup-v5.0.0-alpha.20210811.exe (32 bit) 下載下傳

tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe (64 bit) 下載下傳

2. 驗證是否已安裝Tesseract

tesseract -v

安裝成功可以看到螢幕上的Tesseract版本,以及Tesseract與相容的圖像檔案格式庫清單。

Windows安裝用于OCR的Tesseract及使用指令行參數進行OCR

3. 測試Tesseract OCR

使用Tesseract時,建議:

  • 使用盡可能高的分辨率和DPI作為輸入圖像。
  • 應用門檻值從背景分割文本。
  • 確定前景與背景盡可能清晰地分割(即,沒有像素化或角色變形)。
  • 對輸入圖像應用文本傾斜校正,以確定文本正确對齊。

不預處理可能會導緻不正确的OCR結果。

參考

  • https://www.pyimagesearch.com/2017/07/03/installing-tesseract-for-ocr/
  • https://github.com/tesseract-ocr

繼續閱讀