天天看點

Tesseract OCR安裝與簡單使用

Tesseract OCR安裝與簡單使用

1.下載下傳Tesseract OCR

下載下傳位址:https://digi.bib.uni-mannheim.de/tesseract/

Tesseract OCR安裝與簡單使用

2.安裝Tesseract OCR

  • 輕按兩下安裝程式,進入安裝界面。
    Tesseract OCR安裝與簡單使用
  • 接受協定,下一步。
    Tesseract OCR安裝與簡單使用
  • 選擇使用者
    Tesseract OCR安裝與簡單使用
  • 選擇元件
    • 如果電腦組態夠好、網速夠快,可以之間勾選”Additional language data(download)“,下載下傳全部額外的語言資料。
      Tesseract OCR安裝與簡單使用
    • 直接全選的話,後面下載下傳語言包需要很長時間,導緻安裝進度緩慢。可以點選“Additional language data(download)”旁邊的”+“号,選擇幾種需要的語言包。
      Tesseract OCR安裝與簡單使用
  • 設定安裝目錄。點選”Next“。
    Tesseract OCR安裝與簡單使用
  • 點選”Install“。
    Tesseract OCR安裝與簡單使用
  • 等待安裝完成。
    Tesseract OCR安裝與簡單使用
    Tesseract OCR安裝與簡單使用
  • 安裝完成。點選”Finish“。
    Tesseract OCR安裝與簡單使用
  • 将目錄添加到系統環境變量Path
    Tesseract OCR安裝與簡單使用
  • 檢視版本資訊
tesseract -v
           
Tesseract OCR安裝與簡單使用
  • 檢視已下載下傳的語言包。
tesseract --list-langs
           
Tesseract OCR安裝與簡單使用

3.文字識别程式編寫

  • 安裝pytesseract子產品
pip install pytesseract
           
Tesseract OCR安裝與簡單使用
  • 示例1:
from PIL import Image
import pytesseract


# 添加tesseract的路徑
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string():如果識别英文或數字可以不必額外參數,如果識别其他語言則需要加上lang參數
表示要識别的是中文簡體
沒有識别出來時,傳回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)
           

test.jpg:

Tesseract OCR安裝與簡單使用

識别效果:

Tesseract OCR安裝與簡單使用
  • 示例2:

    test2.jpg:

    Tesseract OCR安裝與簡單使用
    識别效果:
    Tesseract OCR安裝與簡單使用
  • 示例3

    test4.png:

    Tesseract OCR安裝與簡單使用
    識别效果:
    Tesseract OCR安裝與簡單使用

參考文章:

  • https://blog.csdn.net/weixin_51571728/article/details/120384909
  • https://blog.csdn.net/qq_53751944/article/details/125941604