Tesseract OCR安裝與簡單使用
1.下載下傳Tesseract OCR
下載下傳位址:https://digi.bib.uni-mannheim.de/tesseract/
2.安裝Tesseract OCR
- 輕按兩下安裝程式,進入安裝界面。
- 接受協定,下一步。
- 選擇使用者
- 選擇元件
- 如果電腦組態夠好、網速夠快,可以之間勾選”Additional language data(download)“,下載下傳全部額外的語言資料。
- 直接全選的話,後面下載下傳語言包需要很長時間,導緻安裝進度緩慢。可以點選“Additional language data(download)”旁邊的”+“号,選擇幾種需要的語言包。
- 設定安裝目錄。點選”Next“。
- 點選”Install“。
- 等待安裝完成。
- 安裝完成。點選”Finish“。
- 将目錄添加到系統環境變量Path
- 檢視版本資訊
tesseract -v
- 檢視已下載下傳的語言包。
tesseract --list-langs
3.文字識别程式編寫
- 安裝pytesseract子產品
pip install pytesseract
- 示例1:
from PIL import Image
import pytesseract
# 添加tesseract的路徑
pytesseract.pytesseract.tesseract_cmd = r'D:\software\Tesseract-OCR\tesseract.exe'
"""
image_to_string():如果識别英文或數字可以不必額外參數,如果識别其他語言則需要加上lang參數
表示要識别的是中文簡體
沒有識别出來時,傳回空白
"""
text = pytesseract.image_to_string(Image.open('test.jpg'), lang='chi_sim')
print(text)
test.jpg:
識别效果:
-
示例2:
test2.jpg:
識别效果: -
示例3
test4.png:
識别效果:
參考文章:
- https://blog.csdn.net/weixin_51571728/article/details/120384909
- https://blog.csdn.net/qq_53751944/article/details/125941604