主要看到很多人寫識别碼的,自己照做各種失敗對于我這個python的小白人士來說太困難,找了各種文章看了好久還是不成功,反複調試最終成功
經過總結特寫此文章獻給那些還在坑裡的同學
期望本文可以帶給初學者一些學習的興趣和信心
1.首先準備環境:
python版本:2.7/3.6
作業系統:windows系統
2.準備工具:
tesseract-ocr(百度網盤位址:https://pan.baidu.com/s/1OL0g1MBzeijD23JN0UGC0Q)
Pycharm(下載下傳位址:http://www.jetbrains.com/pycharm/download/#section=windows)
3.安裝相關python包(作者使用的是py2.7)
pip install Pillow
pip install pytesseract
4.使tesseract-ocr與python關聯,進而使python能夠調用Tesseract-OCR程式識别驗證碼/文字:
C:\python27\Lib\site-packages\pytesseract\pytesseract.py
修改pytesseract.py檔案中第24行将tesseract_cmd指向Tesseract-OCR的tesseract.exe
原内容:
修改後内容:
注:新手一定要注意/與\的區分
5.打開Pycharm寫程式:
在此需要告訴新手的其中aaa.jpg是存放在py腳本的目錄下,lang=‘chi_sim’代表中文識别,如果不加無法識别中文
6.運作腳本可以看到結果
特别提醒:如果步驟完全正确,但是運作報錯,請解除安裝pytesseract重新安裝問題就會解決(解除安裝指令pip uninstall pytesseract)
福利:python IDE的清屏一直是很讓人頭疼的一件事,特此文末送上python插件。
百度網盤下載下傳位址:https://pan.baidu.com/s/17ooYaJACLrxKRzCz1MJrXA
技術支援:zsh583943218(微信,注明技術求助)