天天看点

Tesseract-OCR+pytesseract验证码环境搭建及简单demo操作实例

安装包

安装包:​​https://pan.baidu.com/s/1WE_K-pWN53mHoHcimD0jVA ​​ 提取码:8fwj 

环境:Anaconda3

安装过程

安装Tesseract

解压文件,执行”tesseract-ocr-setup-4.00.00dev.exe”,默认安装,本文安装目录为”C:\Tesseract-OCR”。把”tessdata-master.zip”解压,把解压后的内容,拷贝到”C:\Tesseract-OCR\tessdata”目录下。

安装完毕之后,设置环境变量:

TESSDATA_PREFIX= C:\Tesseract-OCR\tessdata

在Path中添加”C:\Tesseract-OCR”,进行上文操作之后,Tesseract-OCR安装完毕。

安装pytesseract

进入到pytesseract-0.2.6.tar.gz所在目录,执行命令”pip install pytesseract-0.2.6.tar.gz”。

进入到pytesseract-0.2.6.tar.gz所在目录,执行命令”pip install pytesseract-0.2.6.tar.gz”。安装成功。

修改/Anaconda3/Lib/site-packages/pytesseract/pytesseract.py中的代码:

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'      

修改为类似如下,tesseract_cmd为Tesseract-OCR目录下的tesseract文件

# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = r'C:\Tesseract-OCR\tesseract'      

测试

验证图片:

Tesseract-OCR+pytesseract验证码环境搭建及简单demo操作实例

测试代码:

# -*- coding: utf-8 -*-
from PIL import Image
import pytesseract

imagepath="logo.png"

text=pytesseract.image_to_string(Image.open(imagepath),lang='chi_sim')
print(text)      
Tesseract-OCR+pytesseract验证码环境搭建及简单demo操作实例
Tesseract-OCR+pytesseract验证码环境搭建及简单demo操作实例

执行执行上述代码:

继续阅读