天天看点

pytesseract OCR 识别

pip install pytesseract   但是缺少各种语言文本解析的库

下载tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe 并点击安装

git clone 

https://github.com/tesseract-ocr/tesseract

  可以观察到将里面的所有.tessdata  复制到文件夹Tesseract-OCR/tessdata里

修改site-packages对应文件夹中pytesseract.py tesseract_cmd = 'D:\\program_files\\Tesseract-OCR\\tesseract.exe'

将tesseract.exe添加到环境变量PATH中

创建环境变量TESSDATA_PREFIX,添加地址D:\\program_files\\Tesseract-OCR 或者 D:\\program_files\\Tesseract-OCR\\tessdata

重启电脑(非常好用的方法,遇到按照说明操作,最后还不行的,都可以试一下重启电脑)

print(text)

print('cost time:',time.time()-start_time)

cost time: 6.498211622238159

识别一个图片,速度有点慢