天天看点

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

    • 1. 效果图
    • 2. Tesseract 安装及验证
    • 参考

这篇博客将介绍如何安装和使用光学字符识别(OCR Optical Character Recognition)的Tesseract库,并使用命令行对图像中的字符进行识别;**除非图像被清晰地分割,否则 Tesseract 会产生很差的结果。**在“嘈杂”输入图像的情况下,需要通过训练自定义机器学习模型来识别特定用例中的字符来获得更高的准确性。

OCR(Optical Character Recognition)光学字符识别是将键入、手写或打印文本自动转换为机器编码文本的过程,然后可以通过字符串变量访问和操作这些文本。

Tesseract最初由Hewlett-Packard在20世纪80年代开发,在2005年开源。后来在2006年,谷歌采用了该项目,并从那时起一直是赞助商。

  • Tesseract软件适用于多种自然语言,从英语到现在支持100多种书面语言,并有代码,因此可以轻松地在其他语言上进行训练。
  • Tesseract 最适合构建文档处理管道,其中扫描图像、预处理,然后需要应用光学字符识别。
  • Tesseract 最适合具有高分辨率输入的情况,其中前景文本与背景清晰地分割开来。

1. 效果图

OCR 命令行识别效果图如下:

可以看到仅英文字符(红色划线和紫色圆圈标识区),仅数字(蓝色箭头标识区)都被成功识别;

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

Tesseract局限性例子,如信用卡上的数字识别效果如下:

并没有正确识别到;

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

2. Tesseract 安装及验证

1. 安装Tesseract

  • MacOS
brew install tesseract
  • ubuntu
sudo apt-get install tesseract-ocr
  • windows

官方安装文档见:https://github.com/UB-Mannheim/tesseract/wiki

tesseract-ocr-w32-setup-v5.0.0-alpha.20210811.exe (32 bit) 下载

tesseract-ocr-w64-setup-v5.0.0-alpha.20210811.exe (64 bit) 下载

2. 验证是否已安装Tesseract

tesseract -v

安装成功可以看到屏幕上的Tesseract版本,以及Tesseract与兼容的图像文件格式库列表。

Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

3. 测试Tesseract OCR

使用Tesseract时,建议:

  • 使用尽可能高的分辨率和DPI作为输入图像。
  • 应用阈值从背景分割文本。
  • 确保前景与背景尽可能清晰地分割(即,没有像素化或角色变形)。
  • 对输入图像应用文本倾斜校正,以确保文本正确对齐。

不预处理可能会导致不正确的OCR结果。

参考

  • https://www.pyimagesearch.com/2017/07/03/installing-tesseract-for-ocr/
  • https://github.com/tesseract-ocr

继续阅读