OCR 开源软件 Tesseract 的下载和入门使用

2023-06-16 09:32:08

资源下载

tesseract-ocr-setup-3.05.01.exe

注：安装的时候选好要识别的语言

tesseract-4.0-with-LSTM#400-alpha-for-windows

Windows中运行tesseract

tesseract

是一个命令行OCR程序，打开一个终端（组合键Win +R），输入：

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

imagename
The name of the input image. Most image file formats (anything readable by 
Leptonica) are supported.(输入图片的文件名，可以是Leptonica支持的各种图片格式)

outputbase
The basename of the output file (to which the appropriate extension will be 
appended). By default the output will be named outbase.txt.(输出文件的文件名，
默认输出文件是txt格式的，还可以指定Hocr和pdf格式)

2.举个栗子：识别

myscan.png

图像，将识别结果存入

out.txt

，命令行：

tesseract myscan.png out

3.指定特定语言，指定识别简体中文和英文

-l chi_sim+eng

,命令行：

tesseract myscan.png out -l chi_sim+eng

4.指定输出文件格式，在命令行最后加上文件格式即可，可以指定Hocr和pdf格式，hOCR是

是一种HTML文件，它对每个识别的字词会后一些参数的说明。tesseract 3.03及以上的版本才

支持pdf格式，命令行为：

hOCR:

tesseract myscan.png out hocr

pdf:

tesseract myscan.png out pdf

Github 参考文件

运行tesseract

参数说明

本文转自：https://blog.csdn.net/cylj102908/article/details/78760777

OCR 开源软件 Tesseract 的下载和入门使用

资源下载

Windows中运行tesseract

继续阅读

禁止系统控件自带滑动阴影效果

Eclipse中使用fat-jar打包Eclipse中使用fat-jar打包

关于项目监控看板HTML页面设计

RecyclerView的使用，简单实现ListView、GridView效果，添加Item的分割线

可视化开发小游戏开发笔记五

可视化开发小游戏开发笔记六

可视化开发小游戏开发笔记二

可视化开发小游戏开发笔记七

基于Crawler4j的WEB爬虫基于Crawler4j的WEB爬虫

cocostudio UI 笔记

Jackson解析首字母大写的json字符串

Angularjs POST/GET/JSONP请求

面试谈一谈对java io的理解

java保存json类型数据到mysql数据库，mysql保存json类型数据

解决注销登录进入登录界面，避免返回到主界面

Retrofit 上传多张图片/文件