天天看点

(CentOS7)PHP应用Tesseract文字识别中文

// Github 文档

tesseract:https://github.com/thiagoalessio/tesseract-ocr-for-php

// 安装 tesseract

1.yum install tesseract

// 查看版本,能看到版本说明安装完成

2.tesseract -v

// 搜索语言包

3.yum search tesseract-langpack

//也可以到GitHub下载:https://github.com/tesseract-ocr/tessdata

mirrors / tesseract-ocr / tessdata · GitCode

// 安装Composer包

4.composer require thiagoalessio/tesseract_ocr

5.// php调用OCR

use thiagoalessio\TesseractOCR\TesseractOCR;

public function demo(){

    $ocr = new TesseractOCR('demo.jpg');

    echo $ocr->run();

}

6.进阶

安装语言包:

yum install tesseract-langpack-chi_sim.noarch (简体中文)

yum install tesseract-langpack-chi_tra.noarch (繁体中文)

yum install tesseract-langpack-eng.noarch (英语)

yum install tesseract-langpack-jpn.noarch (日语)

use thiagoalessio\TesseractOCR\TesseractOCR;

public function demo(){

    // lang('chi_tra','chi_sim','eng','jpn')指定语言

    echo (new TesseractOCR('demo.jpg'))->lang('chi_tra','chi_sim','eng','jpn')->run();

}

其他:

php中开启exec,system等函数调用系统命令

修改php.ini文件

disable_functions = proc_open, popen, exec, system, shell_exec, passthru

这里要把 exec,system,shell_exec 去掉

重启 php

升级tesseract 4.1 版本

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/

sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key

yum update tesseract

yum list tesseract

yum install tesseract

tesseract -v 如果没有更新版本,建议卸载掉以前的旧版本,重新安装

参考以上步骤安装tesseract4版本

对于tesseract4以上版本,中文语言包需要单独下载,中文语言包名chi_sim.traineddata,和window版本语言包一样,可以复制过来使用,放在/usr/share/tesseract/4/tessdata目录下。

测试图片识别命令,直接在命令行里输出,默认是英文。 # tesseract test.jpg stdout

中文输出命令:# tesseract test.jpg stdout -l chi_sim,如果输出报错,提示TESSDATA_PREFIX变量要求指向tessdata目录,需要在etc/profile.d/lang.sh文件里添加PATH=$PATH:/usr/local/tesseract/bin

export PATH

export TESSDATA_PREFIX="/usr/share/tesseract/4/tessdata" 

export PATH=$PATH:$TESSDATA_PREFIX

保存后,命令行里输入命令:source /etc/profile 即可生效。再输入中文识别命令即可显示中文。

其它常用命令:查看语言包 # tesseract --list-langs

window版参考:Win10 环境安装tesseract-ocr 4.00并配置环境变量

https://www.lmlphp.com/user/100143/article/item/1244497/