天天看點

(CentOS7)PHP應用Tesseract文字識别中文

// Github 文檔

tesseract:https://github.com/thiagoalessio/tesseract-ocr-for-php

// 安裝 tesseract

1.yum install tesseract

// 檢視版本,能看到版本說明安裝完成

2.tesseract -v

// 搜尋語言包

3.yum search tesseract-langpack

//也可以到GitHub下載下傳:https://github.com/tesseract-ocr/tessdata

mirrors / tesseract-ocr / tessdata · GitCode

// 安裝Composer包

4.composer require thiagoalessio/tesseract_ocr

5.// php調用OCR

use thiagoalessio\TesseractOCR\TesseractOCR;

public function demo(){

    $ocr = new TesseractOCR('demo.jpg');

    echo $ocr->run();

}

6.進階

安裝語言包:

yum install tesseract-langpack-chi_sim.noarch (簡體中文)

yum install tesseract-langpack-chi_tra.noarch (繁體中文)

yum install tesseract-langpack-eng.noarch (英語)

yum install tesseract-langpack-jpn.noarch (日語)

use thiagoalessio\TesseractOCR\TesseractOCR;

public function demo(){

    // lang('chi_tra','chi_sim','eng','jpn')指定語言

    echo (new TesseractOCR('demo.jpg'))->lang('chi_tra','chi_sim','eng','jpn')->run();

}

其他:

php中開啟exec,system等函數調用系統指令

修改php.ini檔案

disable_functions = proc_open, popen, exec, system, shell_exec, passthru

這裡要把 exec,system,shell_exec 去掉

重新開機 php

更新tesseract 4.1 版本

yum-config-manager --add-repo https://download.opensuse.org/repositories/home:/Alexander_Pozdnyakov/CentOS_7/

sudo rpm --import https://build.opensuse.org/projects/home:Alexander_Pozdnyakov/public_key

yum update tesseract

yum list tesseract

yum install tesseract

tesseract -v 如果沒有更新版本,建議解除安裝掉以前的舊版本,重新安裝

參考以上步驟安裝tesseract4版本

對于tesseract4以上版本,中文語言包需要單獨下載下傳,中文語言包名chi_sim.traineddata,和window版本語言包一樣,可以複制過來使用,放在/usr/share/tesseract/4/tessdata目錄下。

測試圖檔識别指令,直接在指令行裡輸出,預設是英文。 # tesseract test.jpg stdout

中文輸出指令:# tesseract test.jpg stdout -l chi_sim,如果輸出報錯,提示TESSDATA_PREFIX變量要求指向tessdata目錄,需要在etc/profile.d/lang.sh檔案裡添加PATH=$PATH:/usr/local/tesseract/bin

export PATH

export TESSDATA_PREFIX="/usr/share/tesseract/4/tessdata" 

export PATH=$PATH:$TESSDATA_PREFIX

儲存後,指令行裡輸入指令:source /etc/profile 即可生效。再輸入中文識别指令即可顯示中文。

其它常用指令:檢視語言包 # tesseract --list-langs

window版參考:Win10 環境安裝tesseract-ocr 4.00并配置環境變量

https://www.lmlphp.com/user/100143/article/item/1244497/