【文字識别】Python3使用百度AI進行文字識别

2023-05-03 18:22:24

将圖檔翻譯成文字一般被稱為光學文字識别（Optical Character Recognition，OCR）。可以實作OCR 的底層庫并不多，目前很多庫都是使用共同的幾個底層OCR 庫，或者是在上面進行定制。

Tesseract 是一個OCR 庫，目前由Google 贊助（Google 也是一家以OCR 和機器學習技術聞名于世的公司）。Tesseract 是目前公認最優秀、最精确的開源OCR 系統。

除了極高的精确度，Tesseract 也具有很高的靈活性。它可以通過訓練識别出任何字型（隻要這些字型的風格保持不變就可以），也可以識别出任何Unicode 字元。

此外我們也可以調用百度AI的文字識别API進行文字識别，具體流程如下：

1. 百度智能雲注冊使用者

百度智能雲位址：https://cloud.baidu.com/

2. 找到産品服務 / 文字識别 - 概覽，建立應用

【文字識别】Python3使用百度AI進行文字識别

應用有三個關鍵參數：AppID，API Key，Secret Key

【文字識别】Python3使用百度AI進行文字識别

3. python腳本調用文字識别接口

具體api文檔參考下面OCR Python SDK位址

OCR Python SDK位址：https://ai.baidu.com/docs#/OCR-Python-SDK/fad9fbb6

4. 具體文字識别代碼如下：隻是展示了幾個接口，具體的還是看上面OCR Python SDK位址文檔說明

'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''
#作者：cacho_37967865
#部落格：https://blog.csdn.net/sinat_37967865
#檔案：baiduAI.py
#日期：2019-06-18
#備注：Python利用百度AI進行文字識别, pip install baidu-aip
'''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''

from aip import AipOcr

# 定義常量
APP_ID = '16552814'
API_KEY = '93R0OpMdmPy31WBBgPEKE1qB'
SECRET_KEY = 'kIClrcG******'

# 初始化AipFace對象
aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)


# 打開圖檔
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()


# 調用通用文字識别接口
def basicGeneral(file):
    """ 如果有可選參數 """
    options = {}
    options["detect_direction"] = "true"  # 檢測朝向
    options["detect_language"] = "true"  # 檢測語言
    result = aipOcr.basicGeneral(file, options)
    return(result)


# 通用文字識别（高精度版）
def basicAccurate(file):
    options = {}
    options["detect_direction"] = "true"  # 檢測朝向
    options["detect_language"] = "true"  # 檢測語言
    result = aipOcr.basicAccurate(file, options)
    return (result)


# 識别一些網絡上背景複雜，特殊字型的文字。
def webImage(file):
    options = {}
    options["detect_direction"] = "true"  # 檢測朝向
    options["detect_language"] = "true"  # 檢測語言
    result = aipOcr.webImage(file, options)
    return (result)


def main():
    file = get_file_content("bd.png")
    result = basicGeneral(file)
    print(result)
    for word in result['words_result']:
        print(word['words'])

if __name__ == '__main__':
    main()

【文字識别】Python3使用百度AI進行文字識别

識别後的文字：

【文字識别】Python3使用百度AI進行文字識别

【文字識别】Python3使用百度AI進行文字識别

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告