歡迎大家前往騰訊雲技術社群,擷取更多騰訊海量技術實踐幹貨哦~
OCR 是人工智能裡面非常重要的基礎能力之一。騰訊雲人工智能産品總監王磊,結合物流場景解讀了OCR技術。“OCR文本識别能夠優化物流行業流程,解放人力降低成本。”
騰訊雲人工智能産品總監王磊
王磊介紹,OCR文本識别存在三大挑戰。其一是文本是由多個文字拼接組成,沒有明顯邊界,文本框内除了筆畫,其餘部分均是背景,給文本識别特征提取帶來難度;其二是文本是由若幹漢字、英文或标點符号混合在一起,長度變化大,由于網絡感覺野受限,定位BOXES本身困難;其三是如果BOXES貼合精度不夠,會直接導緻後續的文字識别錯誤。騰訊優圖實驗室為OCR識别搭建了四層處理系統,并配備三大引擎。一是運單的版式識别引擎,可以對運單的版式進行分類;二是運單的字段定位引擎;三是運單的字段識别引擎。
為了解決這些問題,騰訊優圖實驗室在文本檢測技術方進行了深度優化,提出了Compact Inception,通過設計合理的網絡結構來提升各尺度的文字檢測/提取能力。同時引入RNN多層自适應網絡和Refinement結構來提升檢測完整性和準确性。
在文本識别方面,經過大量實驗和實踐,騰訊優圖實驗室對主流CNN+RNN+CTC方法進行了改進和創新:對CNN加入了橫向非對稱卷積和綜合多種尺度感受野的特征,增強了網絡對多尺度字型的支援。對RNN加入了Attention機制。Attention機制的加入,可以在所有特征塊的基礎上,得到每一個特征塊在全局中的權重資訊。簡單的了解,當決定目前字是幾個形似字中的哪一個時,該字所處的上下文位置和語義相關性是更具有決定意義的,甚至會比圖像資訊本身更重要。可以有效提升整行識别的準确率。性能上則通過網絡輕量化設計和裁剪、矩陣計算優化、通道優化、GPU/CPU的定向優化等技術,保證了實際應用落地。現在騰訊雲OCR能夠做到7×24小時提供識别服務,每張運單5秒鐘可以完成;識别準确率達到91%,并且整個識别流程不需要人工深度參與,極大的降低使用者隐私洩露的風險。
相關推薦
騰訊雲王琰:騰訊雲AI Cloud的技術、應用布局和趨勢
識别手寫快遞單、聽懂人話的小微...騰訊雲公布了哪些大動作?
歡迎關注騰訊雲技術社群,更多技術幹貨等着你。
此文已由作者授權騰訊雲技術社群釋出,轉載請注明文章出處
https://cloud.tencent.com/community/article/236939
傳播騰訊海量技術實踐經驗,www.qcloud.com
海量技術實踐經驗,盡在雲加社群!
https://cloud.tencent.com/developer