TencentOCR 斬獲 ICDAR 2021 三項冠軍

作者：TencentOCR團隊

全球 OCR 最頂級賽事，TencentOCR 以絕對領先優勢斬獲三冠，騰訊技術再揚威名！

一、競賽背景

2021 年 9 月，兩年一屆的 ICDAR 競賽落下帷幕，這是文字識别（OCR）領域全球最頂級賽事。TencentOCR 團隊在本屆比賽中參加了視訊文字識别競賽，并包攬該賽道全部 3 項冠軍，成績遙遙領先。這也是繼 2017 年團隊勇奪 4 項官方認證冠軍[1]、2019 團隊勇奪 7 項冠軍後[2]，再創佳績，同時也标志着騰訊 OCR 技術穩居國際第一流水準。

國際文檔分析與識别大會 ICDAR（ International Conference on Document Analysis and Recognition）自 1991 年開始，每兩年一屆，今年為第十六屆。自 2003 年大會開始設立技術競賽，ICDAR 競賽因其極高技術難度和強大實用性，一直是各大科研院校、科技公司的競逐焦點。與賽後非正式刷榜不同，ICDAR 官方認證的正式競賽采用全新資料集，且賽期内不公布參賽團隊資訊，限制送出時間和次數，屬于高難度“盲打”，吸引國内外衆多隊伍參賽。

二、賽題介紹

ICDAR SVTS（場景視訊文本定位）競賽由海康威視、複旦大學和浙江大學聯合出題，主辦方提供了涵蓋 21 個室内外真實場景的 129 段視訊。SVTS 競賽設定了 3 個任務：視訊文本檢測、視訊文本跟蹤、視訊文本端到端識别。由于環境幹擾（相機抖動、運動模糊、光照變化等），從視訊幀中檢測、跟蹤、識别文本比靜态圖檔 OCR 任務需要更高的魯棒性，挑戰性極高。

（圖1）ICDAR-SVTS競賽示意幀

三、競賽成績

在 SVTS 競賽的 3 個任務中，騰訊 OCR 以大幅度領先獲得全部冠軍。

任務 1 視訊文本檢測

任務 1 旨在擷取視訊幀中的文本框位置，每個文本框的 GT 由 4 個坐标點組成，評價名額是 F-score，團隊以領先第二名 3.43%的成績取得冠軍。

（圖2）視訊文本檢測：冠軍證書

任務 2 視訊文本跟蹤

任務 2 旨在跟蹤視訊中所有文本流，将幀與幀之間屬于同一個文本的檢測框聚合起來，評價名額是 ATA，我們以領先第二名 5.62%的成績取得冠軍。

（圖3）視訊文本跟蹤：冠軍證書

任務 3 視訊文本端到端識别

任務 3 旨在評估視訊文本識别的端到端性能，任務要求在每一幀上正确檢測文本，在視訊幀上正确跟蹤，并在序列級别正确識别，評價名額是 F-score，我們以領先第二名 5.53%的成績取得冠軍。

（圖4）視訊文本端到端識别：冠軍證書

四、算法介紹

1. 文字檢測

針對複雜自然場景下的視訊文本檢測任務，團隊在 Cascade Mask R-CNN 算法的基礎上設計了一種自頂向下執行個體分割的多方向文本的檢測方法。在特征提取網絡部分，我們訓練多個主幹網絡，包括 HRNet-W48，Res2Net101，Resnet101 和 SENet101，并使用了 Syn-BN 和可變形卷積網絡 DCN 等技術來增強特征。同時，經典的 RPN 網絡替換成為 GA-RPN 的方法提升模型性能。為更好解決多尺度的問題，在模型 neck 部分我們嘗試了 PAFPN、BiFPN 和 FPG 等一系列特征金字塔網絡。在 R-CNN 部分，我們針對任務重新設計了 IoU 門檻值和每個 stage 的權重，采用了 4 個級聯的網絡來精準預測文字位置。此外，借鑒 Double-Head R-CNN 的思想，我們把 R-CNN 網絡的回歸和分類兩個網絡分支解耦開。

為進一步增強模型的性能，我們引入更多的監督資訊讓網絡去學習，首先增加了一個基于 CTC 的文字識别網絡分支進行端到端的訓練讓模型更好地學習文字特征，其次引入一個全局的語義分割網絡分支來強化特征的表示。最後，模型基于網絡輸出的 mask 分割結果采用多邊形非極大抑制(Soft Polygon NMS)來輸出文本區域框。在網絡前向預測階段，我們發現模型受視訊的模糊程度影響很大，設計了一種多尺度+翻轉+模糊增加的 TTA 政策，有效提升了測試的準召名額。同時，在将檢測結果傳給後續文字跟蹤和端到端識别任務的同時，我們也使用這兩個任務的輸出結果設計了檢測框篩選算法來提升最後的精度。

（圖5）文本檢測算法

2. 文字跟蹤

在文字跟蹤方面，我們提出了一種基于 DeepSort 的多度量文本跟蹤方法，使用 4 個不同的度量來計算每條軌迹與每個新檢測框之間的比對度，包括檢測框比對度，檢測框表觀相似度，文本相似度和一種新設計的檢測框鄰域相似度。這些度量被歸一化權重求和用作目前檢測框和已有軌迹之間的比對損失函數，使用 Kuhn-Munkres 算法計算最優比對。最後采用後處理和內建政策，通過替換鄰近檢測框，使得替換後軌迹文本穩定程度提升，來減少 ID-Switch 跟蹤錯誤，最後自動移除低文本置信度的軌迹來提升精度。

（圖6）視訊文本跟蹤算法

3. 端到端文字識别

在文字識别方面，我們采用了基于 CTC 和基于 2D Attention 的混合模型。我們的編碼網絡由卷積網絡和上下文提取子產品組成，我們首先通過 VGGNet、ResNet50/101、SEResNeXt 等卷積網絡提取視覺特征，然後通過 BiLSTM、BiGRU 和 Transformer 提取上下文資訊。針對基于 CTC 的算法，我們還開發了可端到端訓練的内嵌式語言模型。在端到端階段，我們采用多類識别算法對輸入跟蹤軌迹的所有文本進行預測，然後使用基于文本置信度和長度的方法內建并計算結果得分，取分數最高的結果作為軌迹的文本結果。最後，我們移除低分和包含無關字元的軌迹以提高最終精度。

（圖7）文本端到端識别算法

五、總結

TencentOCR 團隊是騰訊内部專業研發 OCR 技術的團隊，于 2021 年 TEG OCR 聯合公司兄弟團隊成立了 TencentOCR Oteam，團隊在文本識别領域上已經深耕細作多年，自研的基于深度學習方法的文本檢測與識别技術處于業界領先水準，已在全球最權威 ICDAR 競賽中連續三屆斬獲共 14 項官方認證冠軍。國際頂級競賽是技術水準的試金石和騰訊技術影響力的證明，同樣重要的還有技術應用與落地。騰訊 OCR 技術，憑借高精準度、高穩定性以及專業服務夥伴的理念，已支援公司内所有 BG 的數百個業務場景，如騰訊廣告、微信、QQ、騰訊雲、騰訊視訊、騰訊資訊流産品、騰訊會議等，并獲得廣泛好評。未來，團隊将繼續在 TencentOCR Oteam 的架構下，深度協同，保持騰訊 OCR 在業界的領先水準。

（圖8）TencentOCR參賽團隊

參考目錄：

https://mp.weixin.qq.com/s/_HmsLW4Juwo6RzjlRe6MhA
https://mp.weixin.qq.com/s/ai2ZJdTuG9pD5cijssx6SQ

歡迎點選下方視訊

關注騰訊程式員視訊号