天天看點

論文推薦|[PR 2019]SegLink++:基于執行個體感覺與元件組合的任意形狀密集場景文本檢測方法

    本文簡要介紹Pattern Recognition 2019論文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。該論文提出一種對文字執行個體敏感的自下而上的文字檢測方法,解決了自然場景中密集文本和不規則文本的檢測問題。該論文提出的Instance-aware Component Grouping(ICG)方法,能夠在自下而上的文字檢測方法的基礎上大大提高密集文本檢測的效果。在該論文提出的一個商品密集文本檢測資料集DAST1500上,該方法的結果明顯優于同時期的其他文字檢測方法。

Fig.1. Comparison of different scene text detectors on one proposed DAST1500 image. (a)SegLink; (b) CTD+TLOC; (c) PixelLink; (d)Proposed ICG.

一、研究背景

    近年來場景文字檢測工作主要分為兩大類:自上而下的方法和自下而上的方法。自上而下的方法主要借鑒的是通用物體檢測的思路,并且根據文字的特點設計相應的檢測模型。這類方法通常難以處理不規則文本的檢測問題。自下而上的方法,通常先學習文本行的基本組成單元,然後進行單元之間的組合得到文本行檢測框。由于其靈活的表征方式,對不規則形狀的文本檢測有着天然的優勢。自下而上的方法按照組成單元的不同又分為兩類:組成單元為像素的基于分割的方法,以及組成單元為文字塊的基于單元組合的方法。但是,自下而上的方法通常很難區分密集文本。密集文本檢測問題是文本檢測中一個廣泛存在的難點問題。

二、原理簡述

Fig.2. Pipeline of the proposed method.

    現有的自下而上的文字檢測方法存在兩個問題:一是難以區分密集文本,二是自下而上的方法通常需要一定的後處理進行單元組合,而這個後處理過程一般不能和網絡一起進行端到端的訓練。為了解決這些問題,該論文首先提出了一種文本塊單元之間的吸引關系和排斥關系的表征,然後設計了一種最小生成樹算法進行單元組合得到最終的文本檢測框。另外,該論文還設計了Instance-aware Loss損失函數,把文本行執行個體的資訊引入到文本塊單元的訓練過程,實作了後處理過程和網絡端到端的訓練。

    具體的方法細節如圖2所示。對于一張待檢測的圖檔,先用VGG16網絡進行特征提取,然後在不同層得到網絡輸出,其中有文字塊單元的分類得分和文字塊單元檢測框的回歸值,包括中心偏移量,寬和高以及旋轉角度。另外,網絡在不同層還會學習相鄰文字塊單元之間的吸引和排斥的強弱程度。對應到圖2中,藍色框表示文字塊單元,綠色線段表示文字塊單元之間的吸引關系,紅色線段表示文字塊單元之間的排斥關系,為了表示的友善,隻畫了其中兩行文字中的文字塊單元以及單元關系。

    在後處理階段,首先利用門檻值得到有效的文字塊單元。這些單元以及之間的連接配接關系可以構成一個圖的表征G=(V,E)。其中的節點V代表多尺度的圖像金字塔中的文字塊單元,邊E代表在同一層以及跨層的文字塊單元之間的連接配接關系。其中每個邊對應這兩個吸引和排斥權重值:和。

    然後設計了一種最小生成樹算法進行文字塊單元組合,算法僞代碼如圖3所示。具體的算法流程是,按照吸引關系和排斥關系的強弱值從大到小考察每個關系。如果是吸引關系,則其連接配接的兩個文字單元屬于同一個文字單元組;如果是排斥關系,則其連接配接的兩個文字單元之間有一個排斥的限制。周遊所有有效的文字塊單元關系,可以得到組合好的文字塊單元組,對應圖2中,不同的文字塊單元組用不同的顔色表示。最後,利用每組文字塊單元,可以提取出對應的文字區域的外接檢測框。

Fig.3. Modified MST for text component grouping.

    本文的損失函數分為兩部分,。一部分是文字塊單元分類和回歸的損失函數,另一部分是單元關系的損失函數。這兩個函數都有一個執行個體相關的權重,該權重衡量的是對應标注框與最優檢測框的比對程度,用每個标注框與檢測框最大的的倒數表示,整個過程對應圖2的綠色虛線框,論文中稱之為Instance-aware Loss。這樣可以把後處理過程引入到網絡的訓練過程中,自适應調節每個文字區域中的文字單元和單元關系的損失函數權重,進而進一步提升文字檢測效果。

三、主要實驗結果及可視化效果

    為了驗證方法在不規則密集文本上的檢測效果,本文公開了一個商品密集行資料集DAST1500,包括1036張訓練圖檔和500張測試圖檔,利用ICDAR2015的IoU0.5的方法進行評測。

Fig. 4. Some qualitative results on DAST1500, ICDAR15 and CTW1500.

    從Table 1來看,文中的方法在商品密集行資料集DAST1500上取得了優異的性能,大幅領先同時期的其他方法。從方法自身的對比來看,在Baseline基礎上引入文字塊單元間吸引和排斥的關系表征以及Instance-aware Loss都能有效提升密集文本檢測效果。

    對于Table 2,文中的方法在ICDAR15多方向文本檢測資料集上取得較好的結果,而且檢測效率也不錯。另外對于Table 5,在CTW1500曲形文本檢測資料集上,本文的方法也取得很好的結果,優于同時期的其他方法。

    圖4展示了一些可視化的結果圖。可以看到,該方法能處理任意形狀的文本,在商品密集文本上也能取得很好的檢測效果。

四、總結及讨論

    本文提出了一種Instance-aware Component Grouping(ICG)的自下而上的文字檢測方法,實驗證明該方法在檢測不規則密集文本上的有效性和優越性。ICG中文字塊單元之間吸引和排斥關系的表征,以及對文字行執行個體敏感的Instance-aware Loss,都能夠顯著改善自下而上的文字檢測方法的檢測效果。

五、相關資源

論文連結:

https://doi.org/10.1016/j.patcog.2019.06.020

下載下傳連結:

http://www.vlrlab.net/papers/xu/icg.pdf

DAST1500資料集連結:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=12084

原文作者:Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, Xiang Bai

撰稿:湯 俊

編排:高 學

審校:殷 飛

釋出:金連文

免責聲明:

本文僅代表撰稿者觀點,個人了解及總結不一定準确及全面,論文完整思想及論點應以原論文為準。

出處: https://mp.weixin.qq.com/s/LS_8424jn_3ksemKBgg88w

繼續閱讀