天天看点

文字检测算法——EAST阅读笔记AbstractIntroductionRelated WorkMethodology

多种文本检测算法性能对比及算法介绍

(https://blog.csdn.net/qq_39707285/article/details/108754444)

论文题目:EAST: An Efficient and Accurate Scene Text Detector

DATA:2017年7月10日

Abstract

之前的文字检测算法在处理较难的场景时往往会出错,即使是使用了深度学习算法的也表现的不好,因为这些算法由多个步骤组成,不仅耗时,表现还不好。本文提出了一个简单的能够快速准确定位场景文字的算法,改算法直接预测任意形状或矩形word或者行文本。在 ICDAR 2015, COCO-Text and MSRA-TD500数据集上都领先于之前的算法,在ICDAR 2015数据集上,该算法在720p的图片上以13.2fps的速度得到了0.7820的F-score。

文字检测算法——EAST阅读笔记AbstractIntroductionRelated WorkMethodology

Introduction

该算法有三大贡献:

  1. 该算法有两部分组成,第一部分是全卷机网络,直接预测文本区域,另一部分是NMS合并,把检测的结果通过nms合并成最终结果
  2. 改算法无论是单词还是行文本都可以预测,形状可以是旋转的boxes or quadrangles
  3. 无论在速度还是精度上都领先于之前的算法

Related Work

之前的算法大部分由多步组成,例如去除假阳、候选聚合、线和行的组成等,如图2(a-d)所示。这些方法需要不断的进行微调,导致效果一般,并且处理时间增加。

文字检测算法——EAST阅读笔记AbstractIntroductionRelated WorkMethodology

Methodology

该模型直接利用全卷机神经网络输出密集的像素级别detection来预测文本,省去了候选方案、文本区域形成和单词划分等交互步骤,预处理步骤仅包括阈值设置和nms。把改算法称之为EAST,since it is an Efficient and Accuracy Scene Text detection pipeline。

Pipeline

FCN的第一个输出通道是score map,每个score值限定在[0,1],其余的通道代表从每个像素的视图中包围该单词的几何形状,这个分数代表在同一地点预测的几何形状的置信度。

检测不同文本形状有两种形式, rotated box (RBOX) and quadrangle (QUAD),使用了不同loss函数,每一个预测结果大于某个阈值的进入下一步nms处理,nms处理结果作为最终的输出。

继续阅读