


















1.1. 与以往综述的比较

多年来,表格分析的问题已被广泛承认。图2显示了过去48年中出版物的上升趋势,该分析值来自Scopus。已经发表了显著的表检测和表分类调查。这些调查中有关于桌子检测主题的杰出研究[28,29]。最近很少有调查专门针对表检测和分类这一主题。B、 科亚斯农[30]发表了另一篇关于表格识别和表格的评论。这篇综述简要介绍了当时最新的技术,根据我们的了解,S.Khusro[31]于次年发布了关于PDF文档中表格识别和提取的最新综述。深度学习使计算模型能够学习极其复杂、微妙和抽象的表示,从而在视觉识别、对象检测、语音识别、自然语言处理和医学图像分析等一系列问题上取得重大进展。相反,尽管已经提出了用于表识别的各种基于深度学习的算法,但我们不知道最近的任何彻底调查。为了在表检测方面取得进一步进展,需要对先前的工作进行详细的回顾和解释,特别是对于新进入该主题的研究人员。


1.2 范围




2.1 目标检测挑战


2.2 表格检测挑战





在来自前一层 l − 1 l-1 l−1 的特征图和使用2D卷积核(或滤波器或权重) w w w l 卷积的输入特征图 x x xl−1 之间。这种卷积被视为一系列受到非线性过程 σ σ σ 影响的层,因此


具有偏置项 b b blj 和 N l−1输入特征映射xl−1i与匹配核wli,j。对于每个元素,元素非线性函数 σ ( . ) σ(.) σ(.)通常是每个元素的校正线性单元(ReLU),


最后,合并是对特征图进行下采样和上采样的过程。深度卷积神经网络(DCNN)是具有大量层的神经网络,通常称为“深度”网络。CNN最基本的层由一系列特征图组成,每个特征图都作为神经元运行。一组权重wi,j将卷积层中的每个神经元连接到前一层的特征图(本质上是一组2D滤波器)。卷积和池化层构成了早期的CNN层,而随后的层通常是完全连接的。输入图像从前一层到后一层被反复卷积,感受野或支持区域随着每一层而增长。通常,第一个CNN层提取低级特征(例如边缘),而随后的层提取更加复杂的通用特征。[35, 46, 47, 36].




4.1 数据集


4.1.1 ICDAR 2013
4.1.2 ICDAR 2017 POD
4.1.3 ICDAR2019
4.1.4 TabStructDB
4.1.5. TABLE2LATEX-450K
4.1.7. IIIT-AR-13K
4.1.8. CamCap
4.1.9. UNLV Table
4.1.10. UW-3 Table
4.1.11. Marmot
4.1.12. TableBank
4.1.13. DeepFigures
4.1.14. PubTables-1M
4.1.15. SciTSR
4.1.16 FinTabNet
4.1.17. PubTabNet
4.1.18. TNCR
4.1.19 SynthTabNet

4.2 度量













Itonori[72]提出了一种基于规则的方法,该方法导致文本块排列和规则线位置,以在文档中本地化表。Chandran和Kasturi[73]开发了另一种基于垂直和水平线的表格检测方法。Wonkyo Seo等人[56]使用交叉点(水平线和垂直线的交叉点)检测和进一步处理。





Kieniger等人[80]通过聚类词段应用了一种无监督学习方法。Cesarini等人[81]使用了一种改进的XY树监督学习方法。Fan等人[82]使用有监督和无监督方法来检测PDF文档中的表。Wang和Hu[83]将决策树和SVM分类器应用于布局、内容类型和词组特征。T、 Kasar等人[84]使用连接检测,然后将信息传递给SVM分类器。Silva等人[85]将联合概率分布应用于视觉页面元素的连续观察(隐马尔可夫模型),以将潜在的表行合并到表中。Klampfl等人


F Shafait[88]提出了一种用于表识别的有用方法,该方法在具有一系列布局的文档上表现良好,包括商业报告、新闻报道和杂志页面。Teseract OCR引擎提供了算法的开源实现。


Hao等人[24]使用CNN来检测某个区域提案是否为表格。Azka Gilani等人[22]提出了一种基于更快R-CNN的模型,以弥补Hao等人[24]和其他现有方法的局限性。

Sebastian Schreiber等人[20]是第一个使用更快的RCNN执行表检测和结构识别的人。他等人[89]将FCN用于语义页面分割。S、 Arif等人[90]试图通过使用文本的语义颜色编码来提高Faster R-CNN的准确性。Reza等人[91]将基于GAN的架构组合用于表检测。

Agarwal等人[92]使用具有双主干的Mask R-CNN的多级扩展来检测表格。

最近,基于 t r a n s f o r m e r transformer transformer 的模型被应用于文档布局分析,Smock、Brandon等人[63]将Carion等人[93]DEtection transformer框架(变压器编码器-解码器架构)应用于其表数据集,用于表检测和结构识别任务。Xu等人[94]提出了一种自监督预训练文档图像变换器模型,该模型使用大规模未标记文本图像进行文档分析,包括表检测。

5.1 表格检测模型




D Prasad[95]提出了一种用于解释文档图片中的表格数据的自动表格检测方法,这主要需要解决两个问题:表格检测和表格结构识别。使用单个卷积神经网络(CNN)模型,为处理表检测和结构识别挑战提供增强的基于深度学习的端到端解决方案。CascadeTabNet是一个基于级联掩码区域的CNN高分辨率网络(级联掩码R-CNN HRNet)模型,它同时识别表区域并从这些表中识别结构体细胞。

SS Paliwal[96]提出了TableNet,它是一种用于表检测和结构识别的新的端到端深度学习模型。为了划分表和列区域,该模型使用表检测和表结构识别这两个目标之间的相关性。然后,从发现的表格子区域中,执行基于语义的行提取。

Y Huang[97]描述了一种基于YOLO原理的表检测算法。作者对YOLOv3进行了各种自适应改进,包括锚点优化技术和两种后处理方法,以解决文档对象和真实对象之间的显著差异。还使用k-means聚类进行锚点优化,以创建比自然对象更适合表的锚点,从而使我们的模型更容易找到表的准确位置。在后处理过程中,将从投影结果中删除额外的空白区域和有噪声的页面对象。

L Hao[24]提供了一种检测PDF文档中表格的新方法,该方法基于卷积神经网络,这是最广泛使用的深度学习模型之一。所建议的方法首先使用一些模糊约束选择一些类似表的区域,然后构建和细化卷积网络,以识别所选区域是否为表。


SA Siddiqui[98]为检测文档中的表提供了一种新的策略。这里给出的方法利用了数据识别任何排列的表的潜力。然而,给定的方法直接起作用在照片上,使其普遍适用于任何格式。所提出的方法使用了可变形CNN和更快速的R-CNN/FPN的独特组合。


N Sun[99]提出了一种用于更快基于R-CNN的表检测的角点查找方法。Faster R-CNN网络首先用于实现粗略的表格识别和角落定位。然后,使用坐标匹配对属于同一表的角进行分组。同时过滤不可靠的边缘。最后,匹配的角组对表格边框进行微调和调整。在像素级,所建议的技术提高了表边界查找的精度。

I Kavasidis[100]提出了一种使用深度神经网络、图形模型和显著性思想的组合来检测表格和图表的方法。M Hole´cek[101]提出了在票据等结构化文档中利用图卷积进行表理解的概念,扩展了图神经网络的适用性。计划研究中也使用了PDF文档。


ÁCasado Garc´ıa[102]使用对象检测技术,作者表明,在进行彻底检查后,从更近的域进行微调可以提高表检测的性能。作者将Mask R-CNN、YOLO、SSD和Retina Net与对象检测算法结合使用。本研究选择了两个基本数据集:TableBank和PascalVOC。

X Zheng[103]提供了全局表提取器(GTE),这是一种用于联合检测表和识别单元结构的方法,可以在任何对象检测模型之上实现。为了借助于单元格放置预测来训练他们的表格网络,作者开发了GTE表格,该表格基于表格固有的单元格限制限制引入了新的惩罚。一种称为GTE单元的新型分层单元识别网络利用了表格样式。此外,为了快速且廉价地作者建立了一个规模庞大的训练和测试数据语料库,开发了一种自动对已有文本中的表和单元格结构进行分类的方法。

Y Li[104]提供了一种新的网络,用于生成表格文本的布局元素,并增强较少规则的表格识别的性能。生成对抗网络(GAN)和该特征生成器模型是可比较的。作者要求特征生成器模型为严格管理和松散管理的表提取可比较的特征。

DD Nguyen[105]介绍了TableSegNet,这是一种具有紧凑设计的完全卷积网络,可同时分离和检测表。TableSegNet使用较浅的路径以高分辨率发现表位置,使用较深的路径以低分辨率检测表区域,将找到的区域拆分为单独的表。TableSegNet在整个特征提取过程中使用了具有广泛内核大小的卷积块,并在主输出中使用了额外的表边界类,以提高检测和分离能力。

D Zhang[106]提出了一种基于YOLO表的表检测方法。



5.2 表格结构识别模型


A Zucker[107]提出了CluSTi,一种用于识别发票扫描图像中的表结构的聚类方法,作为一种有效的方法。CluSTi做出了三项贡献。首先,它使用聚类方法来消除表格图片中的高噪声。其次,它使用最先进的文本识别来提取所有文本框。最后,CluSTi使用具有最佳参数的水平和垂直聚类技术将文本框组织成正确的行和列。Z Zhang[108]提出的拆分、嵌入和合并(SEM)是一种准确的表结构识别器。M Namysl[109]在本研究中提出了一种通用的模块化表提取方法。


E Koci[110]提供了一种新的方法,用于在确定每个单元格的布局角色后识别电子表格中的表格并构建布局区域。使用图形模型,它们表达了这些区域之间的空间相互关系。在此基础上,他们提出了移除和征服(RAC),这是一种基于一组精心选择的标准的表识别算法。

利用可变形卷积网络的潜力,SA Siddiqui[51]提出了一种分析文档图像中表格模式的独特方法。P Riba[54]在本文中提出了一种基于图形的技术,用于识别文档图片中的表格。还使用位置、上下文和内容类型,而不是原始内容(识别文本),因此这只是一种结构感知技术,不依赖于语言或文本阅读质量。E Koci[111]使用基于遗传的技术进行图形划分,以识别与表中表匹配的图形部分。

SA Siddiqui[112]将结构识别问题描述为语义分割问题。为了分割行和列,作者采用了完全卷积网络。引入了预测平铺的方法,该方法降低了表结构识别的复杂性,假设表结构中的一致性。作者从ImageNet中导入了预训练的模型,并使用了FCN编码器和解码器的结构模型。当给定图像时,模型创建与原始输入图片大小相同的特征。

SA Khan[113]在这项工作中提出了一种基于深度学习的鲁棒解决方案,用于从文档图片中的已识别表中提取行和列。在将表格图片发送到双向递归神经网络之前,使用门控递归单元(GRU)和所建议的解决方案中具有softmax激活的完全连接层对表格图片进行预处理。

SF Rashid[114]为不同文档图片中的表内容识别提供了一种新的基于学习的方法。SR Qasim[115]提出了一种基于图网络的表识别架构,作为典型神经网络的一种替代方案。S Raja[116]描述了一种用于识别表结构的方法,该方法结合了细胞检测和交互模块来定位细胞,并根据行和列预测它们与其他检测到的细胞的关系。此外,对作为额外差分分量的单元识别的损失函数添加结构限制。Y Deng[52]研究了端到端表识别的现有问题,他还强调了在这一领域需要更大的数据集。

Y Zou[117]的另一项研究呼吁开发一种使用全卷积网络的基于图像的表结构识别技术。所示的工作划分了表的行、列和单元格。所有表组件的估计边界都使用连接组件分析来增强。根据行和列分隔符的位置,然后为每个单元格分配行和列编号。此外,还使用特殊算法来优化蜂窝边界。


对表格结构进行分段的另一项工作是W Xue[119]的ReS2TIM论文,该论文描述了从表格中重建句法结构。回归每个单元格的坐标是该模型的主要目标。


C Tensmeyer[120]提出了SPLERGE(拆分和合并),这是另一种使用扩张卷积的方法。他们的策略需要使用两个不同的深度学习模型,第一个模型建立表格的网格状布局,第二个模型确定是否可以在多行或多列上进一步跨越单元格。


S Raja[121]提出了一种新的基于对象检测的深度模型,该模型专为快速优化而设计,并捕捉表格内单元格的自然排列。即使使用精确的单元格检测,密集表识别仍然可能存在问题,因为多行/列跨越单元格使得难以捕获长距离的行/列关系。因此,作者还试图通过确定唯一的基于直线图的公式来增强结构识别。作者从语义的角度强调了表中空单元格的相关性。作者建议对一个很好的评估标准进行修改,以考虑这些细胞。为了激发对这个问题的新观点,然后提供一个中等规模的评估数据集,其中包含根据人类认知建模的注释。

X Shen[122]提出了两个模块,称为“汇总行”(RA)和聚合列(CA)。首先,为了生成行和列的粗略预测并解决高误差容限问题,应用了特征切片和平铺。其次,计算通道的注意力图以进一步获得行和列信息。为了完成行分割和列分割,作者使用RA和CA构建了一个称为行和列聚合网络(RCANet)的语义分割网络。

C Ma[123]提出了RobusTabNet,这是一种识别表格结构并从各种文档图片中检测其边界的新方法。作者建议使用CornerNet作为一个新的区域建议网络,为Faster-R-CNN生成更高质量的表格建议,这大大提高了Faster R-CNN用于表格识别的定位精度。通过仅利用最小的ResNet-18骨干网络。

此外,作者还提出了一种新的拆分和合并方法来识别表结构。在该方法中,使用新的空间CNN分离线预测模块将每个检测到的表划分为网格单元,然后使用网格CNN单元合并模块来恢复生成单元。他们的表格结构识别器可以准确地识别具有显著空白区域的表格和几何变形(甚至弯曲)的表格,因为空间CNN模块可以在整个表格图片中有效地传输上下文信息。B Xiao[124]假设一个复杂的表结构可以用一个图来表示,其中顶点和边代表单个单元格及其之间的连接。

然后,作者设计了一个条件注意网络,并将表结构识别问题描述为细胞关联分类问题(CATT Net)。


H Li[126]将该问题表述为细胞关系提取挑战,并提供T2,一种成功地从数字保存的文本中提取表结构的尖端两阶段方法。T2提供了一个广泛的概念,称为一个基本连接,它准确地表示细胞之间的直接关系。为了找到复杂的表结构,它还构建了一个对齐图并使用消息传递网络。








