雷锋网 AI 科技评论按:CapsNet 作者 Sara Sabour 联合 Geoffrey Hinton 及牛津大学研究者在最新的论文《Stacked Capsule Autoencoders》中提出胶囊网络的改进版本,该胶囊网络可以无监督地学习图像中的特征,并取得了最先进的结果。
一个物体可以看作是一组相互关联的几何组成部分,因此,一个明确利用这些几何关系来识别物体的系统,在应对视点的变化上理应具有鲁棒性,因为内在几何关系的视点是不会有变化的。
在这篇论文中,他们提出一个无监督版本的胶囊网络,通过可查看所有部件的神经编码器,进而推断物体胶囊的位置与姿势。该编码器通过解码器进行反向传播训练,通过混合式姿势预测方案来预测已发现部件的姿势。同样是使用神经编码器,通过推断部件及其仿射变换,可以直接从图像中发现具体的部件。换句话说,每个相应的解码器图像像素建模,都是仿射变换部分做出的混合预测结果。他们通过未标记的数据习得物体及其部分胶囊,然后再对物体胶囊的存在向量进行聚类。
最后,该成果在 SVHN 上获得了最先进的无监督分类结果 (55%),同时在 MNIST 上获得了接近最先进的分类结果。(98.5%)。
该胶囊网络全名 Stacked Capsule Autoencoder (SCAE),具体可分为两个阶段:Part Capsule Autoencoder(PCAE)及 Object Capsule Autoencoder (OCAE)。
PCAE 负责将图像分割成组件,借此推断其姿势,并将图像像素重构为转换后的部件模板像素的混合产物;OCAE 则试图将发现的部件及其姿势组成更小的一组对象,再结合针对每个部件的混合预测方案来解释部件的姿势。
每个物体胶囊通过将姿势-对象-视图-关系(OV)乘以相关的物体-部件-关系 (OP) 来为这些混合物提供组件。SCAE 在未经标记的数据上进行训练时借此捕获整个物体及其部件之间的空间关系。
Stacked Capsule Autoencoder (SCAE)
总的来说,该工作的主要贡献在于提出了一种全新的表示学习方法,其中高度结构化的解码器可以用来训练编码器网络,进而将图像分割成相应的部件及其姿势,而另一个编码器网络则可以将这些部件组成连贯的整体。尽管训练目标不涉及分类/聚类,但 SCAE 依然是唯一一个在无监督对象分类任务中不依赖于互信息(MI)中也能获得有竞争力结果的方法。
via https://arxiv.org/pdf/1906.06818.pdf
雷锋网 AI 科技评论 雷锋网(公众号:雷锋网)