深度学习的新范式

redunet 论文第一部分摘录

1.1

基于数据压缩和表示的新理论框架。

我们的方法在很大程度上偏离了上述努力。现有的理论工作大多将深层网络本身作为研究对象。他们试图通过检查深层网络拟合特定输入输出关系的能力(对于给定的类标签或函数值)来理解深层网络为什么工作。然而,在这项工作中,我们主张将研究的注意力转移回数据上,并试图理解深层网络应该做什么。我们从一个基本问题开始调查:我们到底想从数据中学到什么,了解什么?随着目标的明确,也许具有所有特征的深层网络只是实现这一目标的必要手段。更具体地说,在本文中,我们围绕以下两个问题开发了一个理解深层网络的新理论框架:

1. 表征学习的目标:我们应该学习数据的哪些内在结构,以及我们应该如何表征这些结构?什么是有原则的目标函数来学习这种结构的良好表示,而不是启发式或任意选择? 2. 深度网络的体系结构:我们能从这样一个原则来证明现代深度网络的结构吗?特别是, 网络的分层架构和操作符(线性或非线性)是否都可以从这个目标中导出,而不是启发式设计和经验评估? 本文将对上述问题提供积极和建设性的答案。我们认为,至少在分类设置中,深度网络的原则目标是学习数据的低维线性判别表示(第 1.3 节)。这种表示的最优性可以通过(有损)数据压缩的原则度量来评估,称为速率降低(第 2 节)。深层网络自然可以被解释为最大化这一措施的优化方案(第 3 和第 4 节)。这一框架不仅为理解和解释现代深层网络提供了新的视角,还提供了新的见解,有可能改变和改进深层网络的实践。例如,产生的网络将完全是一个“白盒”,来自随机初始化的反向传播不再是训练网络的唯一选择(正如我们将在第 5 节通过大量实验验证的那样)

1.2.1

为了解决这个问题,我们的框架使用标签 y 作为唯一的辅助信息来帮助学习多样的但不同的(不是最小的)表示;这些表示基于速率降低原理优化了不同的内在目标。

为了更好地表示给定的数据,人们努力在表示的紧凑性和区分性之间取得一定的平衡。压缩学习旨在压缩整个集成的特征,而压缩学习扩展任何样本对的特征。因此,尚不完全清楚为什么这两种看似相反的启发式方法似乎有助于学习好的特性。有没有可能两种机制都需要,但各自作用于数据的不同部分? 正如我们将要看到的, 通过明确指定压缩(或收缩)每个类中相似的特征,而扩展(或对比)多个类中所有特征的集合,速率降低原则精确地调和了这两个看似矛盾的目标之间的紧张关系。

1.2.2

然而,仍然不清楚为什么高级分类任务需要这种低级稀疏编码。此外,很难将卷积网络解释或导出为某种展开的稀疏编码算法。在很大程度上,这项工作将解决这个问题,并揭示一些根本稀疏编码和深度表示学习之间的关系。

这项工作展示了如何以正向方式构建一个数据依赖的深度卷积网络,从而得到一个直接有利于分类任务的区别性表示。

1.3

一个流行的工作假设是,每个类的分布都有相对低维的内在结构。这个假设之所以看似合理,有几个原因:1)。高维数据是高度冗余的;2). 属于同一个类的数据应该是相似的,相互关联的;3). 典型地,我们只关心 x 的等价结构,这些结构对于某些类型的变形和扩充是不变的

我们要求我们所学的表征具有以下性质,称为线性判别表征(LDR):

1. 类内可压缩性:从属于低维线性子空间的意义上说,来自同一类/聚类的样本的特征应该是相对相关的。

2. 类间区别性:来自不同类/聚类的样本的特征应该是高度不相关的,并且属于不同的低维线性子空间。

3. 多样化表示:每个类别/聚类的特征的维度(或方差)应该尽可能大,只要它们与其他类别保持不相关。

不像线性判别分析(或类似的 SVM),这里我们不直接寻求一个判别(线性) 分类器。相反,我们使用非线性变换来寻找数据的线性鉴别表示(LDR),使得表示所有类的子空间是最不相干的。由此产生的多个子空间{Sj}可以被视为独立的成分(Hyv arinen 和 Oja,2000)或广义主成分(Vidal 等人。2016)

在这项工作中,为了从高维数据中学习内在低维结构的有区别的线性表示,我们提出了一种信息论方法,该方法最大化整个数据集和每个单独类的和之间的编码速率差,称为速率降低。这一新目标为上述目标提供了统一的观点,如交叉熵、信息瓶颈、压缩和对比学习。我们可以严格地证明,当这个目标被优化时,最终的表示确实具有上面列出的所有期望的属性。

1.4

在本文中,我们试图通过从第一性原理推导出一类深层(卷积)网络来提供上述问题的一些答案,并对深层神经网络提供一个恰当的解释。我们认为,现代深度(卷积)神经网络的所有关键特征和结构可以自然地从优化速率降低目标中导出,该目标寻求数据的最佳(不变)线性区别表示。更具体地说,用于优化该目标的基本迭代投影梯度上升方案自然采用深度神经网络的形式,每次迭代一层。

这种有原则的方法带来了几个惊喜:首先,网络的架构、操作者和参数可以一层一层地以向前的方式明确构建时尚,所有继承精确优化,统计和几何解释。因此,如此构建的“白盒”深度网络已经为给定的数据提供了真正不变的和有区别的表示,即使没有任何反向传播训练(见第 3 节)。然而,如此获得的网络实际上可以通过反向传播来进一步微调,以获得更好的性能,正如我们的实验将显示的那样。第二,在寻求一个对移位或平移严格不变的表示的情况下,该网络自然适合于多信道卷积网络(见第 4 节).此外,推导表明,这种卷积网络在频谱(傅立叶) 域构建时计算效率更高,类似于视觉皮层中的神经元如何用尖峰编码和传输信息(埃利史密斯和安德森,2003;Belitski 等人, 。2008).

代码默认训练效果如下：

增加训练层数后，下面的效果跟论文提到的效果类似了。

欢迎一起改进应用；阅读原文观看视频等更多