天天看点

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

  通常的,元学习可以被在多个任务(task)上训练以期望能够泛化到一个新的task。然而当在现有的task上过度地学习(过拟合),在新的task泛化能力会变差。换句话说,初始的meta-learner在现有的task上会学习到有偏的知识(bias),特别是样本数量非常少的情况下。为了避免在样本数量非常少时,meta-learner会学习到有偏的信息,本文提出一种Task-Agnostic Meta-Learning(TAML,与Task无关的元学习)。方法简单描述为:

我们提出了一种基于熵的方法(entropy-based),该方法通过防止在分类任务中表现不佳而对输出标签具有最大不确定性的无偏初始模型进行元学习。 或者,通过在可以定义合适损失的分类任务之外直接最小化初始损失的不平等,针对更普遍的情况提出了更通用的不平等最小化TAML。

动机:

(1)我们期望学习器(Learner)可以通过少量样本进行学习并很好地适应到新的多变的任务。

(2)最近元学习(meta-learning)被用来解决小样本学习的问题(few-shot problem),元学习模型通常包含两个部分,分别是初始模型(initial model)和可以在少量新的任务上进行训练的更新策略(updating strategy)。元学习的目标是自动地meta-learn更新两个部分的参数以在新的一系列task上实现泛化能力;

(3)元学习现阶段的一个问题是:训练的initial model在多个task可能学习有偏的信息,特别是在样本采样阶段:

The problem with existing meta-learning approaches is that the initial model can be trained biased towards some tasks, particularly those sampled in meta-training phase. Such a biased initial model may not be well generalizable to an unseen task that has a large deviation from meta-training tasks, especially when very few examples are available on the new task.

  因此这促使我们希望学习到一个无偏的meta-learner,使得避免在某些task上学习的过好,直接降低每个task之间的训练效果的不平衡性。

贡献:

  我们提出两个新的方法:

(1)基于entropy的TAML方法:使用熵可以最大化initial model预测的类标签的不确定性来避免在某些任务上学习过度;

(2)第二种范式是受到经济学中使用的不平等测度的启发。 对初始模型进行元训练,使其在各种任务中直接最小化初始模型所造成的损失不平等。 这将迫使元学习者学习一个没有偏见的初始模型,而不会在某些特定任务上表现过度。 同时,涉及的任务可以采用任何形式的损失,而不必依赖离散的输出。 这使该范式在分类任务之外的许多场景中更加普遍。

相关工作:

  现阶段基于深度学习的元学习大概分为两种:

(1)learning hand-designed optimizer。

  • 基于LSTM的元学习:

LSTM based meta-learner approach in which LSTM meta-learner takes the gradient of

a learner and proposed an update to the learner’s parameters.

  • MAML:
It trains a model on a variety of tasks to have a good initialization point that can be quickly adapted (few or one gradient steps) to a new task using few training examples
  • 时空卷积+注意力机制 SNALI

(2)基于记忆单元的元学习(memory augmented neural network):学习到现有的task的知识并保存在记忆单元里(可以是LSTM,或者是前馈网络)

(3)非meta-learning方法,例如基于相似度的方法匹配新的样本与现有的样本。

方法:(TAML)

Entropy-Maximization/Reduction TAML

  该部分,作者通过熵的方法来避免模型学习到有偏信息。主要体现在最大化initial model学习之前的任务之间的熵,最小化initial model训练之后label之间的熵。

(1)为了防止初始模型 f _ θ f\_{\theta} f_θ 在任务上表现过度,我们更希望它以相等的概率对预测的标签进行随机猜测,以使它不会偏向任务。 这可以表示为在 θ \theta θ 之前的最大熵,因此initial model在来自任务 T _ i T\_i T_i 的样本上的预测标签上应具有较大的熵。

  熵计算公式如下,表示任务 T i T_i Ti​在initial model训练之前的熵,其表示该任务下各个样本的对数熵的和。

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

(2)当initial model学习之后,我们更希望对于在任务 T i T_i Ti​ 学习得到的参数变化 θ → θ i \theta \rightarrow \theta_i θ→θi​ 是更确信的,即此时的熵应该是最小化

因此有最小化下面的目标函数:

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

对于每个task T i T_i Ti​ ,第一项表示传统的损失函数,用于最小化真实标签与预测标签之间的“度量距离”;第二项则表示最大化initial model训练之前(参数为 θ \theta θ 时)的熵,第三项表示最小化initia model 训练之后(参数变为 θ → θ i \theta \rightarrow \theta_i θ→θi​时)的熵。

算法如下所示。这个算法说明,initial model( θ \theta θ)在训练之前,要尽可能对所有task一视同仁(熵最大时等同于均匀采样,相当于一视同仁),而当在某个task训练之后,得到的initial model( θ i \theta_i θi​)时,此时的熵应该最小,因为当前模型是在具体某个任务上训练的。因此,当学习到下一个 initial model( θ \theta θ)时,模型依然保持对各个task的平等性。

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

Inequality-Minimization TAML

如果initial model在各个task上训练得到的loss类比为经济学中的收入(income),为了避免学习有偏,不同task之间的loss尽可能平衡,因此直接最小化task之间的loss不平衡性即可。

目标函数如下所示:

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

第一项表示initial model在所有task T i T_i Ti​的样本上训练后的损失函数的期望,第二项则表示所有task之间的的不平衡性。如何定义不平衡性?作者挑选了几个公式。

论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)
论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)论文解读:Task Agnostic Meta-Learning for Few-shot Learning(TAML)

继续阅读