天天看点

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

From Caption to Visual Concepts and Back-CVPR2015原文翻译

  • 摘要
    • 1.概要
    • 2.相关工作
    • 3.文字检测
      • 3.1TrainingWord检测器
      • 3.2生成测试图像的分数
    • 4.语言生成
      • 4.1统计模型
      • 4.2 生成过程
    • 5.句子重新排名
      • 5.1 深层多模态相似模型
    • 6.实验结果
      • 6.1 数据集
      • 6.2 单词检测
      • 字幕生成

摘要

本文介绍了一种自动生成图像描述的新方法:直接地从图像captions数据集中学习的视觉检测器(visual detectors),语言模型(language models)和多模态相似性模型(multimodal similarity models)。我们使用多示例学习来训练视觉检测器来识别标题中常见的单词,包括许多不同的词性,如名词、动词和形容词。单词检测器输出用作最大熵语言模型的条件输入。语言模型从一组超过400,000个图像描述中学习,以捕获单词使用的统计数据。我们通过使用句子级特征和深度多模态相似性模型对标题候选词进行重新排序来捕获全局语义。我们的系统在Microsoft COCO的官方基准测试中是最先进的,BLEU-4的得分为29.1%。当人类裁判将系统字幕与我们的测试集中其他人编写的系统字幕进行比较时,系统字幕在34%的情况下具有相同或更好的质量。

1.概要

机器什么时候“理解”图像?一个定义是,当它可以生成一个新的标题,总结图像中的突出内容。这些内容可能包括当前的对象、它们的属性或它们之间的关系。确定突出的内容不仅需要知道图像的内容,还需要通过常识推断出场景的哪些方面可能是有趣的或新颖的[51,5,8]。

本文描述了一种从样本生成图像标题的新方法。我们从图像数据集和相应的图像描述中训练我们的字幕生成器。以前生成图像标题的方法依赖于从单独的手工标记的训练数据中学习的对象,属性和关系检测器。

在训练中直接使用字幕有三个明显的优点。 首先,字幕只包含本质上突出的信息。 例如,从带有“dog”字样的图片中训练出来的狗狗检测器,会偏向于检测突出的狗狗,而不是背景中的狗狗。 图像描述还包含各种单词类型,包括名词,动词和形容词。 因此,我们可以学习各种概念的探测器。 虽然一些概念,例如riding或beautiful,可能难以抽象地学习,但这些术语可能与特定的视觉模式高度相关(例如马上的人或日落时的山脉)。

其次,在图像标题上训练语言模型(LM)可以捕获关于场景的常识。 语言模型可以了解一个人更可能坐在椅子上而不是站在椅子上。 该信息消除了噪声视觉检测的歧义。

第三,通过学习图像及其字幕的联合多模态表示,我们能够测量图像和文本之间的全局相似性,并为图像选择最合适的描述。

图一,过程示例

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

我们的方法概述如图1所示。首先,我们使用弱监督学习为图像标题中常见的一组单词创建检测器。 直接从图像标题中学习很困难,因为系统无法访问其他数据集中的监视信号,比如对象边界框[11,7]。许多单词,例如,crowded或inside,甚至没有明确定义的边界框。 为了克服这个困难,我们使用了三个想法。 首先,系统使用图像子区域而不是完整图像。 接下来,我们使用丰富的卷积神经网络(CNN)功能对这些区域进行特征化,并根据我们的训练数据进行微调[21,42]。 最后,我们将每个区域的特征映射到可能包含在标题中的单词。 我们使用多个实例学习(MIL)[30,49]训练这个map,它学习每个单词的判别性视觉签名。

从一袋可能的单词生成新颖的图像描述需要有效的LM。 在本文中,我们将字幕生成视为优化问题。 在这个视图中,核心任务是取一组单词检测分数,并找出恰好覆盖每个单词一次的可能性最高的句子。我们从一组训练图像描述中训练最大熵(ME)LM [2,40]。 该训练通过语言统计学获取有关世界的常识知识[3]。 对单词序列进行显式搜索可以有效地找到高可能性的句子。

系统的最后阶段(图1)通过句子特征的线性加权对一组高可能性句子进行重新排序。 使用最小错误率训练(MERT)[35]学习这些权重。 除了一些常见的句子特征外,我们还引入了一个基于深度多模态相似模型(DMSM)的新特征。DMSM学习了两个神经网络,它们将图像和文本片段映射到一个公共的向量表示,在这个向量表示中,可以很容易地测量句子和图像之间的相似性。正如我们所演示的,DMSM的使用显著地改进了高质量句子的选择。

为了评估自动字幕的质量,我们使用了三个易于计算的指标,以及在Amazon的Mechanical Turk (AMT)上由人类受试者进行的更好/更差/相等的比较。评估是在具有挑战性的Microsoft COCO数据集[28,4]上进行的,该数据集包含多个对象的复杂图像。在82,783张训练图像中,每张图像都有5个人类注释说明。为了衡量我们句子的质量,我们使用了流行的BLEU[37]、METEOR[1]和PPLX指标。令人惊讶的是,基于BLEU指标,我们发现我们生成的字幕优于人类;当对来自COCO 数据集评估服务器上未显示的测试数据进行评估时,这种效果仍然存在,BLEU-4达到29.1%,而人类达到21.7%。人类对我们的测试集进行评估时,有34%的时间我们的字幕被判断为与人类的质量相同或更好。我们还将PASCAL语句数据集[38]与以前的工作进行了比较,并显示了与以前工作的显著改进。我们的结果证明了直接在图像标题上训练视觉检测器和LMs的实用性,以及使用全局多模态语义模型来重新排列标题候选项。

2.相关工作

有两种经过深入研究的自动图像字幕方法:检索现有的人工字幕和生成新的字幕。最近的基于检索的方法使用神经网络将图像和文本映射到一个公共向量表示[43]。其他基于检索的方法使用相似度度量,采用预定义的图像特征[15,36]。Farhadi等人将图像和文本都表示为基于语言驱动的语义三元组,并计算该空间中的相似度。在神经网络[19]的背景下,对句子和图像进行了相似的细粒度分析。

基于检索的方法总是返回格式良好的人工书写字幕,但这些字幕可能无法描述对象的新组合或新场景。 这种限制激发了大量关于生成方法的工作,生成方法首先分析图像并检测对象,然后生成新颖的字幕。 以前的工作在生成过程中利用了句法和语义约束[32,48,26,23,22,47],并且我们在这一系列工作中与现有技术进行了比较。 重点研究了基于最大似然估计的句法结构生成新句子的Midge系统; 并且定性地与Baby Talk系统[22]进行比较,该系统通过用从预测最可能的图像标记的条件随机字段中选择的单词填充句子模板槽来生成描述。 这两种系统都使用相同的测试语句集,使得直接比较成为可能。

最近,研究人员探索了使用图像指导语言模型的纯粹统计方法。 Kiros等人[20]使用了一个带有来自图像的偏置特征的对数双线性模型来对基于图像的文本进行建模。 与此相关的还有几篇同时期的论文[29,45,6,18,9,46,25]。 其中,共同的主题[29,45,6,18]是利用一个递归神经网络来生成图像标题,它将输出条件设置为卷积神经网络提取的图像特征。 最近,Donahue等人 [9]也将类似的模型应用于视频描述。 Lebret等人[25]研究了使用基于短语的模型来生成字幕,而Xu等人 [46]则提出了一个基于视觉注意力的模型。

与这些方法不同,在这项工作中,我们通过将CNN应用于图像区域[13]并将信息与MIL [49]相结合来检测单词。 我们通过直接从字幕训练来最小化关于如何构造句子的先验假设。 最后,与[20,29]相比,我们将生成问题表述为优化问题并搜索最可能的句子[40]。

3.文字检测

我们的字幕生成管道的第一步检测到一组可能是图像描述的一部分的单词。 这些单词可能属于任何词性,包括名词,动词和形容词。 我们使用训练字幕中的1000个最常用单词来确定我们的词汇表V,这些单词覆盖了训练数据中92%以上的单词出现(可在项目网页上获得.)。

3.1TrainingWord检测器

给定单词的词汇表,我们的下一个目标是从图像中检测单词。我们不能使用标准的监督学习技术来学习检测器,因为我们不知道与单词对应的图像边界框。事实上,许多单词都与边界框可能不容易定义的概念有关,比如open或beautiful。一种可能的方法是使用图像分类器作为整个图像的输入。正如我们在第6节中所展示的,这将导致更糟糕的性能,因为许多单词或概念只适用于图像子区域。相反,我们使用多实例学习(MIL)的弱监督方法来学习检测器[30,49]。

对于每个字 w ∈ V w\in V w∈V,MIL作为边界框的“positive”和“negative” bags的输入集,其中每个bag对应于一个图像i。 如果单词w在图像i的描述中,则bag bi被认为是positive,否则是negative。 直观地,MIL通过在positive bags中迭代选择实例来执行训练,然后使用更新的positive标签重新训练检测器。

我们使用MIL [49]的noisy-OR版本,其中包含单词w的bag bi的概率是根据袋中的各个实例的概率计算的:

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

其中 p i j w p_{ij}^{w} pijw​,.是图像i中给定图像区域j对应的概率单词w。 我们使用多层架构[21,42] 计算 p i j w p_{ij}^{w} pijw​,通过计算fc7层之上的逻辑函数(这可以表示为完全连接的fc8层,后面跟着一个sigmoid层):

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

其中 ϕ ( b i j ) \phi(b_{ij}) ϕ(bij​)是图像i中图像区域j的fc7表示,并且 v w v_{w} vw​, u w u_{w} uw​是与单词w相关联的权重和偏差。

我们将这些网络的全连接层(fc6,fc7,fc8)表示为卷积以获得全卷积网络。当这个全卷积网络在图像上运行时,我们获得粗略的空间响应图。该响应图中的每个位置对应于通过将原始CNN应用于输入图像的重叠移位区域而获得的响应(从而有效地扫描图像中的不同位置以寻找可能的对象)。我们对图像进行采样以使较长边为565像素,这为我们提供了[12,42]的12x12响应图,并且对应于在上采样图像中滑动224 x224边界框。然后在该响应图的顶部实现MIL的noisy-OR版本,以为每个图像的每个字生成单个概率 p i w p_{i}^{w} piw​。我们使用交叉熵损失并使用随机梯度下降来优化CNN端到端的任务。我们在每批中使用一个图像并训练3个时期。在初始化时,我们使用了在ImageNet[7]上预先训练的网络。

3.2生成测试图像的分数

给定新颖的测试图像i,我们通过CNN对图像进行上采样并向前传播,得到如上所述的 p i w p_{i}^{w} piw​。 我们对词汇表V中的所有单词w执行此操作。请注意,所有单词检测器都经过独立训练,因此需要校准其输出。 为了校准不同探测器的输出,我们使用图像水平似然 p i w p_{i}^{w} piw​来计算训练数据的一个给定子集的精度[14]。 我们将该精度值阈值设定为全局阈值 τ \tau τ,并输出具有或更高精度的所有单词 V n o t V^{not} Vnot以及图像水平概率 p i w p_{i}^{w} piw​和原始分数 m a x j p i j w max_{j}p_{ij}^{w} maxj​pijw​。

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

图2显示了一些MIL检测示例。 对于每个图像,我们可视化空间响应图pw ij。 请注意,该方法尚未使用任何边界框注释进行训练,但仍能够可靠地本地化对象,并且还能够将图像区域与更抽象的概念相关联。

4.语言生成

我们将生成过程描述为根据一组视觉检测到的单词搜索最可能的句子。语言模型是这个过程的核心,因为它定义了单词序列的概率分布。 注意,尽管LM是一个统计模型,但它可以编码非常有意义的信息,例如,running更可能跟随horse而不是taking。 这些信息可以帮助识别错误的单词检测并编码一种常识性知识。

4.1统计模型

为了生成图像的候选字幕,我们使用了基于视觉检测的单词集为条件的最大熵(ME)LM。 ME LM估计单词 w l w_{l} wl​ 前面的单词w1, w2… w l − 1 w_{l-1} wl−1​为条件的概率,以及句子中尚未提及的具有高可能性检测的字组 V l n o t ∈ V n o t V_{l}^{not}\in V^{not} Vlnot​∈Vnot。 对未使用的单词进行调节的动机是鼓励使用所有单词,同时避免重复。 前15个最频繁的封闭类单词从集合 V n o t V^{not} Vnot中移除,因为它们几乎在每个图像中被检测到(并且由LM简单地生成)。应该注意,检测到的单词通常有噪声。 因此,当正在预测句子结束时,剩余单词的集合仍然可以包含具有高置信度的一些单词。

根据ME LM [2]的定义,以前的单词和剩余对象为条件的单词概率可以写成:

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

其中 < s > <s> <s>表示句子开头标记, w j ∈ V w_{j}\in V wj​∈V和 < / s > </s> </s>的并集,并且 f k ( w l , . . . , w 1 , V l − 1 n o t ) f_{k}(w_{l},...,w_{1},V_{l-1}^{not}) fk​(wl​,...,w1​,Vl−1not​)和 λ k \lambda_{k} λk​分别表示第k个最大熵特征和它的重量。 我们使用的基本离散ME特征总结在表1中。这些功能构成了我们的“基线”系统。 事实证明,通过“分数”特征对其进行扩展是有效的,该特征根据相应的视觉检测器评估单词的对数似然性。 我们还尝试了遥远的双字母特征[24]和连续空间对数双线性特征[33,34],但是虽然这些改进了PPLX,但它们没有改善BLEU,METEOR或人类偏好,并且空间限制排除了进一步的讨论。

为了训练ME LM,目标函数是以相应的检测对象集合为条件的字幕的对数似然,即:

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

其中上标(s)表示训练数据中句子的索引,#(s)表示句子的长度。采用噪声对比估计(NCE)技术,避免了(3)[34]中精确分母的计算,加快了训练速度。在生成过程中,我们使用了非标准化的NCE似然估计,它比精确的似然度要有效得多,并且产生非常相似的输出。然而,我们报告的所有PPLX数字都是通过穷举归一化计算得到的。ME特性在散列表中实现,就像在[31]中一样。在我们的实验中,我们在NCE训练中使用了多达4克的N-gram特征和15个对比样本。

4.2 生成过程

在生成期间,我们执行类似于[39]中使用的从左到右的波束搜索。 这保持了一堆长度为l的部分假设。 在搜索的每个步骤中,堆栈上的每个路径都使用一组可能的单词进行扩展,并且存储所得到的长度l + 1个路径。 顶部k长度l + 1路径被保留,其他路径被修剪掉。

我们将可能的扩展定义为句子结尾标记,100个最常用的单词,仍然需要提及的属性单词集,以及训练数据中观察到的最后一个单词的所有单词 在假设中的单词。 修剪基于部分路径的可能性。 生成时,将从堆栈中删除的完整路径,并将其作为完整的句子放置。这个过程一直持续到达到最大句长L为止。

在获得完成的句子集合C之后,我们形成如下的M-best列表。 给定要提及的T个图像属性的目标数量,将覆盖至少T个对象的C中的序列添加到M-best列表,按照对数似然性的降序排序。 如果少于M个序列覆盖C中发现的至少T个对象,我们将T减少1直到找到M个序列。

5.句子重新排名

我们的LM产生了一组M最好的句子。 我们的最后阶段使用MERT [35]来重新排列M个句子。 MERT使用在整个句子上计算的特征的线性组合,如表2所示.MERT模型在使用BLEU度量的验证集的M-best列表上进行训练,并应用于测试集的M-best列表。 最后,选择重新排序后的最佳序列作为图像的标题。 除了标准的MERT功能外,我们还引入了一种新的多模态语义相似度模型,如下所述。

5.1 深层多模态相似模型

为了对图像和文本之间的全局相似度进行建模,我们建立了一个深度多模态相似度模型(DMSM)。 DMSM学习两个神经网络,将图像和文本片段映射到公共矢量表示。 我们通过测量相应矢量之间的余弦相似性来测量图像和文本之间的相似性。 MERT使用该余弦相似性得分来重新排列句子。 DMSM与单峰深度结构化语义模型(DSSM)密切相关[16,41],但将其扩展到多模式设置。 最初提出DSSM来模拟文本搜索查询和文档之间的语义相关性,并且在该工作中扩展DSSM以通过从深度卷积网络计算的图像向量替换原始DSSM中的查询向量。

DMSM由一对神经网络组成,一个神经网络用于将每个输入模态映射到公共语义空间,这些网络是联合训练的。在训练中,数据由一组图像/字幕对组成。在训练期间最小化的损失函数表示给定相应图像的标题的负对数后验概率。

图像模型:我们使用与第3节中检测单词相同的CNN(AlexNet / VGG)将图像映射到语义向量。我们首先对COCO数据集上的网络进行微调,以获得预测图像中出现的单词的完整图像分类任务 字幕。 然后,我们从精细网络中提取出fc7表示,并在该表示的顶部堆叠三个具有tanh非线性的其他完全连接的层,以获得与文本模型的最后一层相同大小的最终表示。 我们在DMSM训练中学习这些附加的全连接层中的参数。

文本模型:DMSM的文本部分以与原始DSSM中相同的方式将文本片段映射到语义向量。 通常,文本片段可以是完整标题。 在[16]之后,我们将标题中的每个单词转换为字母 - 三元组计数向量,该向量使用依赖于上下文的字母的计数分布来表示单词。 这种表示的优点是减小了输入层的大小,同时很好地推广了不常见,看不见和拼写错误的单词。 然后在[41]之后,该表示通过深度卷积神经网络向前传播,以在最后一层产生语义向量。

目标和训练:我们将相关性R定义为图像或查询(Q)与文本片段或文档(D)之间的余弦相似度,基于它们使用图像和文本模型获得的 y Q y_Q yQ​和 y d y_d yd​: R ( Q , D ) = c o s i n e ( y Q , y D ) = ( y Q T , y D ) / ∣ ∣ y Q ∣ ∣ ∣ ∣ y D ∣ ∣ R(Q,D)= cosine(y_Q,y_D)=(y_{Q^T},y_D)/||y_Q|| ||y_D|| R(Q,D)=cosine(yQ​,yD​)=(yQT​,yD​)/∣∣yQ​∣∣∣∣yD​∣∣。 对于给定的图像 - 文本对,我们可以通过以下方式计算文本与图像相关的后验概率:

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

这里 γ \gamma γ是使用验证集确定的平滑因子,在我们的实验中为10。

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

表示应与查询(图像)进行比较的所有候选文档(字幕)的集合。 我们发现,将

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

限制为一个匹配文档 D + D^+ D+和固定数量N的随机选择的非匹配文档 D − D^- D−工作得相当好,尽管使用噪声对比估计可以进一步改善结果。 因此,对于每个图像,我们选择一个相关的文本片段和N个非相关片段来计算后验概率。 在我们的实验中N设定为50。 在训练期间,我们调整模型参数 Λ \Lambda Λ以最小化相关标题与图像匹配的负对数后验概率:

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

6.实验结果

接下来我们将描述用于测试的数据集,然后评估我们的单词检测方法和句子生成的实验结果。

6.1 数据集

我们的大多数结果都在Microsoft COCO数据集[28,4]中报告。 该数据集包含82,783个训练图像和40,504个验证图像。 由于大多数图像包含多个对象和重要的上下文信息,因此图像为图像字幕创建了具有挑战性的测试平台。 COCO数据集为每个图像提供5个人类注释标题。 测试注释不可用,因此我们将验证集拆分为验证和测试集4。

为了与之前的论文进行实验比较,我们还报告了PASCAL句子数据集[38]的结果,其中包含来自2008年VOC挑战赛[11]的1000张图像,每张图片有5个人物标题。

6.2 单词检测

为了深入了解我们使用MIL进行单词检测的弱监督方法,我们测量其在单词分类任务中的准确性:如果在至少一个地面实况标题中使用了一个单词,则将其作为正面实例包含在内。 请注意,这是一项具有挑战性的任务,因为概念上类似的单词是分开分类的; 例如,单词cat / cats / kitten,或run / ran / running都对应于不同的类。 试图增加进一步的监督,例如以引理的形式,并没有带来显着的成果。

表3中显示了不同词性的人类回忆的平均精度(AP)和精确度(PHR)[4]结果。我们报告了两个基线。 第一个(机会)是随机分类每个单词的结果。 第二个(分类)是整个图像分类器的结果,它使用来自AlexNet或VGG CNN的特征[21,42]。 使用逻辑回归损失对这个单词分类任务进行了微调。

如表3所示,MIL NOR方法改进了所有词性的两个基线,证明更好的本地化可以帮助预测单词。 实际上,我们观察到名词和形容词的最大改进,这些改进通常对应于图像子区域中的具体对象。 分类和MIL NOR的结果对于可能在视觉上信息量较少且难以检测的词性较低,例如形容词(例如,少数,AP为2.5),代词(例如,他自己,具有AP的 5.7)和介词(例如,之前,AP为1.0)。 相比之下,具有高AP分数的单词通常具有视觉信息(红色:AP 66.4,她:AP 45.6)或与特定对象相关联(极地:AP 94.6,填充:AP 74.2)。 证明词定位的定性结果显示在图2和3中。

字幕生成

接下来我们将对评估指标的简短讨论开始描述我们的字幕生成结果。

度量标准:使用自动度量和人工研究来衡量句子生成过程。 我们使用三种不同的自动指标:PPLX,BLEU [37]和METEOR [1]。 PPLX(困惑)测量语言模型的不确定性,对应于在给定语言模型的情况下编码每个单词需要多少位。 较低的PPLX表示更好的分数。 BLEU [37]被广泛用于机器翻译并测量假设与参考或参考组之间共同的N-gram(最多4克)的分数; 这里我们比较4个随机选择的参考文献。 METEOR [1]测量单字组精度和召回,扩展精确的单词匹配,包括基于WordNet同义词和词干标记的类似单词。 我们还报告了从MSCOCO字幕挑战中获得的指标的表现,其中包括BLEU-1到BLEU-4,METEOR,CIDEr [44]和ROUGE-L [27]的得分。

众所周知,所有这些自动指标都与人类判断大致相关[10]。因此,我们将人工评估纳入其中,以进一步探索模型的质量。每个任务都呈现一个人(Mechanical Turk工人),其中包含一个图像和两个标题:一个是自动生成的,另一个是人物标题。要求人选择哪个标题更好地描述图像,或者当它们具有相同质量时选择“相同”选项。在每个实验中,要求250个人每个比较20个字幕对,并且5个人判断每个字幕对。我们使用Crowdflower,它会自动过滤掉垃圾邮件发送者。字幕的排序是随机的,以避免偏见,我们包括四个检查案例,答案是已知和明显的;错过任何这些人的工人被排除在外。最终判决是5人的判决的多数票。在关系中,一半的计数分配给两个最佳答案。我们还通过获取多数投票结果的1000个自举重新采样(带有关系)来计算人类结果的误差条,然后报告平均值与第5或第95百分位数之间的差异(以较远者为准)。

生成结果:表4总结了我们在Microsoft COCO数据集上的结果。 我们为实验比较提供了几个基线,包括测量数据集复杂性的两个基线:无条件,通过在不知道视觉词检测器的情况下对N-gram LM进行采样来生成句子; 和Shuffled Human,从另一个图像中随机选择另一个人类生成的标题。 对于这些方法,BLEU和METEOR得分都非常低,证明了Microsoft COCO数据集的变化和复杂性。

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

我们提供七种端到端方法的结果:基线基于AlexNet的视觉特征,并使用ME LM和表1中所述的所有离散特征。Baseline+Score将单词检测器Score的特性添加到ME LM中。 当使用MERT重新排列字幕时,这两个版本都使用第5节中描述的相同句子功能集(不包括DMSM分数)。 基线+分数+ DMSM使用与基线+分数相同的ME LM,但将DMSM分数添加为重新排名的功能。 基线+分数+ DMSM + ft增加了微调。 VGG +分数+英尺和VGG +分数+ DMSM + ft类似于基线+分数和基线+分数+ DMSM,但使用精细调整的VGG功能。 注意:没有微调的AlexNet基线来自我们系统的早期版本,该版本使用[50]中的对象提议而不是密集扫描。

如表4所示,具有和不具有单词检测器得分特征的ME LM的PPLX大致相同。 但是,BLEU和METEOR通过在ME LM中添加单词检测器得分而得到改善。 通过在重新排名中添加DMSM分数,性能进一步提高。 令人惊讶的是,BLEU分数实际上高于人类生成的字幕所产生的分数(25.69%对19.32%)。 使用具有VGG模型的DMSM得分的性能改善在统计学上是显着的,如通过4-gram重叠和METEOR每图像测量的(Wilcoxon符号秩检验,p <.001)。

我们还评估了一种采用全图像分类而非MIL的方法(未显示)。 我们发现这种方法在相同设置下相对于MIL表现不佳(例如,使用VGG + Score + DMSM + ft设置,PPLX = 18.9,BLEU = 21.9%,METEOR = 21.4%)。 这表明,将与图像区域相关联的单词的信息与MIL相结合,可以提高单独图像分类的性能。

VGG + Score + DMSM方法产生的字幕在34%的时间内被判断为与人工书写描述相同或更好的质量,这是对基线结果的显着改进。 定性结果如图3所示,项目网站上还有更多可用的结果。

From Caption to Visual Concepts and Back-CVPR2015原文翻译摘要

COCO评估服务器结果:我们进一步为实际COCO测试集中的图像生成了由40,775个图像组成的图像(这些图像的人工标题不公开),并在COCO评估服务器上进行评估。 这些结果总结在表5中。我们的系统给出了BLEU-4得分为29.1%,并且在报告的14个指标中的12个上等于或超过人类表现 - 这是唯一的系统。 这些结果也是在撰写本文时公开提供的其他四个结果中所有14个报告指标的最新结果。 特别是,我们的系统是唯一一个超过人类CIDEr分数的系统,它专门用于评估图像字幕系统[44]。

为了能够与之前关于自动字幕的工作进行直接比较,我们还测试了PASCAL语句数据集[38],使用了针对Midge [32]和Baby Talk [22]系统测试的847个图像。 我们在Midge [32]系统上显示出显着改善的结果,通过BLEU和METEOR测量(2.0%对比17.6%BLEU和9.2%对比19.2%METEOR).6基本了解进展的快速进展 在该字段中,图4显示了系统在相同图像上的输出。

继续阅读