天天看点

image caption 方法综述(三)image caption领域方法综述(三)

image caption领域方法综述(三)

image caption领域自从引入了深度学习以后发展十分迅速,通过2015年到2020年发表的论文,我将image caption领域的方法分为4类:基于注意力机制、基于对抗生产网络、基于强化学习以及基于密集描述,本篇参考了论文 图像描述技术综述[J]. 计算机科学, 2020, 47(12): 149-160.,这一篇介绍第三部分:基于强化学习的方法。

三、基于强化学习

强化学习也是机器学习领域中重要的方法之一,也称为鼓励学习、增强学习。在强化学习中,智能体(Agent)以尝试的方式与环境之间不断交互。在交互过程中,环境的状态由于智能体的动作而发生改变,并且环境将奖赏和当前时间的状态作为强化信号反馈到智能体,智能体在强化信号的作用下改变其在环境中的动作,可以针对具体的问题实施特定的动作策略,旨在获取最大的奖赏。在图像描述任务中,强化学习可以解决在训练和预测过程中解码器的不同参数带来的解码(曝光)偏差的问题,并且在训练时通过反向传播算法对模型进行训练优化,从而解决训练和测评指标不匹配的问题。

1、《Sequence Level Training with Recurrent Neural Networks》于2015年使用强化学习来解决自然语言处理领域的问题。由于强化学习可以解决基于马尔可夫的动态规划问题,而 RNN 的隐藏层的传递符合马尔可夫过程,因此 Ranzato等在模型的解码端引入强化学习,解决了因在模型的训练和预测过程中解码部分存在不同参数依赖而导致的解码误差传递问题。(论文链接)

2、 《Improved Image Captioning via Policy Gradient optimization of SPIDEr》提出基于强化学习的图像描述方法,该方法同样以编码器G解码器为基础,使用 CIDer和SPICE两个指标的组合作为模型的奖励函数,分别用于衡量句子语法和句子与图像的相似程度,并用策略梯度方法进行优化。(论文链接)

3、《Self-critical sequence training for image captioning》以注意力机制模型为基础,把 序列问题看作强化学习问题,提出SCST强化学习方法,并且对注意力机制中的LSTM 进行了改进,大大提高了实验的准确率。《Self-critical n-step training for image captioning》提出了一种新的优势函数,并且在强化学习过程中使用n个时间步的累计奖赏代替交叉熵损失函数来评价智能体的动作,取得了不错的效果。(论文链接)

4、《Better Captioning with Sequence-Level Exploration》为了消除解码偏差问题,提出在交叉熵损失函数中使用序列级监督代替单词级监督,实验表明该方法对模型的准确率和召回率均有所提升。基于强化学习的方法能够促使模型在特定环境下实现自身的调整与升级,使模型考虑长期的高回报,而不是一次性的匹配问题,从而使计算机的训练过程更加接近人类学习的过程。强化学习算法的关键在于其奖励和反馈机制,近年来随着研究者们对奖励函数不断进行改进,强化学习在图像描述任务中取得了良好的表现。(论文链接)

继续阅读