下载地址:http://www.datascienceassn.org/sites/default/files/Two-Stream%20Convolutional%20Networks%20for%20Action%20Recognition%20in%20Videos.pdf
What’s problem?
这篇论文主要是介绍了一种新的视频卷积的方法,并且将其应用于UCF-101和HMDB-51数据集中进行行为分类问题,取得了很好的效果。
What’s the challenges?
视频处理中,不但要考虑单帧的情况,也需要考虑各帧之前的相关性,即要处理空间和时间的信息。
What’s the STOA?
论文中提出了新的神经网络结构(双流卷积神经网络),其中一个网络处理静止图片的卷积,另一卷积网络处理光流图的卷积,然后对两个网络的分类结果加权融合,得到最终的分类结果。
What’s the proposed solution?
What’s the performance of the proposed solution?
Conclusion
这篇论文的主要贡献是:
- 提出了双流卷积的网络结构;
- 将静止帧和多帧的稠密光流分别卷积,从而分离了视频的空间和时间两个维度。
- 因为vggnet网络很深,所以需要的数据量很大,所以作者结合了两个数据集来训练网络,取得了结果的优化。