这里汇总下最近看的Image Captioning相关的论文的特点和不足。
Knowing When to Look: Adaptive Attention via A Visual Sentinel for Image Captioning
这篇论文主要是提出了,Image Captioning生成一句caption的过程中,不是每个单词都需要使用图片信息,有的反而是利用文本信息比较多。 比如生成a herd of sheep grazing on a lush green hillside。这句话中的a,herd,of,a,lush都无法从图片中得到任何有用的信息,只能依靠语言模型来生成,这其中的sheep,hillside可以通过scene graph中的node得到有用信息,其中的graze,on这类词汇可以通过scene graph中的relation信息来补充,其中的green可以通过scene graph中的attributes信息来补充。
所以通过这篇论文可以确立我论文的几个基本点:
首先使用使用经典的scene graph网络将图片转换为一个scene graph其中包含,node, relation, attributes这三种信息。 这时,scene graph包含的node, ralation和attributes的数量都是很大的。所以后面还需要考虑如何有效的选择这三类属性。
第二个点就是需要像这篇网络中一样,设计一个可以判读何时更多的利用scene graph的信息和何时更多的利用以及生成的文本信息。 这篇论文是基于LSTM来做的, 因为最近Transformer很火,所以这里就考虑基于transformer 来设计这样一个网络。
然后最近Transformer在各个领域都有很多的尝试。
下面对使用Transformer做Image Captioning任务的论文做一个整理
CPTR: FULL TRANSFORMER NETWORK FOR IMAGE CAPTIONING
这篇论文就是存粹的将 transformer 用到了 image captioning中, 而且是直接 seq2seq 直接生成整个句子,而不是一个词一个词生成的。
X-Linear Attention Networks for Image Captioning
这篇论文算是在transformer的基础上做了一个增强,也是使用了object的信息。
下面对使用Cene graph做Image Captioning任务的论文做一个整理