WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记
这是一篇采用弱监督方式解决VQA的文章,与上一篇:Visual Question Answering with Textual Representations for Images 论文笔记有异曲同工之妙,但是这一篇更加花里胡哨一点。前者只采用问题+图像描述作为VQA模型的输入,后者采用图像+视觉字幕的方法取代监督的Q-A问答对,也就是本文标题所说的WeaQA。另外,前者采用的图像描述中包含了视觉字幕,这两者我一开始以为差不多的工作,看完后发现两篇文章都有各自的idea。