WeaQA:Weak Supervision via Captions for Visual Question Answering 论文笔记

这是一篇采用弱监督方式解决VQA的文章，与上一篇：Visual Question Answering with Textual Representations for Images 论文笔记有异曲同工之妙，但是这一篇更加花里胡哨一点。前者只采用问题+图像描述作为VQA模型的输入，后者采用图像+视觉字幕的方法取代监督的Q-A问答对，也就是本文标题所说的WeaQA。另外，前者采用的图像描述中包含了视觉字幕，这两者我一开始以为差不多的工作，看完后发现两篇文章都有各自的idea。