VQA是如何定义的?
给定一张图像和一个相关文字问题,从若干候选文字回答中选出正确答案. 常用策略是CNN提取图像特征,RNN提取文本特征,将图像特征和文本特征进行融合,然后通过全连接层进行分类.关键在于如何融合这两个模态.
2,536
社区成员
5,685
社区内容
加载中
试试用AI创作助手写篇文章吧