本文讲解Transformer模型在计算机视觉领域图片分类问题上的应用—

鸽鸽 2021-08-22 22:44:50

本文讲解Transformer模型在计算机视觉领域图片分类问题上的应用——Vision Transformer(ViT)。

...全文

网页链接

1582 1 打赏收藏转发到动态举报

写回复

用AI写文章

1 条回复

切换为时间正序

请发表友善的回复…

发表回复

鸽鸽 2021-08-22

打赏
举报

个人认为Transformer模型的潜力还远远没有被挖掘出来，更本质地说，注意力机制(Attention)的潜力还远远没有被挖掘出来。此外，本文分割图片，并将各个Patches向量化的方法有点类似于深度学习早期直接将图片按行和列展开，并且输入多层感知机的方式，这种方式不可避免地存在丢失图片中像素空间位置关系的问题。如何将CNN和Transformer结合起来，或者说如何在CNN中引入注意力机制，我想会是一个值得深入研究的方向。
本人由于各种原因，没有在学术的道路上发展。如果我文章的读者目前对研究方向略感迷茫，或许可以留意上述研究方向。不过，综合Transformer模型各种文章来看，Transformer模型优越性往往只有在超大规模数据量训练和海量算力资源加持下才能显性出去优越性。
不过任何事物都是有两面性的，当大公司采取这种“暴力的”方式提升模型效果时，没有这些资源，或许可以把更多精力放在如何巧妙地设计模型结构，更好地发挥注意力机制效能方面，这未必不是一条走得通的道路。