Meta-Transformer ,一个多模态模型,其具有一个模态共享编码器,无需配对数据,可以在 12 个不同模态上完成 16 种不同感知任务。Meta-Transformer 能够对于 12 种不同的数据提供统一的模型框架,其包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元(IMU)数据。transformer模型真的可以进行模型大一统吗?
虽然transformer模型最初是使用在NLP 自然语言处理任务上,但是越来越多的模型基于transformer进行了改进,不仅模型可以应用在NLP,还进入了计算机视觉任务上。
ViT(Vision Transformer):这是一种直接将图像像素输入到预训练的Transformer模型中,然后进行图像分类或对象检测的任务。
DETR(DEtection Transformer):这是一种基于Transformer的物体检测模型,它使用类似于Transformer的编码器-解码器结构来预测目标的位置和类别。
Swin Transformer:这是一种基于窗口的Transformer模型,它将输入图像分割成多个子窗口,然后使用Transformer来处理每个子窗口的特征。
以上三种都是基于transformer的模型,且成功应用在计算机视觉任务上,且表现良好。随着meta transformer模型的发布,更是把transformer扩展到多模态任务上。
到底transformer做对了什么,让模型大一统又进了一步。#动图详解Transformer
...全文