Meta-Transformer ，一个多模态模型，其具有一个模态共享编码器，无需配对数据，可以在 12 个不同模态上完成 16 种不同感知任务。Meta-Transformer 能够对于 12 种不同的数据提供统一的模型框架，其包括文本、图像、点云-CSDN社区

人工智能研究所 2024-02-01 07:44:51

Meta-Transformer ，一个多模态模型，其具有一个模态共享编码器，无需配对数据，可以在 12 个不同模态上完成 16 种不同感知任务。Meta-Transformer 能够对于 12 种不同的数据提供统一的模型框架，其包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元（IMU）数据。transformer模型真的可以进行模型大一统吗？虽然transformer模型最初是使用在NLP 自然语言处理任务上，但是越来越多的模型基于transformer进行了改进，不仅模型可以应用在NLP，还进入了计算机视觉任务上。 ViT（Vision Transformer）：这是一种直接将图像像素输入到预训练的Transformer模型中，然后进行图像分类或对象检测的任务。 DETR（DEtection Transformer）：这是一种基于Transformer的物体检测模型，它使用类似于Transformer的编码器-解码器结构来预测目标的位置和类别。 Swin Transformer：这是一种基于窗口的Transformer模型，它将输入图像分割成多个子窗口，然后使用Transformer来处理每个子窗口的特征。以上三种都是基于transformer的模型，且成功应用在计算机视觉任务上，且表现良好。随着meta transformer模型的发布，更是把transformer扩展到多模态任务上。到底transformer做对了什么，让模型大一统又进了一步。#动图详解Transformer

...全文