人工智能研究所 2024-02-01 07:44:51
Meta-Transformer ,一个多模态模型,其具有一个模态共享编码器,无需配对数据,可以在 12 个不同模态上完成 16 种不同感知任务。Meta-Transformer 能够对于 12 种不同的数据提供统一的模型框架,其包括文本、图像、点云、音频、视频、红外、超光谱、X 射线、表格、图形、时间序列和惯性测量单元(IMU)数据。transformer模型真的可以进行模型大一统吗? 虽然transformer模型最初是使用在NLP 自然语言处理任务上,但是越来越多的模型基于transformer进行了改进,不仅模型可以应用在NLP,还进入了计算机视觉任务上。 ViT(Vision Transformer):这是一种直接将图像像素输入到预训练的Transformer模型中,然后进行图像分类或对象检测的任务。 DETR(DEtection Transformer):这是一种基于Transformer的物体检测模型,它使用类似于Transformer的编码器-解码器结构来预测目标的位置和类别。 Swin Transformer:这是一种基于窗口的Transformer模型,它将输入图像分割成多个子窗口,然后使用Transformer来处理每个子窗口的特征。 以上三种都是基于transformer的模型,且成功应用在计算机视觉任务上,且表现良好。随着meta transformer模型的发布,更是把transformer扩展到多模态任务上。 到底transformer做对了什么,让模型大一统又进了一步。#动图详解Transformer
...全文
110 回复 打赏 收藏 转发到动态 举报
AI 作业
写回复
用AI写文章
回复
切换为时间正序
请发表友善的回复…
发表回复

4

社区成员

发帖
与我相关
我的任务
社区描述
头条 人工智能研究所 ,计算机视觉,NLP
transformernlp 个人社区
社区管理员
  • 人工智能研究所
加入社区
  • 近7日
  • 近30日
  • 至今
社区公告
暂无公告

试试用AI创作助手写篇文章吧