219
社区成员
发帖
与我相关
我的任务
分享
#Google大脑团队提出用于物体检测的语言建模框架# Pix2Seq是一个用于物体检测的简单通用框架。与有关任务的显式集成先验知识的现有方法不同,研究人员将#物体检测# 转换为以观测到的像素输入为条件的语言建模任务。该方法主要基于这样一种直觉,即如果#神经网络# 知道物体的位置和内容,只需要教会该网络如何读取它们。除了使用特定于任务的数据增强之外,该方法对任务做出了最少假设,相较于高度专用化和优化良好的算法,在COCO 数据集上取得了有竞争力的结果。论文:https://arxiv.org/pdf/2109.10852.pdf