openmmlab AI实战营第二期第二课笔记

卖小麦←_← 2023-06-02 10:43:37

人体关键点检测与MMPose

一、2D姿态估计
1.1 基于回归的自顶向下的方法
1.1.1 DeepPose
1.1.2 RLE
1.2 基于热力图的自顶向下的方法
1.2.1 Hourglass
1.2.2 simple Baseline
1.2.3 HRNET
1.3 自底向上的方法
1.3.1 OpenPose
1.4 单阶段方法
1.4.1 SPM
1.5 基于transformer的方法
1.5.1 PRTR
1.5.2 TokenPose
二、3D姿态估计
2.1 直接预测
2.1.1 Course-to-fine
2.1.2 simple Baseline 3D
2.2 利用视频信息
2.2.1 VideoPose 3D
2.3 利用多角度图像
2.3.1 VoxelPose
三、DensePose
四、人体参数化模型
4.1 SMPL
4.2 SMPLify
4.3 HMR

一、2D姿态估计

人体姿态估计是计算机视觉中一个基础任务，从名字的上理解就是对人姿态的估计，实际上是对人体多个关键点(如肩部、手肘、脚踝等)的位置估计。一般分为四个任务：单人姿态估计、多人姿态估计、人体姿态跟踪、3D人体姿态估计。
输入：图像
输出：所有关键点的像素坐标/3D坐标/人体模型

1.1 基于回归的自顶向下的方法

过程：
先检测人，再检测关键点
把一个检测问题建模成回归问题
即将图像作为输入，回归图象中人体图像的坐标
然后将人体图象作为输入，回归人体关键点坐标作为输出

优点：符合人类对人体关键点识别的认知
缺点：推理速度与图像中的人数成正比

1.1.1 DeepPose

使用深度网络作为主干网络
原文使用Alexnet作为主干的分类网络，在最后加一个回归头，一次性回归所有关键点坐标
现在也可以使用resnet作为主干网络
优点：回归模型理论上可以达到无限精度，而且无需维持高分辨率
缺点：达到高精度的困难程度高于热力图

1.1.2 RLE

这个地方的数学公式较多，理解的比较吃力
原来模型回归关键点的坐标，RLE回归的是关键点位置的概率分布
两种降低建模分布难度的方法
1.重参数设计
2.残差似然函数

1.2 基于热力图的自顶向下的方法

热力图是显示的是人体关键的坐标概率分布，用热力学的颜色深浅代表该关键点的图像上的概率大小分布

1.2.1 Hourglass

类似Unet的结构，将各个卷积层的输入加到输出结果上，提高对不同尺寸图像的识别精度

在这里插入图片描述

优点：可以级联成更强的模型

1.2.2 simple Baseline

encoder-decoder的结构，使用resnet作为主要encoder网络主干

在这里插入图片描述

1.2.3 HRNET

输入一个高分辨率图像，对图像进行多尺寸的卷积，最后在对不同的卷积结果进行特征融合，最后根据不同的任务选择不同的任务头
1、只取第一层作为人体姿态估计
2、将四层输出做上采样再做合并，用于语义分割
3、将四层输出做上采样再做合并，然后进行多分辨率下采样，用于物体检测

1.3 自底向上的方法

1.3.1 OpenPose

同时预测关键点和肢体方向，然后利用辅助信息，四肢走向和关键点位置聚类，最后将输入同一人的关键点组合

1.4 单阶段方法

1.4.1 SPM

输入图像，输出以人体为中心的，各关键点的向量图
优点：在计算去的速度优势，而且检测精度不逊色于二阶段方法

在这里插入图片描述

1.5 基于transformer的方法

1.5.1 PRTR

人体姿态与物体检测有相似的地方，那么将注意力机制的q放到关键点上，便可通过注意力机制的query去学习关键点的信息，最后回归到关键点坐标上
二阶段方法：先在图像上裁剪出单人的图像，在回归关键点坐标
单阶段方法：直接在网络中裁剪出单人特征（通过下采样得到不同尺寸的特征图，在进行特征合并得到单人特征），然后回归到关键点坐标