class2:人体姿态估计与MMPose

不熬夜会做饭的靓仔 2023-06-02 23:35:29

人体姿态估计的介绍与应用

人体姿态估计是指从给定的图像中识别人脸、手部、身体等关键点，输入图像I，输出所有关键点的像素坐标（x1，y1），（x2，y2），（xj，yj），其中j为关键点的总数，j取决于具体的关键点模型，人脸有68个关键点，手势是21个关键点，人体是18个关键点。而姿势形态的多变性，关键点的坐标也会有各种不同的组合，这也是人体姿态估计模式识别的难点所在。

3D姿态估计，预测人体关键点在三维空间中的坐标，可以在三维空间中还原人体的姿态，更进一步，我们可以构造人体参数化模型从图像或者视频中恢复出运动的3D人体模型；对于下游任务，姿态估计也有着广泛的应用，可以用于研究行为理解、PoseC3D基于人体姿态识别行为动作、应用于CG动画、进行手势人机交互、动物行为识别分析……

2D姿态估计

2D人体姿态估计指在图像上定位人体关键点（通常是关节）的坐标。而关键点的检测有两种基本思想：基于回归和基于热力图。

基于回归

对关键点的检测可以建模成一个回归问题，即输入图片后让模型直接回归关键点坐标，即(x1,y1,…,xj,yj)= fθ(I)例如使用卷积神经网络，以图象作为输入，最后一层通过线性回归预测关键点的坐标，同时也存在问题，深度模型直接回归坐标的精度不高。

基于热力图

并不直接回归关键点的坐标。而是预测关键点位于每个位置的概率，即H1…j=fθ(I)，Hj(xj,yj)=1表示关键点j位于((xj,yj)的概率为1，H称为热力图，尺寸与原图I相同或按比例缩小

热力图可以基于原始关键点坐标生成，作为训练网络的监督信息
网络预测的热力图也可以通过求极大值等方法得到关键点的坐标

模型预测热力图比直接回归坐标相对容易，因为它更符合神经网络的结构，而且模型精度相对更高，因此主流算法更多基于热力图，但预测热力图的计算消耗大于直接回归，因为它在后端需要维护一个相对比较大的数据。

到这里，主讲人讲到如何从数据标注生成热力图，每一个关键点对应着一个2D热力图，是根据关键点的坐标，通过高斯概率函数计算（高斯过程），得到关键点对应热力图的高斯核，得到的热力图就相当于一个概率图（这个步骤我并没有十分理解，还得继续学习）。然后将原图预测出来的热力图与关键点标注得到的真值热力图进行逐点比对计算损失，便可使用热力图训练模型。

而如何从热力图中还原出关键点的位置，这里也介绍了两种方法，一种是朴素方法：求热力图最大值位置，此方法要思考两个问题如果同时面对两个点时，取最大值是否是一个鲁棒的方法？取最大值方法得到的结果是否是高斯的？除了取最大值，还有一个方法是取数学期望，相当于取了高斯的一个重心点，使得结果更具鲁棒性。课程中提到这个过程是可以端到端去优化的，热力图可以变成坐标，而坐标可以直接求导的，它便可以guide热力图（不懂555）。

自顶向下方法

自顶向下的方法，我们先给定一张图片，然后使用目标检测算法检测每个人体，再在此基础上做单肢体估计，基于单人图像估计每个人的姿态。

但自顶向下的方法面临着几个问题，首先，因为要先要目标检测出每个个体，所以姿态估计整体精度受限于检测器的精度；再者，此方法的速度和计算量与人数成正比。

自底向上方法

自底向上方法，先使用关键点模型检测出所有人体的关键点，再基于位置关系或其它辅助信息将关键点聚类组合成不同的人。此方法的优点是推理速度与人数无关。

基于回归的自顶向下方法

DeepPose（2014）

以分类网络为基础，将最后一层分类改为回归，一次性预测所有 j 个关键点的坐标，通过最小化平方误差训练优化网络。原论文使用了AlexNet主干+回归头，第一级以全身图像为输入，预测所有关键点坐标，位置精度较低，得到关键点后，接着以每个预测点为中心，裁剪局部图像送入第二级网络，再次回归该店坐标，提升精度；整个过程可以通过多级级联提高精度。