返回栏目
首页人工智能 • 正文

手机里的3D姿势,模型尺寸只有同类的1/7,但误差估计只有5厘米

发布时间:  来源:河洛网

本文经AI新媒体量子位(公众号ID:QbitAI )授权转载。 转载请联系出处。

手机里的3D姿势,模型尺寸只有同类的1/7,但误差估计只有5厘米

长期以来,三维姿势被认为在追求准确性方面狂奔。

但在精度提高的同时,也带来了计算成本的上升。

在刚刚被CPVR 2021接受的论文中提出的模型,MobileHumanPose可以同时变小。

就像放在手机上也能保持住一样。 感受一下这个feel :

这个动作的健美操也没问题:

发现该模型的大小只有基于ResNet-50的模型的1/7,计算力达到3.92GFLOPS。

另外,每个关节的平均位置误差( MPJPE )也只有约5厘米。

那么,该模型如何以有限的计算能力发挥优异的性能呢?

编码器-解码器结构的改进这是从基本的编码器-解码器结构改进的模型。

在编码器用于全局特征提取、解码器进行姿态估计的基础结构中,研究小组修改了主干网、激活函数和Skip concatenation功能。

首先,让我们来看看研究小组选择的骨干网络,MobileNetV2。

他们用MobileNetV2的前四个倒置残差块( Residual Block )调整了通道大小,提高了性能。

接着,使用ai为学习参数yi的输入信号即PReLU函数实现激活功能。

由于该函数的可学习参数为各层网络提供了其他信息,因此在人体姿态估计任务中使用参数化PReLU可以提高性能。

△修改了激活函数的baseline

目前,模型的效率并不差,但考虑到推理速度,团队使用了Skip concatenation结构。 该结构可以从编码器向解码器导出低级特征信号,而不会使性能降低。

参数量减少了5倍,计算成本降低了1/3的团队使用Human3.6M和MuCo-3DHP作为三维人体姿态数据集,提出了MobileNetV2大小的两个模型。

在Human3.6M上,MobileNetV2大模型实现了51.44毫米平均关节的位置误差。

另外,其参数量为4.07M,比同类模型的20.4m(Chen )减少5倍,计算成本为5.49GFLOPS,不足同类模型的1/3 ) 14.1G )。

针对多人的三维姿态估计任务,研究人员利用RootNet估计了每个人的绝对坐标,在MuPoTS的20个场景中进行了实验:

实验结果表明,与Zerui Chen等人提出的获得ECCV 2020的三维人体姿态估计方法相比,MobileNetV2在一般场景下性能更好,在少数场景下获得了最佳性能

模型效率方面,MobileNetV2的较大模型效率为2.24M/3.92GFLOPS,远远超过同类模型的13.0m/10.7gflops(zeruichen )。

小型模型也可实现56.94个关节平均位置误差,有224万个参数,计算成本为3.92GFLOPS。

作者介绍论文的三位作者毕业于韩国高等技术研究院,Sangbum Choi是该校电机与电子工程专业的硕士学位。

论文: HTPS:/ /开放访问. The CVF.com /内容/ CVPR 2021 w/Mai/HTML/Choi _移动设备_真实-时间

开源地址: [1] https://github.com/Sangbumchoi/mobilehumanpose [2] https://github.com/ibaigorordo/ononse

【编辑推荐】

    相关文章Related

    返回栏目>>

    河洛网首页

    Copyright © 2019 河洛网 版权所有 dahuimr@163.com