MIT韩松老师组深耕边缘计算和移动端研究,主要涉及NAS、剪枝、量化以及端到端轻量化工作,大家感兴趣可以关注MIT HAN Lab。 论文标题:Lite Pose: Efficient Architecture Design for 2D Human Pose Estimation
代码链接:https://github.com/mit-han-lab/litepose(暂未放出,可持续关注) 作者及团队:Yihan Wang 1* (1 Tsinghua University ),Muyang Li 2 (2 Carnegie Mellon University ) ,Han CAI 3,Weiming Chen 3,Song Han 3 (3 Massachusetts Institute of Technology)
为了进一步解决尺度变化问题,我们在高效的结构设计中引入了大的核。与传统的图像分类任务不同,这种修改对基于MobileNetV2的backbone起着更重要的作用。在图7中,我们展示了在图像分类和姿态估计任务中,对核尺寸为3、5、7(仅用于姿态估计的核尺寸为9)的模型进行了性能比较。在计算成本增加(约为+25%)的情况下,姿态估计任务(+13.0AP)的性能增益远大于图像分类任务(+1.5%Acc)。图5中的可视化结果也验证了我们的说法,并不是“核尺寸越大越好”。过大的核将引入许多无用参数和不可忽略的噪声,这使得训练更加困难,并导致性能下降,如图7中k=9的情况所示。我们进一步发现,将核大小合并到搜索空间将严重降低第4节中将要提到的NAS的性能,这可能是由于核大小变化造成的,因此在我们的架构中,将核大小固定为7 x 7。