您的当前位置:首页正文

一种基于RGBD相机姿态估计的引体向上计数方法[发明专利]

2021-12-08 来源:星星旅游
(19)中华人民共和国国家知识产权局

(12)发明专利申请

(10)申请公布号 CN 112800905 A(43)申请公布日 2021.05.14

(21)申请号 202110067884.2(22)申请日 2021.01.19

(71)申请人 浙江光珀智能科技有限公司

地址 323000 浙江省丽水市莲都区南明山

街道石牛路268号1幢B座303-5室(72)发明人 朱程利 余小欢 陈啟煌 伍贤彬 

马村 陈嵩 (74)专利代理机构 杭州钤韬知识产权代理事务

所(普通合伙) 33329

代理人 唐灵 赵杰香(51)Int.Cl.

G06K 9/00(2006.01)G06K 9/62(2006.01)G06T 7/194(2017.01)

权利要求书2页 说明书6页 附图4页

CN 112800905 A(54)发明名称

一种基于RGBD相机姿态估计的引体向上计数方法(57)摘要

本发明公开了一种基于RGBD相机姿态估计的引体向上计数方法,采集RGB和Depth图像,并对RGB和Depth图像进行处理得到抑制掉大部分

将处理后的RGB和Depth图像输背景信息的图像;

入至mobi le net系列网络结构模型中进行有效的融合,输出关键点置信度图和部分亲和场图;通过积分函数评估两个关键点之间的相关性,将各人的关节点进行连接,得到图像中所有人的姿态骨架图;根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数;根据运动参数判断是否进行引体向上动作,如果是,则进行引体向上计数。本发明能够适应各种运动场景,通过Depth信息分割掉背景信息,计数机制更加鲁棒,计数更加精确,同时提升了计算的效率。

CN 112800905 A

权 利 要 求 书

1/2页

1.一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于,包括以下步骤:S1:采集RGB和Depth图像,并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像;

S2:将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合,输出关键点置信度图和部分亲和场图;通过积分函数评估两个关键点之间的相关性,将各人的关节点进行连接,得到图像中所有人的姿态骨架图;

S3:根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数;S4:根据运动参数判断是否进行引体向上动作,如果是,则进行引体向上计数。2.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:步骤S1中对RGB和Depth图像进行处理的步骤包括,

S11:利用具有时空一致性的RGBD相机,采集RGB和Depth图像,分别对RGB和Depth图像做背景分割;

具体令RGB图像某像素点坐标为XR(i,j),对应的深度图像素点坐标为XD(i,j),根据深度图的分辨率生成一个掩码图,该掩码图对应像素点坐标为XM(i,j),根据场景复杂度设计一个可控阀值δ,如将人物活动的范围作为阀值标准,对掩码图进行二值化操作优化;

S12:将优化后的掩码图分别与RGB和Depth图像进行点乘,抑制掉RGB和Depth图像中大部分的背景信息。

3.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:步骤S2中得到所有人的姿态骨架图的步骤包括,

S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f;同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合,得到融合后的特征;

S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两个分支分别输出关键点置信图和关键点的亲和场,stage n的输入为stage n‑1的输出;

S23:得到亲和场和关键点的位置后,通过积分函数评价两关键点的相关性;S24:利用匈牙利算法求得相邻关键点的最优匹配,得到图像中所有人的姿态骨架图。4.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:所述mobile net系列网络结构模型中每个阶段均采用3×3和1×1的卷积层,并使用空洞卷积增加网络的感受野。

5.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:通过最大化操作得到真值置信图,在测试时,通过最大化操作得到关键点的位置,并利用非极大值抑制排除冗余关键点。

6.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:每个阶段分支上在输出时都添加有损失函数,所述损失函数均用L2范数进行约束。

7.根据权利要求3所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:所述mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。

8.根据权利要求1所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在

2

CN 112800905 A

权 利 要 求 书

2/2页

于:步骤S3中步骤中所述引体向上运动参数包括:头部位置变化特征、手臂位置变化特征;所述头部位置变化特征指的是在运动的过程中头部高度变化情况,通过鼻子、耳朵、眼睛的三个关键点位置变化来估算;

所述手臂变化特征指在做引体向上过程中,手臂弯曲变化情况,通过手腕、手肘以及肩膀三个关键点位置变化来估算。

9.根据权利要求8所述的一种基于RGBD相机姿态估计的引体向上计数方法,其特征在于:所述手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。

3

CN 112800905 A

说 明 书

一种基于RGBD相机姿态估计的引体向上计数方法

1/6页

技术领域

[0001]本发明涉及一种人体向上计数方法,特别涉及一种基于RGBD相机姿态估计的引体向上计数方法。

背景技术[0002]引体向上要求有一定的握力和上肢力量,这个力量必须克服自身的体重才能完成一次,引体向上对发展上肢悬垂力量、肩带力量和握力有重要作用,因此,引体向上是健身和锻炼最为常见的项目之一,为了科学有效的健身与锻炼,在做引体向上项目时,需要对引体向上进行有效的计数。

[0003]目前引体向上计数的方法有人工计数,这种计数方法依靠计数人员的主观判断,在模棱两可的情况下容易出错,另外也浪费人力;[0004]中国发明专利授权公告号CN105879358B,授权公告日2018年08月28日,专利名称《引体向上成绩测试仪》,该方法采用拉线式位移传感器,这种方法要求被测者穿戴相应的设备,给被测者带来不便,另外需要装置上下杠感知单元,设计较为复杂;[0005]中国发明专利公开号CN 107122798A,公开日2017年09月01日,专利名称《基于深度卷积网络的引体向上计数检测方法及装置》,该方法公开了一种利用深度学习进行引体向上的计数,该方法存在两方面的问题,一是,采集的数据比较多,需要采集大量的鼻子过杆,头部过杆但鼻子未过杆等数据,需要对数据进行标注,需要投入大量的人力物力,二是,对模棱两可的情况不能很好的处理。[0006]中国发明专利公开号CN 111282248A,公开日2020年06月16日,专利名称《一种基于骨骼和人脸关键点的引体向上检测系统及方法》,该方法通过采用单帧大臂和小臂之间的夹角来计数,该方法存在两个问题:一是,当有某个关键点检测失败之后,这些计数机制则失败,造成计数误差。二是,当RGB图像出现多人时,会检测出所有人的关键点信息,多人关键点信息会相互影响,造成计数不精确;同时检测多人的关键点信息也会带来一定的时延。

[0007]所以有必要提出一种新的方案,基于RGBD相机姿态估计的引体向上计数方法,该方法通过获取RGB和Depth图像,并对RGB和Depth图像进行处理,将处理后的RGB和Depth图像输入至网络模型中获得图像中所有人的姿态骨架图,根据姿态骨架图设计引体向上相应的动作逻辑机制,进行引体向上计数的方案。发明内容

[0008]针对目前引体向上计数出现的问题,本发明提供了一种基于RGBD相机姿态估计的引体向上计数方法,结合RGBD图像的互补特性进行网络结构的设计,使得网络能够自适应的融合RGB和Depth图像的特征,网络同时回归人体骨骼关键点和进行关键点的关联,得到人体姿态骨架图,然后对检测的关键点进行逻辑判断和对比,设计引体向上逻辑和动作,并进行引体向上计数。

4

CN 112800905 A[0009]

说 明 书

2/6页

根据本发明的目的提供了一种基于RGBD相机姿态估计的引体向上计数方法,包括

以下步骤:[0010]S1:采集RGB和Depth图像,并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像;[0011]S2:将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合,输出关键点置信度图和部分亲和场图;通过积分函数评估两个关键点之间的相关性,将各人的关节点进行连接,得到图像中所有人的姿态骨架图;[0012]S3:根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数;[0013]S4:根据运动参数判断是否进行引体向上动作,如果是,则进行引体向上计数。[0014]优选的,步骤S1中对RGB和Depth图像进行处理的步骤包括,[0015]S11:利用具有时空一致性的RGBD相机,采集RGB和Depth图像,分别对RGB和Depth图像做背景分割;

[0016]具体令RGB图像某像素点坐标为X(i,j),对应的深度图像素点坐标为XD(i,j),根R据深度图的分辨率生成一个掩码图,该掩码图对应像素点坐标为XM(i,j),根据场景复杂度设计一个可控阀值δ,如将人物活动的范围作为阀值标准,对掩码图进行二值化操作优化;[0017]S12:将优化后的掩码图分别与RGB和Depth图像进行点乘,抑制掉RGB和Depth图像中大部分的背景信息。[0018]优选的,步骤S2中得到所有人的姿态骨架图的步骤包括,

[0019]S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f;同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合,得到融合后的特征;

[0020]S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两个分支分别输出关键点置信图和关键点的亲和场,stage n的输入为stage n‑1的输出;[0021]S23:得到亲和场和关键点的位置后,通过积分函数评价两关键点的相关性;[0022]S24:利用匈牙利算法求得相邻关键点的最优匹配,得到图像中所有人的姿态骨架图。

[0023]优选的,所述mobile net系列网络结构模型中每个阶段的网络结构均采用3×3和1×1的卷积层,并使用空洞卷积增加网络的感受野。[0024]优选的,通过最大化操作得到真值置信图,在测试时,通过最大化操作得到关键点的位置,并利用非极大值抑制排除冗余关键点。[0025]优选的,每个阶段分支上在输出时都添加有损失函数,所述损失函数均用L2范数进行约束。

[0026]优选的,所述mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。[0027]优选的,步骤S3中步骤中所述引体向上运动参数包括:头部位置变化特征、手臂位置变化特征;所述头部位置变化特征指的是在运动的过程中头部高度变化情况,通过鼻子、耳朵、眼睛的三个关键点位置变化来估算;

[0028]所述手臂变化特征指在做引体向上过程中,手臂弯曲变化情况,通过手腕、手肘以

5

CN 112800905 A

说 明 书

3/6页

及肩膀三个关键点位置变化来估算。[0029]优选的,所述手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。[0030]本发明的有益效果是:

[0031]1.本发明不依靠计数人员的主观判断,避免了在模棱两可的情况下容易出错,同时节省了人力。

[0032]2.本发明不需要复杂的装置,只需要一款RGBD相机即可,价格低廉。[0033]3.本发明利用Depth信息分割掉背景信息,使得深度值达到最优,充分发挥RGBD的互补特性,结合RGBD多模态的输入,设计鲁棒的深度学习算法进行人体关键点的估计,并进行网络模型的压缩;使其能够在边缘设备达到实时的效果,根据运动属性设计相应的动作

通过Depth信息分割掉背景逻辑机制,进行引体向上计数;本发明能够适应各种运动场景,

信息,计数机制更加鲁棒,计数更加精确,同时提升了计算的效率。[0034]4.在设计引体向上相应的动作逻辑时,通过多个关键点的位置综合评估,避免了因为某一个关键点采集不到,计数机制失效。附图说明

[0035]图1是本发明计数方法流程图;[0036]图2是本发明mobile net系列网络结构模型流程图;[0037]图3是本发明mobile net系列网络结构模型每个阶段的网络结构;[0038]图4是本发明人体骨骼关键点图;

[0039]图5是引体向上开始计数的状态或者下一个计数的开始状态;[0040]图6是引体向上开始计数加1状态;[0041]对图4中附图说明:0:鼻子;1:脖子;2:右肩;3:右肘4:右腕;5:左肩;6:左肘;7:左腕;8:右髋;9:右膝;10:右踝;11:左髋;12:左膝;13:左踝;14:右眼;15:左眼;16:右耳;17:左耳;

具体实施方式

[0042]以下将结合附图所示的具体实施方式对本发明进行详细描述,但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。[0043]如图1所示,本发明公开的一种基于RGBD相机姿态估计的引体向上计数方法,包括以下步骤:[0044]S1:采集RGB和Depth图像,并对RGB和Depth图像进行处理得到抑制掉大部分背景信息的图像;

[0045]有一种具体实施例,步骤S1中对RGB和Depth图像进行处理的步骤包括,[0046]S11:利用具有时空一致性的RGBD相机,采集RGB和Depth图像,分别对RGB和Depth图像做背景分割;

[0047]具体令RGB图像某像素点坐标为X(i,j),对应的深度图像素点坐标为XD(i,j),根R据深度图的分辨率生成一个掩码图,该掩码图对应像素点坐标为XM(i,j),根据场景复杂度

6

CN 112800905 A

说 明 书

4/6页

设计一个可控阀值δ,如将人物活动的范围作为阀值标准,对掩码图进行二值化操作优化;其公式如下:

[0048]

S12:将优化后的掩码图分别与RGB和Depth图像进行点乘,抑制掉RGB和Depth图像

中大部分的背景信息,其公式如下:[0050]X(i,j)=X(i,j)·X(i,j)                                       (2)RMR

[0051]X(i,j)=X(i,j)·X(i,j)                                    (3)DMD[0052]S2:将处理后的RGB和Depth图像输入至mobile net系列网络结构模型中进行有效的融合,输出关键点置信度图和部分亲和场图;通过积分函数评估两个关键点之间的相关性,将各人的关节点进行连接,得到图像中所有人的姿态骨架图;[0053]如图2所示,有一具体的实施例,步骤S2中得到所有人的姿态骨架图的步骤包括,[0054]S21:将处理后的RGB和depth图像通过mask之后,分别通过两个分支的网络得到RGB_f和Depth_f;同时学习一个1x2的权重向量[WD,WR],分别表示RGB和Depth模态的权重,将模态权重[WD,WR]分别与RGB_f和Depth_f相乘,然后进行RGB和Depth特征图的融合,得到融合后的特征;

[0055]S22:将融合后的特征输入到stage1网络结构中,每个stage的输出有两个分支,两

1

个分支分别输出关键点置信图S1=ρ(F)和关键点的亲和场

[0049]

stage n的输入为

stage n‑1的输出;两个分支都是一轮迭代的预测体系结构,具体迭代公式如下:

[0056][0057][0058][0059]

S23:得到亲和场和关键点的位置后,通过积分函数评价两关键点的相关性;

S24:利用匈牙利算法求得相邻关键点的最优匹配,得到图像中所有人的姿态骨架

图。

有一种优选方案,如图3所示,所述mobile net系列网络结构模型中每个阶段的网

络结构采用3×3和1×1的卷积层,并使用空洞卷积增加网络的感受野。[0061]有一种优选方案,在训练的时候需要分别对关节点位置和亲和区域进行监督,所述损失函数均用L2范数进行约束。为了避免梯度消失现象发生,在每个阶段的每分支输出都添加损失函数,起到中继监督作用。[0062]每支的损失函数如下:

[0063][0064][0065][0060]

其中,是有J个真实关键点的置信图,是有C个真实的部分亲和场。W是一个边

界标志,当图像位置P的注释消失时,W(P)=0。这个标记是为了避免无标记部分参与到模型

权重的优化。

7

CN 112800905 A[0066][0067][0068][0069]

说 明 书

5/6页

在训练时,对于每个人k的位置p,生成个人关键点置信图的方式为:

其中Xj,k为个人k,关键点j的真值的位置,σ为控制峰值范围的系数。通过最大化操

作得到真值的置信图:

[0070][0071]

在测试时,通过最大化操作得到关键点的位置,并利用非极大值抑制排除冗余关对于个人k的第c个肢干上的部分亲和场定义为:

键点。

[0072][0073]

其中v=(xj2,k‑xj1,k)/||xj2,k‑xj1,k||2,xj,k表示个人k的第j个关键点位置,像素P是

否落在肢干上的判断为:

[0075]0≤v·(p‑x)≤l&&|v·(p‑x)|≤σj1,kc,k⊥j1,kl[0076]其中,lc,k和σ最后对所有人相同类别的肢干进行平均,l表示肢干的长度和宽度,使得亲和场的输出通道与肢干种类数相等:

[0077][0078]

[0074]

在得到亲和场和关键点的位置dj之后,通过以下积分函数评估两个关键点的相关

性:

[0079]

计算姿态骨骼就其中p(u)=(1‑u)dj1+udj2在得到关键点以及相关性的边权之后,

转换成了一个图问题。[0081]利用匈牙利算法求得相邻关键点的最优匹配,从而得到图像中所有人的姿态骨架图。

[0082]有一优选方案,mobile net系列网络结构模型用NAS(Neural Architecture Search)搜索的方法来权衡网络的精度和速度。[0083]S3:根据姿态骨架图中骨骼关键点的信息提取引体向上运动参数;[0084]如图4所示,人体骨骼关键点的相应位置;有一优选方案,步骤S3中步骤中所述引体向上运动参数包括:头部位置变化特征、手臂位置变化特征;所述头部位置变化特征指的是在运动的过程中头部高度变化情况,通过鼻子、耳朵、眼睛的三个关键点位置变化来估算;

[0085]具体的,头部位置的高度变化主要通过鼻子、耳朵、眼睛的位置变化综合考虑得出,头部的整体移动情况的定义如下:

8

[0080]

CN 112800905 A[0086]

说 明 书

6/6页

yhead=α·years+β·yeyes+γ·ynose

[0087]                                          (11)[0088]其中,yhead表示此时头部所在的高度,years、yeyes、ynose代表耳朵、眼睛、鼻子所在高度,α、β、γ代表对应的权重。

[0089]手臂变化特征指在做引体向上过程中,手臂弯曲变化情况,通过手腕、手肘以及肩膀三个关键点位置变化来估算;[0090]更为具体的,手臂弯曲变化情况通过判断手腕到肩膀的连线长度是否大于0.9倍的手肘到手腕和手肘到肩膀的长度之和。[0091]具体公式如下:

[0092]

其中,xwrist、xelbow、xshoulder分别表示手腕、手肘、肩膀的横坐标,ywrist、yelbow、

yshoulder分别表示手腕、手肘、肩膀的纵坐标。[0094]S4:根据运动参数判断是否进行引体向上动作,如果是,则进行引体向上计数。[0095]具体的计数过程如下:

[0096]1)当手臂处于伸直状态且头部位置变化|yε,时,表示身体处于悬垂在单head‑y0|>杠上;如图5所示,引体向上开始计数的状态或者下一个计数的开始状态;[0097]2)当手臂处于弯曲状态且头部位置变化|yε时,表示头部过单杠;head‑y0|≤[0098]3)当出现步骤1)到步骤2)的情况时,将计数加1,如图6所示;当出现步骤2)到步骤1)时表示进入下个计数的开始状态;如此的循环计数。[0099]其中,y0表示引体向上杆的高度,ε表示某一距离阀值;[0100]需要说明的是,RGB图像受光线,背景嘈杂以及运动遮挡等挑战影响较大,但是RGB具有丰富的纹理特性。Depth图像具有目标的轮廓信息,能够区分有距离差异的目标,且对光线变化不是很敏感,但是Depth图像缺乏目标的纹理特征。[0101]本发明基于RGBD相机姿态估计的引体向上计数方法,通过自研的RGBD相机获得RGB图像以及Depth图像,并对RGB图像以及Depth图像处理后输入至网络模型进行RGBD特征的有效融合,有效减轻人体姿态估计中各个挑战因素对算法性能的影响,得到所有人的姿态骨架图,得到人体姿态骨架图后,根据运动员骨骼关节点信息提取引体向上运动参数,并进行引体向上计数。本发明能够适应各种运动场景,通过Depth信息分割掉背景信息,计数机制更加鲁棒,计数更加精确,同时提升了计算的效率。[0102]尽管为示例目的,已经公开了本发明的优选实施方式,但是本领域的普通技术人员将意识到,在不脱离由所附的权利要求书公开的本发明的范围和精神前提下,各种改进、增加以及取代是可能的。

[0093]

9

CN 112800905 A

说 明 书 附 图

1/4页

图1

10

CN 112800905 A

说 明 书 附 图

2/4页

图2

图3

11

CN 112800905 A

说 明 书 附 图

3/4页

图4

图5

12

CN 112800905 A

说 明 书 附 图

4/4页

图6

13

因篇幅问题不能全部显示,请点此查看更多更全内容