首页> 中国专利> 基于深度残差网络与迁移学习的健身瑜伽动作识别方法

基于深度残差网络与迁移学习的健身瑜伽动作识别方法

摘要

本发明公开了一种基于深度残差网络与迁移学习的健身瑜伽动作识别方法,包括如下步骤:采集健身瑜伽动作图像数据,构成数据集;对数据集中的数据进行预处理;将处理后的数据集划分为训练集和测试集;构建基于ResNet34的深度迁移学习网络,并将已有的预训练权重输入到ResNet34网络进行训练,得到基于迁移学习的模型;将训练集输入到模型中进行模型训练和参数调参,得到最优模型;将测试集数据输入到最优模型,输出健身瑜伽动作识别结果。本发明将深度残差网络和迁移学习模型相结合进行健身瑜伽动作的智能识别,优化网络模型后准确率达到94.57%,训练损失降至0.0508,训练时间成本仅为3.3s/it。

著录项

  • 公开/公告号CN116681982A

    专利类型发明专利

  • 公开/公告日2023-09-01

    原文格式PDF

  • 申请/专利权人 中国民用航空飞行学院;

    申请/专利号CN202310529518.3

  • 发明设计人

    申请日2023-05-11

  • 分类号G06V10/82;G06V10/774;G06V40/20;G06N3/0464;G06N3/045;G06N3/096;

  • 代理机构成都东恒知盛知识产权代理事务所(特殊普通合伙);

  • 代理人何健雄

  • 地址 618307 四川省德阳市广汉市南昌路四段46号

  • 入库时间 2024-04-18 19:56:28

说明书

技术领域

本发明涉及智能识别技术领域,具体涉及一种基于深度残差网络与迁移学习的健身瑜伽动作识别方法。

背景技术

健身瑜伽运动对于人们低碳生活方式具有深远意义,其不但能够增强人们的身体素质,并且还可以优化人们日常的工作生活状态,促进人们逐步形成低碳科学的生活方式。从2016年开始,健身瑜伽比赛已在全国推广普及,而比赛的不断举办和完善,使之在社会上的推广进入快速发展时期。随着健身瑜伽比赛的不断完善,比赛裁判水平高低将会严重制约本项赛事的健康发展。除此之外,健身瑜伽的专业运动员可以通过自动或半自动系统来辅助训练,提高训练成效,热爱运动的普通人则可以通过合适的系统进行自学以及纠正训练。因此,研究健身瑜伽比赛的智能评判关键技术将会为健身瑜伽赛事、专业运动员辅助训练、热爱瑜伽运动的普通人自学以及纠正训练、以及瑜伽运动的健康发展提供强有力的技术支持。

健身瑜伽动作识别是人体动作识别的一种动作类型,而人体动作识别由机器学习、人工智能、传感器技术、计算机视觉等许多不同而相互交叉的学科联合实现。Moeslund等将人体动作识别分为初始化系统、骨骼提取、姿势估计、姿势识别。钱堃等基于隐马尔科夫模型设计一种姿势识别模型,其主要采用了期望最大化算法。Chen等提出采用星型算法提取人体星型骨骼点向量来检测瑜伽姿势。张梦营等提出了一种使用豪斯多夫算法评估动作相似度并判定名称的方法。健身瑜伽动作识别特征较多,主要有静态特征、动态特征、时空特征三类。其中,静态特征有颜色、尺寸、轮廓、边缘、物体的形状和深度等;动态特征有方向、速度、轨迹等。从静态特征中提取健身瑜伽动作行为的细节与轮廓状态,从动态特征中提取动作行驶的方向、速度、轨迹等运动模式。

深度卷积神经网络在模式识别中效果表现非常良好,最近几年提出来许多新的基于深度卷积神经网络的模型,如AlexNet、MoblieNet、VGGNet、ResNet、GoogleNet、DenseNet、ShuffleNet、RegNet、EffcientNet等。传统的识别算法主要依靠手工提取图像中目标的局部特征,如LBP(图像在局部范围内对应的纹理特征)、HOG(图像在局部范围内对应的形状边缘梯度特征)等特征]。深度卷积神经网络的自动学习图像特征代替了手动的特征工程,识别率和识别速率得到了大幅改善。

由于之前的研究较少的使用分类网络进行健身瑜伽动作的识别,因此本研究基于最新的深度残差网络ResNet,训练出一个可以对健身瑜伽动作类型进行快速识别的模型,从而为健身瑜伽动作的智能评判提供算法基础。本研究将ResNet网络和迁移学习方法应用在健身瑜伽动作识别中,旨在为健身瑜伽动作的智能评判、专业运动员的辅助训练、热爱瑜伽运动的普通人自学以及纠正训练、健身瑜伽赛事的健康发展提供的研究基础。

发明内容

为解决现有技术中存在的问题,本发明提供了一种基于深度残差网络与迁移学习的健身瑜伽动作识别方法,将深度残差网络和迁移学习模型相结合进行健身瑜伽动作的智能识别,解决了上述背景技术中提到的问题。

为实现上述目的,本发明提供如下技术方案:一种基于深度残差网络与迁移学习的健身瑜伽动作识别方法,包括如下步骤:

S1、采集健身瑜伽动作图像数据,构成数据集;

S2、对数据集中的数据进行预处理;

S3、将处理后的数据集划分为训练集和测试集;

S4、构建基于ResNet34的深度迁移学习网络,并将已有的预训练权重输入到ResNet34网络进行训练,得到基于迁移学习的模型;

S5、将训练集输入到模型中进行模型训练和参数调参,得到最优模型;

S6、将测试集数据输入到最优模型,输出健身瑜伽动作识别结果。

优选的,所述步骤S2中的数据预处理包括图像数据大小调整、随机变换和归一化;所述的图像数据大小调整具体是将图像的尺寸大小调整为3×224×224;所述的随机变换包括随机旋转、剪切和翻转。

优选的,所述的ResNet34网络包括卷积层、池化层和全连接层,ResNet34网络第1~8层中卷积滤波器大小为3×3,个数为64;第9~16层中卷积滤波器大小为3×3,个数为128;第17~28层中卷积滤波器大小为3×3,个数为256;第29~34层中卷积滤波器大小为3×3,个数为512;第35层为平均池化层;第36层为全连接层,神经元个数为7。

优选的,所述的参数调参具体是对模型中的迭代次数、卷积深度、宽度进行了优化和调整。

本发明的有益效果是:本发明方法将ResNet34识别网络与迁移学习进行结合,并将基于健身瑜伽动作数据集进行模型的训练,将深度迁移学习应用于瑜伽动作识别过程中,实现了瑜伽动作识别的智能化与数字化升级。本发明方法对健身瑜伽动作识别的测试准确率可达95.35%,同时针对不同动作,由于动作难度以及动作造型个性特征,识别精度差异较大,与其他ResNet系列模型相比,本发明方法在识别精度、训练损失、以及训练时间成本上,均具有较好的优势;同时,相对于ResNet非迁移学习模型而言,具有综合性能优势更为明显。

附图说明

图1为现有技术中五种常见ResNet模型的网络结构示意图;

图2为本发明ResNet34网络结构示意图;

图3为本发明方法流程步骤示意图;

图4为本发明精度与训练损失大小分布图;

图5为模型测试混淆矩阵示意图;

图6为本发明与ResNet系列模型精度对比示意图;

图7为本发明与ResNet系列模型训练损失对比示意图;

图8为本发明与ResNet系列模型训练时间成本对比示意图;

图9为本发明与VGGNet系列模型精度对比示意图;

图10为本发明与VGGNet系列模型训练损失对比示意图;

图11为本发明与VGGNet系列模型训练时间成本对比示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

ResNet由微软研究院于2015年提出,并在ILSVRC中取得了冠军。大量的深度学习试验证明深度学习模型随着层数的增加其精度提升达到上限,当超过该上限后模型的精度随着层数的增加而下降,这种现象在学术界被称为“退化现象”。图1所示为五种常见ResNet模型的网络结构,随着网络深度的增加,模型的计算量也大幅提升。图2所示为ResNet34网络结构图,多个带有块结连接的残差块级联形成其主干网络,最后一层输出层有7个神经元构成,用于识别健身瑜伽动作的分类个数。

基于监督学习的深度学习模型通常需要大量的数据进行训练以获得较好的性能,网络的深度与宽度也跟训练模型的性能密切相关。然而对于新的机器学习应用场景,经过验证的大型公开数据集的出现具有一定的滞后性,自行制作的数据集在规模、多样性、复杂性上往往存在缺陷。迁移学习无疑成为解决上述问题最普遍的方法。迁移学习是指将某个领域或任务上学习到的知识和模式应用到不同但相关的领域和问题中。本发明研究过程中利用迁移学习的思想将已有的取得比较优秀成绩的训练权重迁移到健身瑜伽动作识别模型上,其目的是降低模型训练的时间成本。

健身瑜伽动作识别对于瑜伽动作技能智能评判具有重大意义。传统的机器学习以及深度学习方法对样本数量和质量要求较高,无法直接应用于健身瑜伽动作技能智能评判中,当动作展现场景等环境改变时模型泛化能力较弱。因此,本发明使用基于ResNet网络的深度迁移学习方法,将现有可靠的的预训练模型迁移到目标数据集的分类任务中,其迁移的是模型的特征提取能力,如提取瑜伽动作边缘特征,形状特征等高层抽象特征的能力,从而提高健身瑜伽动作识别模型的泛化能力。

预训练模型权重数据与瑜伽动作识别具体权重数据具有一定的差异性,但在特征层面,如颜色、纹理、形状、边缘特征上存在一定不变的普适性,这些特征对于预训练权重和健身瑜伽动作数据集均为共性特征,因此可以进行特征迁移以降低模型的训练时间成本。

如图3所示,为本发明的方法步骤流程,可分为4个大的阶段。首先,对数据进行预处理,预处理阶段主要将所有的健身瑜伽动作图像数据按照对应的动作类别进行大小调整(3×224×224)、随机变换(随机旋转、剪切、翻转等)和归一化等,并将数据集划分为训练集和测试集。其次,构建基于ResNet34的深度迁移学习网络,在这个过程中的预训练权重数据直接来自现有数据资料。然后,将预训练权重作为模型的一部分导入ResNet34网络进行训练,从而得到基于迁移学习的模型,然后输入训练集并进行模型训练和参数微调。最后,确定瑜伽动作分类模型与模型具体参数,并进行模型性能测试与泛化能力评估,得到最优模型。输入测试集,输出识别结果。

本发明所用模型ResNet34网络共包含32个卷积层,4个下采样层,2个池化层,1个全连接层。第1~8层中卷积滤波器(大小为3×3)个数为64,第9~16层中卷积滤波器(大小为3×3)个数为128,第17~28层中卷积滤波器(大小为3×3)个数为256,第29~34层中卷积滤波器(大小为3×3)个数为512,第35层为平均池化层,第36层为全连接层,对应的神经元个数为7。

实验数据集

本发明选取的健身瑜伽动作数据集主要包括通用数据集和自制数据集,具体实验数据情况见表1。

表1实验数据集

包括健身瑜伽动作通用数据集动作名称、样本数量及动作,其数据集构成为Bridgepose128张、Cobrapose118张、Downwarddogpose100张、Mountain pose115张、Treepose86张、Trianglepose85张、Warriorpose119张,共计751张图片。自制数据集是包含Bridgepose、Cobrapose、Downwarddogpose、Mountainpose、Treepose、Trianglepose、Warriorpose7分动作类型的数据集,其主要用于训练模型的测试与评估,每个动作10张,共计70张图片。

对比验证及分析

对比模型分别采用ResNet18、ResNet50、ResNet101、ResNet152、VGGNet-11、VGGNet-13、VGGNet-16、VGGNet-19。实验中ResNet系列模型、VGGNet系列模型、本发明模型均在配置有2.4GHZInterCOREi5处理器和1块AMD Radeon(TM)Graphics和RadeonRX550X的集成显卡的服务器上进行,实验环境是基于Window的Pytorch。

本发明针对健身瑜伽动作数据集使用ResNet34进行深度迁移学习模型训练。在分类网络的优化器选择上使用对分类效果提升最大的Adam优化器。如图4所示为本发明训练健身瑜伽动作数据集的模型精度与训练损失大小分布图,从图可知:1)本模型的识别精度最高可达到94.57%,训练损失可降至0.0508;2)当迭代次数epoch<1010次时,模型训练处于欠拟合状态,模型性能未达到最优;当模型迭代次数epoch=0时,模型性能已达到最优;当模型迭代次数epoch>10时,随着迭代次数的增加,模型性能不再提升。3)当迭代次数呈现线性增加时,模型的训练损失呈现下降趋势,并且在初始阶段下降率极高,而随着迭代次数的增加,下降率也急剧减小,当迭代次数达到75次时,模型的训练损失将基本不再降低,模型达到最优状态。因此,本方法在训练过程中,迭代次数为75次时,模型已训练到最佳状态,对于健身瑜伽动作识别的综合性能将达到最优。

为了更加精确的分析训练模型的识别性能,研究过程中绘制了模型识别测试样本的混淆矩阵。图5所示为训练模型测试健身瑜伽动作数据集的混淆矩阵,由图可知:1)对于bridge、cobra、downward、mountain、tree、triangle、warrior动作,模型测试识别率分别为94.44%(16/17)、83.33%(15/18)、93.33%(14/15)、100%(18/18)、92.31%(12/13)、96.00%(24/25)、95.24%(20/21)。2)模型测试识别率最高的三个动作分别为mountain、triangle、warrior动作,其测试精度分别为100%、96.00%、95.24%;模型测试精度最低的三个动作依次为cobra、tree、downward动作,其精度分别为83.33%,92.31%,93.33%。因此,本发明模型对于健身瑜伽动作识别的整体精度较高,针对不同动作由于动作难度以及动作造型个性特征等原因,识别精度差异较大。

精确率是相对于预测结果而言的,它表示的是预测为正的样本中有多少是对的。召回率是相对于样本而言的,即样本中有多少的正样本被预测正确。特异性是指所有的真实负样本中,有多少被预测成负样本。精确率、召回率、特异性可以从不同角度反映模型的性能。表2所示为本模型训练的精确率、召回率、特异性指标分布表。由表可知:1)在精确率方面,瑜伽动作cobra,triangle的准确率在所有动作中最高,可达到100%;其次为warrior、bridge、downward三个动作,精确率分别为95%、94.4%、93.8%;最后为tree动作,精确率为84.6%;由此可见,本模型对不同动作识别的精确率差别较大,最大可达到15.4%。2)在召回率方面,downward、mountain、triangle三个动作的召回率均可达到100%;其次为bridge、cobra动作召回率均可达到94.4%,warrior动作召回率可达到90.5%;最后为动作tree,其召回率为78.6%;由此可见,本模型对不同动作识别的召回率差别也较大,最大可达21.4%。3)在特异性方面,动作cobra,triangle的特异性最大,均可达100%;其次为动作bridge、downward、warrior,特异性均可达99.1%;最后为动作tree和mountain,其特异性分别为98.3%和98.2%。由此可见,本模型对瑜伽动作识别的特异性均较好,同时,对于不同动作识别的特异性差别较小,最大特异性离差仅为1.8%。4)从整体上看,本模型对动作triangle在精确率、召回率、特异性上表现最好,其次为动作cobra,而对动作tree的识别综合性能表现稍差。

表2本模型识别的精确率、召回率、特异性分布表

泛化能力是指机器学习算法对新鲜样本的适应能力,学习的目的是学到隐含在数据背后的规律,对具有统一规律的学习集以外的数据,经过训练的网络也能给出合适的输出。为了评估本模型的泛化能力,研究过程中基于自建瑜伽动作数据库进行模型的评估。经评估可知:1)模型针对自建瑜伽动作数据集的识别性能较好,整体识别精度可达95.23%(20/21);2)模型针对每类动作识别具有较高的识别概率,除cobra动作中的一个样本之外,其余动作的识别概率均在98.7%以上。因此,本模型针对健身瑜伽动作具有较好的泛化能力。

ResNet系列与VGGNet系列模型的对比验证

ResNet系列模型主要选用常用的ResNet18、ResNet50、ResNet101、ResNet152,VGGNet系列模型主要选用VGGNet-11、VGGNet-13、VGGNet-16、VGGNet-19。

图6、图7、图8所示分别为ResNet系列模型与本方法在精度、训练损失、训练时间成本等方面的比较结果。由图可知:1)对于非迁移学习模型而言,本发明方法在精度、训练损失、训练时间成本上均明显优于其他ResNet系列模型。在精度方面,ResNet系列非迁移学习模型中最高的是ResNet34,本模型相对于非迁移学习ResNet34网络,其精度增加了大约71.42%;在训练损失方面,在ResNet系列非迁移学习模型中最优的是ResNet18,本模型相对于ResNet18,其平均训练损失降低了79.17%;在训练时间成本方面,本模型仅次于ResNet18,但在精度和训练损失方面远远优于ResNet18。2)对于迁移学习模型而言,本方法在精度、训练时间成本上均明显优于其他ResNet系列模型。在精度方面,ResNet系列迁移学习模型中最高的是ResNet152,本模型相对于ResNet152,其初始精度(第1次迭代)增加了大约52.71%;在训练损失方面,ResNet系列迁移学习模型中最优的是ResNet152,本模型相对于ResNet152,其平均训练损失降低了0.09%;在训练时间成本方面,本模型与ResNet18迁移学习基本持平,但明显优于其他ResNet系列迁移学习模型。

图9、图10、图11所示分别为VGGNet系列模型与本方法在精度、训练损失、训练时间成本方面的对比结果。由图可知:1)对于非迁移学习模型而言,本方法在精度、训练时间成本上均明显优于VGGNet系列模型。在精度方面,VGGNet系列非迁移学习模型中最高的是VGGNet13,本方法相对于VGGNet-13,其精度增加了大约97.95%;在训练损失方面,本方法与VGGNet系列模型基本持平;在训练时间成本方面,本方法明显优于VGGNet系列模型,针对于训练时间成本最低的VGGNet-11,本方法在训练时间成本上降低了大约34.48%。2)对于迁移学习模型而言,本方法在精度与训练损失上基本持平,但在训练时间成本上均明显优于VGGNet系列模型。在训练时间成本方面,本模型与VGGNet18迁移学习模型相比,降低了大约32.94%。

本发明方法将ResNet34识别网络与迁移学习进行结合,并将基于健身瑜伽动作数据集进行模型的训练,将深度迁移学习应用于瑜伽动作识别过程中,实现了瑜伽动作识别的智能化与数字化升级。本发明将深度残差网络和迁移学习模型相结合进行健身瑜伽动作的智能识别,优化网络模型后准确率达到94.57%,训练损失降至0.0508,训练时间成本仅为3.3s/it。

结果表明:1)本方法对健身瑜伽动作识别的测试准确率可达95.35%,同时针对不同动作,由于动作难度以及动作造型个性特征,识别精度差异较大。2)与其他ResNet系列模型相比,本方法在识别精度、训练损失、以及训练时间成本上,均具有较好的优势;同时,相对于ResNet非迁移学习模型而言,具有综合性能优势更为明显。3)与VGGNet系列网络的非迁移学习模型相比,本方法在识别精度、训练损失、训练时间成本上均有明显优势;与VGGNet系列网络的迁移学习模型相比,虽然本方法在识别精度与训练损失上与其持平,但在训练时间成本上具有明显优势。因此,本方法有助于强化健身瑜伽动作的智能识别,有助于为专业运动员自动或半自动辅助训练系统和普通人进行自学以及纠正训练系统提供算法基础,有助于为后续基于视频监控研究健身瑜伽动作目标检测技术提供算法基础。

尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号