公开/公告号CN114943987A
专利类型发明专利
公开/公告日2022-08-26
原文格式PDF
申请/专利权人 首都体育学院;
申请/专利号CN202210632059.7
申请日2022-06-07
分类号G06V40/10(2022.01);G06V40/20(2022.01);G06V10/44(2022.01);G06V10/764(2022.01);G06V10/82(2022.01);A61B5/00(2006.01);A61B5/11(2006.01);G06N5/02(2006.01);G06N3/04(2006.01);G06N3/08(2006.01);
代理机构
代理人
地址 100191 北京市海淀区北三环西路11号高德楼201
入库时间 2023-06-19 16:31:45
法律状态公告日
法律状态信息
法律状态
2022-10-14
实质审查的生效 IPC(主分类):G06V40/10 专利申请号:2022106320597 申请日:20220607
实质审查的生效
一、技术领域
计算机视觉、人工智能、知识图谱、体育动作识别
二、背景技术
2.1通用技术方法介绍
长短期记忆网络(LSTM,Long Short-Term Memory)是一种时间循环神经网络,是为了解决一般的循环神经网络存在的长期依赖问题而专门设计出来的,所有的循环神经网络都具有一种重复神经网络模块的链式形式。
卷积运算是深度卷积神经网络的重要模块,其本质是类似于神经元输出功能的一个权值共享的节点,用于提取特征。其中,一维卷积是仅对特征的某一个维度进行卷积的卷积运算。
知识图谱(Knowledge Graph)是人工智能的重要分支技术,它是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系,其基本组成单位是“实体-关系-实体”三元组,以及实体及其相关属性-值对,实体间通过关系相互联结,构成网状的知识结构。
人体骨骼关键点检测是计算机视觉领域的一个研究任务,通常采用基于深度学习的方法预测事先定义的人体关键点的位置。人体骨骼关键点检测的方法属于回归模型。
2.2相似方法介绍
基于个体运动行为层次模型的泛化应用系统及方法(申请号:202110178598.3)[1]构建了多层级的人体运动知识图谱。
与其相比,本申请的不同之处在于:(1)在人体动作定义阶段,本申请先用基于深度学习的人体骨骼关键点检测方法提取人体骨骼关键点,再根据关键点之间的空间位置关系转化为相似方法的姿态单元 (PU);(2)本方法可以基于一系列连输的输入实现对动作的多层级的识别,而文献[1]先基于单张图片识别姿态,再以规则方法识别动作;(3)本方法的动作标签的定义采用本申请提出的深度神经网络模型(如图3所示);(4)本方法采用视觉方式,文献[1]采用传感器等动作捕捉方式。
三、发明内容
本发明专利提供了一种采用PAMS运动编码的运动行为知识图谱构建方法,其特征在于:(1)以pams 行为样本开放平台(www..pams.cn)的样例动作为模板,对现实场景中发生的运动行为采用分级构建模型,将基于深度学习的人体骨骼关键点转化为行为样本开放平台的对应不同级别的动作单元(Pose Unit,PU); (2)进一步采用深度神经编码网络学习并同时分层输出不同级别动作单元的动作类型,并自顶向下的构建不同级别动作单元的知识图谱属性关系。
四、附图说明
图1是本专利识别的人体骨骼关键点序号与在真人上的关键点位置展示样例。
图2是本专利识别的手势关键点序号。
图3是本专利动作标签识别过程的架构图。图中,PU1-PU5编码向量分别是用人体骨骼关键点间的空间位置关系构建的分级动作单元(PU),其定义参见本文件表格1;一维卷积用于提取PU1-PU5编码向量的特征,LSTM模块用于提取特征向量的时序信息,即视频片段的动作特征;图中“+”的“特征合并”操作用于将上一级别的PU特征与本级PU特征合并,实现由粗到细识别的过程。模型最终输出的多个层级的标签,是分类模型。
图4在图3结果的基础上,展示了利用知识图谱构建多级动作标签的样例。PU1-PU5表示各级动作标签的类别代号。
五、具体实施方式
本申请通过4个步骤,实现了
步骤一:三维人体姿态识别
采用文献[3]方法,提取如图1、图2所示的人体骨骼关键点、手势关节点、大母脚趾关节点的空间坐标。
步骤二:PU编码向量提取
按照表1所示的PU分级与骨骼关键点对应关系,计算视频片段中每帧的不同层级的动作姿态(PPU) 对应的骨骼关键点连接关系的空间向量,并把所有连接按照表1第三列的顺序合并成特征向量。表1第三列中的序号对应的是图1中的关键点的序号。其中,在计算4-右手关节,5-左手关节时,把图1中关节4、 5分别作为图2中手部姿态0点,进一步计算相邻连接的手部姿态的特征向量。
表1 PU分级与骨骼关键点对应关系
步骤三:多层级动作标签生成
如图3所示,采用深度神经网络,将视频片段生成的各级PU编码向量按照视频帧的输入顺序通过一味卷提提取特征后输入到单层LSTM模块。图中“+”的“特征合并”操作用于将上一级别的PU特征与本级PU特征合并,实现由粗到细识别的过程。模型最终输出的多个层级的标签。
步骤四:知识图谱构建
按照从PU1-PU5自顶向下的分级结构,对每个动作建立树状动作分级知识图谱标签,其效果如图4所示。并进一步根据专家和文献[2]的分类体系,在相似的PU1级动作之间进行非从属关系的连接。
参考文献:
[1]中国发明专利:基于个体运动行为层次模型的泛化应用系统及方法。申请号:202110178598.3
[2]行为样本开放平台www.pams.cn
[3]Jiefeng Li,Chao Xu,Zhicun Chen,Siyuan Bian,Lixin Yang,Cewu Lu:HybrIK:A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D HumanPose and Shape Estimation.CVPR 2021: 3383-3393
机译: 一种用于确定当前块的运动信息的方法,一种用于构建和更新基于历史的运动矢量预测器的列表的方法,以及用于编码/解码视频的非暂时性计算机可读存储介质的方法和装置
机译: 一种运动图像编码装置、运动图像编码方法和运动图像编码程序、运动图像解码装置、运动图像解码方法和运动图像解码程序。
机译: 式I化合物;药物组合物;治疗与去甲肾上腺素再摄取,5-ht6受体或5-ht2a受体相关或受其抑制的疾病的方法;一种治疗学习障碍,认知障碍,记忆障碍,人格障碍,行为障碍,运动障碍,神经退行性疾病,戒断药物,睡眠,进食障碍,急性药物毒性,心血管疾病的方法,性功能障碍,胃肠道疾病,泌尿生殖系统疾病,疼痛疾病,神经疾病或症状-血管舒缩;治疗阿尔茨海默氏病,注意力缺陷障碍,精神分裂症,帕金森氏病,迟发性运动障碍,共济失调,运动迟缓,阵发性运动障碍,不安腿综合征,震颤,原发性震颤癫痫,中风或头部外伤的方法;治疗冠状动脉疾病,心肌梗塞,短暂性脑缺血发作,心绞痛,心房颤动,p的方法