公开/公告号CN115578670A
专利类型发明专利
公开/公告日2023-01-06
原文格式PDF
申请/专利权人 浙江大学滨江研究院;
申请/专利号CN202211182875.9
申请日2022-09-27
分类号G06V20/40(2022.01);G06V40/20(2022.01);G06V10/82(2022.01);A61B5/00(2006.01);A61B5/16(2006.01);
代理机构杭州天勤知识产权代理有限公司 33224;
代理人高燕
地址 310051 浙江省杭州市滨江区东信大道66号二号楼301
入库时间 2023-06-19 18:19:26
法律状态公告日
法律状态信息
法律状态
2023-01-24
实质审查的生效 IPC(主分类):G06V20/40 专利申请号:2022111828759 申请日:20220927
实质审查的生效
2023-01-06
公开
发明专利申请公布
技术领域
本发明涉及计算机视觉技术领域,尤其涉及用于自闭症儿童行为识别及运动预测的方法、装置和诊疗机器辅助系统。
背景技术
自闭症谱系障碍(ASD)是最常见的发育障碍之一,以社会沟通和互动障碍为特征,并存在受限、重复的兴趣和行为。在我国,ASD儿童的人数每年约有20万。据研究,ASD最早可在14个月内发现,并且3岁之前有很高的确定性,但最新的调查报告显示,70%以上的ASD儿童在4岁之前并没有得到有效的干预和诊断。
针对ASD儿童的早期识别与筛查主要有两种形式。第一种是监护人通过密切观察儿童的行为表现,以记录和填写问卷的形式,由经验丰富的医生诊断和评估。这种方式需要大量的人力,且需要回忆并具有一定的主观性。第二种是基于计算机视觉的识别和诊断系统,通过收集和处理儿童行为数据,训练异常行为的决策模型来进行筛查。
然而,目前基于机器视觉的ASD行为识别方法存在以下的缺陷:(1)在ASD儿童行为数据的收集与处理方面:一种方法是使用可穿戴设备,从儿童的手臂、肩、肘等多个部位采集速度、加速度等信息,这通常会引起儿童的不适甚至反感,导致收集的数据存在不可靠信息;另一种方法是使用视频采集设备收集儿童的运动数据,但是忽略了设备在不同视角下收集的数据引起的识别准确率低的问题,而基于手工定义的视角一致性标准,需要消耗大量的人力和计算成本;(2)针对ASD儿童行为数据的特征提取和模型结构方面:ASD儿童表现出微弱或明显的混乱行为与目前行为识别领域探索的行为有明显的差别。普通的特征提取方式和模型结构不适用于ASD儿童行为特征的分析和建模。因为现有的方法主要关注如何从序列中提取高阶语义信息,而未考虑人体骨骼结构在不同行为中的不同贡献,导致对ASD儿童特定行为的识别效果不佳。比如ASD儿童常有的刻板动作“反复扭动手臂”是手臂和手腕关节的协调运动,即人体各部位之间的关系,不需要对所有的关节进行建模;(3)对ASD儿童行为的诊断和干预方面:现有的模型对ASD儿童的运动数据处理和特征提取的不足,导致诊断准确率低。另外,针对ASD儿童的过激行为如“攻击”、“自伤”,在识别的同时进行未来运动预测和干预的视觉模型,目前的报道少之又少。即现有的研究将ASD儿童行为识别任务和运动预测任务分开进行,导致模型对运动的理解不足,影响深度网络的辅助诊断和干预效率。
发明内容
本发明提供了一种用于自闭症儿童行为识别及运动预测的方法和装置、诊疗机器辅助系统,可在行为识别的同时进行未来运动的预测和干预。
本发明的技术方案如下:
一种用于自闭症儿童行为识别及运动预测的方法,包括:
(1)从不同角度获取儿童的原始骨架视频数据;
(2)将获取的原始骨架视频数据输入到视图自适应转换单元以自适应地转换到一致的坐标系下,获得人体骨架的最优表示;
(3)将人体骨架的最优表示输入到多尺度特征提取单元以提取人体骨架的高性能的时空特征;
(4)将高性能的时空特征输入到多任务学习单元,对人体进行行为识别和运动预测,获得行为分类结果和运动预测结果。
步骤(2)包括:
(2-1)根据向量在三维坐标系中的旋转规律,得到旋转矩阵
式中,
(2-2)将原始骨架视频数据根据平移向量和旋转矩阵进行平移和旋转,获取人体骨架的最优表示;
转换后的第t帧第j个关节s'
式中,γ
进一步的,所述的视图自适应转换单元使用AGC-LSTM网络来学习所述的平移向量和旋转参数。
为了使视图自适应转换单元自动地学习可训练参数
根据骨架的输入学习不同的转换参数,为每一帧产生不同的最佳表示。
步骤(3)包括:
(3-1)采用空间特征建模算子分别对人体关节尺度和人体部位尺度的空间特征进行提取,包括:
对于人体关节尺度:联合第i个关节s
f
式中,MLP(·)表示映射关节特征的多层感知器,使用Pandas库中的“Concat”函数来拼接特征;
通过下式计算第i个关节s
式中,T表示矩阵的转置符号;k用于求和计数,范围是[1,J],J表示数据集中标注的人体关节的总数;
采用下式计算邻接矩阵A
A
式中,W是对应的多阶可训练权重矩阵;⊙是基于元素的乘积运算;A是骨架的图卷积;A'表示A的一阶多项式;A”表示A的二阶多项式;W'表示W的一阶多项式;W”表示W的二阶多项式;
最后通过下式获取人体关节尺度的空间特征:
式中,γ是阶数;R(·)是Rule函数;S'
对于人体部位尺度:用邻居邻接矩阵A
(3-2)采用时间特征建模算子分别对人体关节尺度和人体部位尺度的时间特征进行提取,包括:
对于人体关节尺度,利用一维卷积(Conv)提取输入序列沿时间方向的特征,再使用ReLU激活函数进行非线性变换,获得人体关节尺度的时间特征,计算公式为:
T-HJ(S'
式中,T-HJ(S'
人体部位尺度的时间特征提取方法与人体关节尺度的时间特征提取方法相同;
(3-3)将人体部位尺度的特征的所有列复制一次,使其能够与人体关节尺度的特征在尺寸上相匹配;使用Concat函数将人体关节尺度和人体部位尺度的特征拼接起来,得到多尺度特征提取单元最终的高性能时空特征。
步骤(4)包括:
(4-1)采用平均池化层将所述的高性能时空特征转换为特征向量,使用Softmax层作为分类器,输出行为分类结果;
(4-2)使用图卷积算子将所述的高性能时空特征重新提取,并将输出的特征细化为位置X
第t+1帧的运动预测的输出F(t+1)由下式获得:
式中,F(t)表示第t帧的姿势,
获得的行为识别和运动预测结果,可以辅助ASD儿童的诊断筛查和过激行为干预。
本发明还提供了一种用于自闭症儿童行为识别及运动预测的装置,包括:
视图自适应转换单元(VAT-GCN),用于自动学习转换参数,并将不同视角收集的人体数据转换至统一的视角下,获得人体骨架的最优表示;
多尺度特征提取单元(MS-GCN),用于所述的人体骨架的最优表示中提取特征,获得高性能的时空特征;
多任务学习单元,用于根据所述的高性能的时空特征进行行为识别和运动预测,获得行为分类结果和运动预测结果。
所述的行为分类结果用于ASD儿童的辅助诊断和筛查,所述的运动预测结果用于患儿过激行为的干预。
所述的视图自适应转换单元采用AGC-LSTM网络学习转换参数。所述的转换参数包含一个平移向量和一个旋转矩阵,将输入的原始骨架序列转换成至统一的视角下,获得人体骨架的最优表示。输入的原始骨架序列中的每一帧骨架都可以由上述转换参数转换到统一的坐标系,得到人体骨架的最优表示。
所述的多尺度特征提取单元包括人体关节时空特征提取模块和人体部位时空特征模块;两个时空特征提取模块均包含空间特征建模算子(HJ-GCN或HP-GCN)和时间特征建模算子(T-HJ或T-HP)。
根据人体骨架在运动中的相互差异性,多尺度特征提取单元将来自视图自适应转换单元的人体骨架的最优表示分为两个尺度,以深入挖掘骨架与人体运动之间的关系。所述的两个尺度为:顶部专注于挖掘人体各关节间的时空特征,底部旨在挖掘人体各部位间的时空特征。每个人体被标记为20个关节点和10个部位。每个尺度都包含空间特征建模算子(HJ-GCN或HP-GCN)和时间特征建模算子(T-HJ或T-HP)。两个尺度之间采用融合方案来学习特征,以输出高性能的特征表示。
所述的多任务学习单元包括行为识别模块和运动预测模块;所述的行为识别模块采用平均池化层将上述多尺度特征提取单元输出的高性能时空特征转换为特征向量,采用Softmax层作为分类器,输出行为分类结果;所述的运动预测模块使用图卷积算子将所述的高性能时空特征重新提取,获得重新提取的特征的精细化表示,将姿势、重新提取的特征和对应的行为分类结果标签作为输入,提取隐藏特征后使用门控递归单元进行计算,获得下一帧的运动预测结果。
本发明还提供了一种用于自闭症儿童行为识别及运动预测的诊疗机器辅助系统,包括计算机存储器、计算机处理器以及存储在所述计算机存储器中并可在所述计算机处理器上执行的计算机程序,所述计算机存储器中存有视图自适应转换单元、多尺度特征提取单元和多任务学习单元,所述计算机处理器执行所述计算机程序时实现以下步骤:将获取的不同角度的儿童原始骨架视频数据输入到视图自适应转换单元以自适应地转换到一致的坐标系下,获得人体骨架的最优表示;将人体骨架的最优表示输入到多尺度特征提取单元以提取人体骨架的高性能的时空特征;将高性能的时空特征输入到多任务学习单元,对人体进行行为识别和运动预测,获得行为分类结果和运动预测结果。
与现有技术相比,本发明的有益效果为:
本发明将视图自适应转换单元集成到基于GCN的框架中,通过自动学习转换参数,将人体转换到最佳的统一视点,用于提高人体3D骨架的表示,克服了ASD儿童的特定场景下数据采集的困难和差异性,节省了计算成本,间接性地提高了对ASD患儿诊断和干预的准确度。
本发明的多尺度特征提取单元根据ASD儿童的行为特点将其分解为两个尺度,结合人体骨骼结构在不同运动中的不同贡献,建模人体的空间特征和连续帧的时间特征,并使用特殊的融合方法获得一致的时空特征。这些改进增加了特征提取对ASD儿童行为的针对性,获得的高性能特征直接提高了诊断的准确率,降低干预系统的误差约0.6。
本发明的多任务学习单元和自监督学习方案能够同时处理行为识别任务和运动预测任务,并行输出两个任务的结果。行为识别任务中的高性能特征可用于预测运动,预测运动任务中提取的特征可帮助理解动作。
附图说明
图1为本发明的通用图神经网络中各单元的连接框图;
图2为视图自适应转换单元的结构图;
图3为骨架模型自适应变换的具体过程;
图4为多尺度特征提取单元的结构图;
图5为多任务人体活动学习单元的连接结构图;
图6为人体关节和人体部位的图解,其中(a)为任意关节与其他关节之间的关系,(b)为各部分与其他部分之间的关系;
图7为视图自适应转换单元的效果图;
图8为本发明的整体流程图;
图9为本发明的运动预测任务效果图,其中第一行为运动的真实标签,第二行为本发明的预测结果。
具体实施方式
下面结合附图和实施例对本发明作进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明的目的在于克服上述现有基于视觉的技术的缺陷,有效辅助诊断和干预ASD患儿。提供一种基于人体骨架的通用图神经网络的辅助诊断和预测方法,结合行为识别和运动预测技术进行ASD儿童的辅助诊断和干预。
针对上述缺陷(1),本发明提供了一种集成于图神经网络(GCN)的骨架表示自适应调节方案。该方案根据学习到的特征自动将人体转换到统一的视点上,以克服视图的变化对行为识别准确度的影响,同时节省人工处理成本。
针对上述缺陷(2),本发明提供了几种基于GCN的图形算子来描述人体不同关节和部位之间的位置关系和抽象动力学。通过学习两种类型的人体图和时间信息,以获得多尺度的时空特征。根据ASD儿童的行为特点发明的特征提取单元,使得网络更全面地理解患儿的行为,获得高性能的时空特征。
针对上述缺陷(3),本发明提供了一种实用的多任务学习框架和一个多目标自监督学习方案,采用特征互用的方法提高网络学习的效率。即从动作识别任务中获得的标签用于运动预测,运动预测中产生的详细特征用于动作识别。解决了特定场景下(家庭、幼儿园等)行为识别和对长期运动预测的准确性低的问题,为ASD儿童的诊断和干预提供更可靠的数据。同时,该发明使得多任务人类活动理解的模型得到了充分研究,为人体行为分析提供了新的参考方法。
图1是本发明的通用图神经网络(Vers-GNN)中各个单元之间的连接结构图。本发明的通用图神经网络包含视图自适应转换单元(VAT-GCN)、多尺度特征提取单元(MS-GCN)和多任务学习单元。所述的视图自适应转换单元用于自动学习转换参数,并将不同视角收集的人体数据转换至统一的视角下,获得人体骨架的最优表示,以解决视图变化的影响;所述的多尺度特征提取单元由多个图卷积算子组成,这些算子由一种双向融合方案进行处理,用于从上述的人体骨架的最优表示中提取特征,获得高性能的时空特征;所述的多任务学习单元用于行为识别和运动预测两个任务的相互促进,获得行为分类和运动预测结果。所述的行为分类结果用于ASD儿童的诊断和筛查,所述的运动预测结果用于患儿过激行为的干预。
图2为发明的视图自适应转换单元的结构图。AGC-LSTM网络用于学习转换参数。所述的转换参数包含一个平移向量和一个旋转矩阵,用于转换输入的原始骨架序列。所述的AGC-LSTM网络是已公开的模型结构,它是通过将标准LSTM中的输入、隐藏状态和单元记忆替换为图形结构来实现的。图3为原始骨架经过视图自适应转换单元的转换过程。原始输入的每一帧骨架都可以由上述的转换参数转换到统一的坐标系,得到人体骨架的最优表示。
图4为发明的多尺度特征提取单元中各部分的连接结构,用于学习上述视图自适应转换单元的特征。根据人体骨架在运动中的相互差异性,该单元将来自视图自适应转换单元的骨架分为两个尺度,以深入挖掘骨架与人体运动之间的关系。所述的两个尺度为:顶部专注于挖掘人体各关节间的时空特征,底部旨在挖掘人体各部位间的时空特征。所述的人体各关节和人体各部位如图6所示,每个人体被标记为20个关节点和10个部位。每个尺度都包含空间特征建模算子(HJ-GCN或HP-GCN)和时间特征建模算子(T-HJ或T-HP)。两个尺度之间采用融合方案来学习特征,以输出高性能的特征表示。
图5是多任务学习单元的连接结构。对于ASD儿童的行为识别,使用标准的Softmax层作为分类器,并输出最终的诊断结果;对于运动预测,获得的高性能特征被发明的特征提取器重新提取,并行输出三种类型的统一表示以预测运动,用于ASD过激行为的干预。该单元将行为识别的结果和运动预测的结果相互关联,即行为识别的结果用于辅助运动预测,运动预测的结果用于提高行为识别的准确性。
进一步地,如图8所示,本发明的人体行为识别和运动预测的方法包括:
S100,使用三个Kinect V2传感器从不同角度获取儿童的原始骨架视频数据(模型测试时仅需一个),并初始化模型的所有层。
S101,a、将获取的原始骨架数据输入到视图自适应转换单元以自适应地转换到一致的坐标系下,获得人体骨架的最优表示。
b、进一步地,视图自适应转换单元主要使用平移和旋转的方式转换原始骨架。具体地,根据向量在三维坐标系中的旋转规律,得到旋转矩阵
式中,
式中,γ
c、进一步地,考虑到时空要素的建模问题,视图自适应转换单元使用AGC-LSTM网络作为建模层,用来学习上述的平移和旋转参数。所述的AGC-LSTM网络是已公开的模型结构,它是通过将标准LSTM中的输入、隐藏状态和单元记忆替换为图形结构来实现的。
d、将上述视图自适应变换方法集成到基于GCN的网络中,以输出最优的骨架表示。使用基于GCN的层来对平移和旋转过程进行建模。在基于GCN的层之后,即可以得到平移向量和旋转矩阵。平移向量和旋转矩阵均由AGC-LSTM网络的权重乘以网络隐藏层的特征,再加上网络的偏置得到。
S102,在得到最优的骨架表示后,多尺度特征提取单元来有效学习骨架的特征。具体地:
a、多尺度特征提取单元的输入是上述视图自适应转换单元输出的人体骨架信息。将人体骨架表示分为两个尺度,深入挖掘骨架与人体运动之间的关系。所述的两个尺度为图4中的上、下两部分,即人体关节和人体部位。所述的人体关节和人体部位的图解如图6所示。图6(a)旨在研究任意关节与其他关节之间的关系,图6(b)中,人体的骨架被分为十个部位,旨在研究各部位与其他部位之间的关系。用两个分支挖掘两个尺度的骨骼特征。所述的两个分支中,每个分支包括空间特征建模算子(HJ-GCN或HP-GCN)和时间特征建模算子(T-HJ或T-HP)。因此,发明的方法使得网络分别学习了人体关节和人体部位的特征。
空间特征建模算子(HJ-GCN或HP-GCN)是基于标准的图卷积(GCN)改进而来的,改进的具体方法如下:
b、HJ-GCN算子用于对人体关节尺度(即上述的第一个尺度)的空间特征进行建模。具体方法如下:
①首先,联合第i个关节s
f
式中,MLP(·)表示映射关节特征的多层感知器,使用Pandas库中的“Concat”函数来拼接特征,f
在此之后,将每个关节s
式中,T表示矩阵的转置符号;k用于求和计数,范围是[1,J],J表示数据集中标注的人体关节的总数。
②进一步地,引入另一个邻接矩阵A
A
式中,W是对应的多阶可训练权重矩阵;⊙是基于元素的乘积运算;A是骨架的图卷积;A'表示A的一阶多项式;A”表示A的二阶多项式;W'表示W的一阶多项式;W”表示W的二阶多项式。
③进一步地,采用如下式所示的GCN算子来挖掘人体关节丰富的空间特征。
式中,γ是阶数;R(·)是Rule函数;S'
c、HP-GCN算子用于对人体部位尺度(即上述的第二个尺度)的空间特征进行建模。具体方法如下:
与上述HJ-GCN算子相似,用邻接矩阵A
d、时间特征建模算子(T-HJ或T-HP)的结构为“一层经典卷积+一个ReLU函数”。时间特征建模算子用于挖掘帧之间的时间关系。具体方法如下:
①首先,将对应于HJ-GCN的时间特征建模记为“T-HJ”。其结构为:利用标准的一维卷积(Conv)提取输入序列沿时间方向的特征,再使用ReLU激活函数进行非线性变换。目的是学习前一阶段的HJ-GCN从每一帧中聚集的时间信息。由下面的公式得到“T-HJ”的输出T-HJ(S'
T-HJ(S'
式中,k和s分别表示卷积核大小和步长。
②进一步地,与上述的T-HJ算子类似,将对应于HP-GCN算子的时间特征建模单元记为“T-HP”,用于学习由上述的HP-GCN算子聚合的每一帧中人体部位的时间信息。使用上述d①中的公式输出网络的特征。
e、所述的多尺度特征融合方案,用于交换上述的两个尺度之间的隐藏层特征,获得一致的多尺度时空特征。多尺度特征在各单元中双向流动,具体方法如下:
①在上述人体关节和人体部位定义的基础上,对属于同一人体部位的特征进行平均。使用“Concat”函数融合平均后的特征,并将其复制一次,获得人体部位尺度的特征。然后拼接人体关节尺度的所有特征,以输出多尺度特征提取单元最终的高性能时空特征。
S103,多任务学校单元如图5所示。该网络旨在并行识别人体行为和预测人体运动。其步骤为:
a、识别人体行为,采用平均池化层将上述多尺度特征提取单元输出的高性能时空特征转换为特征向量,使用标准的Softmax层作为分类器,输出分类结果。分类结果同时用于辅助预测人体运动。
b、所述的预测人体运动任务,其步骤为:
①使用一个标准的图卷积算子将上述MS-GCN输出的高性能时空特征重新提取(图5中HJ-GCN下面),将其输出的特征细化为三种类型的统一表示,包括位置X
②进一步地,沿着时间轴的顺序预测未来帧的运动。运动预测单元的输入由第t帧的姿势F(t)、
式中,
图9为本发明的运动预测任务效果图,其中第一行为运动的真实标签,第二行为本发明的预测结果。
需要注意的是,本发明的运动预测过程不增加额外计算成本。因为后一帧的预测使用了前一帧的特征,整体预测是连续的和自循环的。
另外,整个网络采用自监督的学习和训练方法。其原理为:
①为了使视图自适应转换单元自动地学习可训练参数
根据骨架的输入学习不同的转换参数,为每一帧产生不同的最佳表示。值得说明的是:这些表示可能来自不同的角度,它们只是抽象的特征。
②对于运动预测,损失函数设置为:
其中X和X表示预测帧和真实帧,||·||
③对于动作识别,损失函数设置为:
其中Y和Y分别是动作的预测标签和真实标签,f(·)是交叉熵函数,
S104,根据得到的行为识别和运动预测的结果,辅助ASD儿童的诊断筛查和过激行为干预。
需要注意的是,上述的各个单元以图中所示的连接方式组成一个端到端的ASD儿童行为识别、运动预测的系统。训练时将行为识别和运动预测任务分开进行,并采取不同的参数设置。
进一步地,对于行为识别任务,在多尺度特征提取单元中使用6个相同的时空特征提取块。每个提取块包含上述的“HJ-GCN”、“T-HJ”、“HP-GCN”和“T-HP”四个单元。6个时空特征提取块的特征维度分别设置为32、64、128、128、256和256。提取块中采用的一维标准卷积,核大小为7,第二块和第四块的步长为2,其余块为1。自监督训练方案的权衡权重λ设置为0.5。模型使用标准的Adam优化器,初始学习率为0.005,批大小为128。
进一步地,对于运动预测任务,使用4个上述的时空提取块。特征维度分别为64、64、128和256。权衡权重λ设置为0.8,所有时空提取块中采用的一维标准卷积的步长大小分别被设置为1、1、2和2。模型使用标准的Adam优化器,初始学习率为0.0001,批大小为32。
本发明的优势是:
本发明的视图自适应转换单元:将视图自适应转换单元集成到基于GCN的框架中,通过自动学习转换参数,将人体转换到最佳的统一视点,用于提高人体3D骨架的表示。视图自适应转换单元的效果如图7所示。克服了ASD儿童的特定场景下数据采集的困难和差异性,节省了计算成本,间接性地提高了对ASD患儿诊断和干预的准确度。
本发明的多尺度特征提取单元:根据ASD儿童的行为特点将其分解为两个尺度,结合人体骨骼结构在不同运动中的不同贡献,建模人体的空间特征和连续帧的时间特征,并使用特殊的融合方法获得一致的时空特征。这些改进增加了特征提取对ASD儿童行为的针对性,获得的高性能特征直接提高了诊断的准确率,降低干预系统的误差约0.6。
本发明的多任务学习单元和自监督学习方案:能够同时处理行为识别任务和运动预测任务,并行输出两个任务的结果。动作识别任务中的高性能特征可用于预测运动,预测运动任务中提取的特征可帮助理解动作。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。
机译: 诊疗辅助装置,诊疗辅助方法及诊疗辅助系统
机译: 用于诊断自闭症谱系障碍的机器人辅助系统和方法
机译: 能够根据自闭症儿童行为控制机器人的社交性训练装置和方法