首页> 中国专利> 动作识别装置、动作识别方法以及存储介质

动作识别装置、动作识别方法以及存储介质

页面导航

摘要
著录项
说明书
相似文献

摘要

一种动作识别装置、动作识别方法以及存储介质，能够分别识别在不同的作业工序中进行的共通动作。动作识别装置(10)具备：获取部(11)，获取动作信息，上述动作信息包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据；转换部(12)，基于骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与身体部位中被定为起点的起点部位所对应的起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离；以及学习部(13)，学习用于动作识别的模型，上述模型基于由转换部将坐标转换为距离后的动作信息，输出表示属于共通动作中的任一个的作业者的动作的信息。

著录项

公开/公告号CN113850114A

专利类型发明专利
公开/公告日2021-12-28

原文格式PDF
申请/专利权人欧姆龙株式会社;
展开▼

申请/专利号CN202110516167.3
发明设计人内田滋穂里;西行健太;
展开▼

申请日2021-05-12
分类号G06K9/00(20060101);
代理机构11240 北京康信知识产权代理有限责任公司;
代理人田喜庆
地址日本京都
入库时间 2023-06-19 13:26:15

说明书

技术领域

本发明涉及动作识别装置、动作识别方法以及存储介质。

背景技术

以往，在工厂等的生产线设置相机、传感器等，基于由它们得到的作业者的动作信息，识别作业者的动作，并进行评价。例如，在下述专利文献1中，基于通过动作捕捉等得到的信息，判断有无从标准作业脱离的非标准作业。

在专利文献1中，假定在某个作业工序中进行的动作，判断该动作的有无、该动作是否存在异常。

专利文献1：国际公开第2018/131630号

发明内容

然而，作业工序中进行的动作即便是属于相同的动作种类的动作，也多存在按每个作业工序而成为不同的动作的情况。例如，在紧固螺丝的工序和嵌合壳体的工序中，作为共通动作，包括手移动至作业对象并抓取(握持)的动作，但各自的抓取动作不同。若具体说明，则在紧固螺丝的工序中，例如成为用一只手抓取放置于部件箱的部件，用另一只手抓取从作业者的前上方通过线缆吊下的电动螺丝刀的动作。相对于此，在嵌合壳体的工序中，例如成为用双手抓取放置于部件箱的壳体的动作。

在专利文献1中，在将像这样按每个作业工序进行不同动作的共通动作作为识别对象的情况下，能够识别在任一作业工序中进行的共通动作。然而，为了识别在其他作业工序中进行的共通动作，需要以能够识别在其他作业工序中进行的共通动作的方式进行其他设计等。

因此，本发明提供能够分别识别在不同的作业工序中进行的共通动作的动作识别装置、动作识别方法以及动作识别程序。

本发明的一方式所涉及的动作识别装置具备：获取部，获取动作信息，上述动作信息包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据；转换部，基于骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标；以及学习部，学习用于动作识别的模型，上述模型为：基于由转换部将坐标转换为距离后的动作信息，输出表示作业者的动作的信息，其中，上述作业者的动作属于共通动作中的任一个。

根据该方式，能够分别针对骨骼数据所含的与多个身体部位分别对应的坐标与起点部位所对应的起点坐标之间的距离进行计算，将骨骼数据的各坐标置换为经过该计算而得到的距离。而且，能够学习用于动作识别的模型，该模型基于将骨骼数据的各坐标置换为距离数据后的动作信息，输出表示作业者的动作的信息，上述作业者的动作属于共通动作中的任一个。

本发明的另一方面所涉及的动作识别装置具备：获取部，获取与作业者的动作相关的时间序列信息；转换部，基于从时间序列信息提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标；以及动作识别部，将由转换部转换后的距离输入已学习完成模型，并基于从该已学习完成模型输出的表示作业者的动作的信息，来识别作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

根据该方式，能够分别针对从成为识别对象的作业者的时间序列信息提取出的骨骼数据所含的与多个身体部位分别对应的坐标与起点部位所对应的起点坐标之间的距离进行计算，将骨骼数据的各坐标置换为经过该计算而得到的距离。而且，通过将置换后的距离数据输入已学习完成模型，能够识别属于共通动作中的任一个的作业者的动作。

也可以是，在上述各方式中，起点部位为颈部或者腰部中的任一个。

由此，能够在成为识别对象的作业者的动作的中心附近决定起点部位。

本发明的另一方面所涉及的动作识别方法是由处理器执行的动作识别方法，包括如下步骤：获取动作信息，上述动作信息包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据；基于骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标；以及学习用于动作识别的模型，上述模型为：基于将坐标转换为距离后的动作信息，输出表示作业者的动作的信息，其中，上述作业者的动作属于共通动作中的任一个。

本发明的另一方面所涉及的动作识别方法是由处理器执行的动作识别方法，包括如下步骤：获取与作业者的动作相关的时间序列信息；基于从时间序列信息提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标；将转换后的距离输入已学习完成模型，并基于从该已学习完成模型输出的表示作业者的动作的信息，来识别作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

本发明的另一方面所涉及的存储介质存储有动作识别程序，使计算机作为获取部、转换部以及学习部发挥功能，上述获取部获取动作信息，上述动作信息包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据，上述转换部基于骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标，上述学习部学习用于动作识别的模型，上述模型为：基于由转换部将坐标转换为距离后的动作信息，输出表示作业者的动作的信息，其中，上述作业者的动作属于共通动作中的任一个。

本发明的另一方面所涉及的存储介质存储有动作识别程序，使计算机作为获取部、转换部以及动作识别部发挥功能，上述获取部获取与作业者的动作相关的时间序列信息，上述转换部基于从时间序列信息提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个坐标与起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标转换为经过计算而得到的距离，其中，上述起点坐标是身体部位中被定为起点的起点部位所对应的坐标，上述动作识别部将由转换部转换后的距离输入已学习完成模型，并基于从该已学习完成模型输出的表示作业者的动作的信息，来识别作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

根据本发明，能够提供能够分别识别在不同的作业工序中进行的共通动作的动作识别装置、动作识别方法以及动作识别程序。

附图说明

图1是例示本发明的实施方式所涉及的动作识别系统的概要的图。

图2是表示紧固螺丝的工序中的握持动作的一个例子的示意图。

图3是表示嵌合壳体的工序中的握持动作的一个例子的示意图。

图4是例示动作识别系统以及动作识别装置的功能结构的图。

图5是表示存储于动作识别装置的动作信息的一个例子的图。

图6是示意性地表示对骨骼数据的颈部所对应的坐标与其他的各坐标之间的距离进行计算的状况的图。

图7是例示动作识别装置的硬件结构的图。

图8是用于对动作识别装置的学习模式时的动作的一个例子进行说明的流程图。

图9是用于对图8所示的转换处理的次序进行说明的流程图。

图10是用于对动作识别装置的动作识别模式时的动作的一个例子进行说明的流程图。

具体实施方式

以下，基于附图对本发明的一方面所涉及的实施方式(以下，表述为“本实施方式”。)进行说明。此外，各图中，标注相同的附图标记的部分相同或者具有相同的结构。

§1应用例

首先，使用图1，对应用本发明的场景的一个例子进行说明。本实施方式所涉及的动作识别系统100利用图像传感器20a、20b、20c拍摄在某个作业区域R中进行的作业者A的动作，获取到该拍摄到的视频的动作识别装置10使用已学习完成模型来识别作业者A的共通动作。此处，共通动作是在不同的作业工序中共通地包括的动作(属于相同的动作种类的动作)。作为这样的共通动作，例如握持、搬运、调整等那样，属于在不同的作业工序中共通地进行的动作。

将握持定义为手移动至作业对象并抓取的动作，例如，去抓取部件、器具的动作符合该动作。将搬运定义为使作业对象移动至目的场所的动作，例如，朝向组装的产品运输部件、器具的动作符合该动作。将调整定义为将作业转移至目标状态的动作，例如，进行部件的组装的动作符合该动作。

在本实施方式中，例示性地对共通动作为握持的情况进行说明，但在搬运、调整等其他共通动作中也能够同样地应用。

已学习完成模型是如下进行了学习后的用于动作识别的模型：将包括基于作业者的骨骼数据生成的距离数据等的动作信息作为输入，将表示作业者的动作的信息作为输出。学习时输入的距离数据是表示作业者的骨骼数据所含的与多个身体部位分别对应的坐标与身体部位中被定为起点的起点部位所对应的起点坐标之间的距离的数据。

作为起点部位，例如能够设定颈部、腰部等。此处，优选在作业者的上半身成为识别对象的情况下，设定颈部来作为起点部位，在作业者的全身成为识别对象的情况下，设定腰部来作为起点部位。这样，优选在成为识别对象的作业者的动作的中心附近决定起点部位。

参照图2以及图3，进一步对距离数据进行说明。图2是例示出在紧固螺丝的工序中，作业者Aa欲伸出右手抓取从作业者Aa的前方并且上方利用线缆吊下的电动螺丝刀D的动作的图。图3是例示出在嵌合壳体的工序中作业者Ab欲伸出双手抓取放置于部件箱的壳体C的动作的图。

图2以及图3中，均为作业者Aa、Ab进行握持动作。然而，例如，在作业者Aa的右手和作业者Ab的右手中，作为握持动作的动作完全不同。在识别这样的握持动作的情况下，以往，需要按每个作业工序生成学习模型等，来识别在各个作业工序中进行的握持动作。

相对于此，本申请发明通过将作业者的骨骼数据所含的各坐标分别置换为以某个身体部位为起点的距离，并使这些距离的特征与作业者的握持动作建立关联来学习，从而能够分别识别在不同的作业工序中进行的握持动作。以下具体地进行说明。

在2以及图3中，若以各个作业者Aa、Ab的颈部为起点，对各个作业者Aa、Ab的右手的动作进行分析，无论哪一个握持动作，都能够表征为右手向远离颈部的方向运动的动作。而且，图2所示的紧固螺丝的工序中作业者Aa用右手抓取电动螺丝刀D的动作期望为在紧固螺丝的工序中所有作业者均可同样高效地进行动作。同样，图3所示的嵌合壳体的工序中作业者Ab用右手抓取壳体C的动作期望为在嵌合壳体的工序中所有作业者均可同样高效地进行动作。

因此，通过使与在各个作业工序中进行的握持动作对应的右手的距离数据与各个作业工序的握持动作建立关联来学习，从而能够在各个作业工序中高精度地识别作业者用右手抓取作业对象的动作。

这样，根据本实施方式所涉及的动作识别装置10，能够分别识别在不同的作业工序中进行的握持动作等共通动作。

§2结构例

[功能结构]

接下来，参照图4，针对本实施方式所涉及的动作识别系统100以及动作识别装置10的功能结构，说明其一个例子。动作识别系统100具备三台图像传感器20a、20b、20c、以及动作识别装置10。以下，在不需要特别区别记载三台图像传感器20a、20b、20c的情况下，记载为图像传感器20。动作识别装置10作为功能性的结构，例如具有获取部11、转换部12、学习部13、动作识别部14以及存储部19。存储部19例如存储视频19a、动作信息19b以及已学习完成模型19c。

此处，在本实施方式中，对动作识别装置10具有学习用于动作识别的模型的功能(学习模式)和识别作业者的动作的功能(动作识别模式)的情况进行说明，但也可以将各个功能分散具备于独立的单独装置中。

以下对动作识别系统100以及动作识别装置10所具有的各功能结构的详情依次进行说明。

＜图像传感器＞

图像传感器20例如是通用的相机，对包括作业者A在作业区域R中进行动作的情况的视频进行拍摄。图像传感器20作为功能性的结构，例如具有检测部。检测部检测作业者A的动作，并将表示该动作的视频作为时间序列信息而输出。

此处，时间序列信息不限定于视频。例如，也可以是表示利用能够替代图像传感器20而具备的动作捕捉器而测定的作业者A的动作的坐标所相关的信息。

各图像传感器20a、20b、20c配置为能够拍摄作业区域R的全域以及作业者A的全身。在这种情况下，例如，也可以是各图像传感器20a、20b、20c分别配置为能够拍摄作业区域R的全域以及作业者A的全身，也可以是各图像传感器20a、20b、20c分别配置为拍摄作业区域R以及作业者A的一部分，并通过将各个视频合起来而能够覆盖作业区域R的全域以及作业者A的全身。另外，也可以是各图像传感器20a、20b、20c分别以不同的倍率拍摄作业区域R以及作业者A。图像传感器20不必具备三台，至少具备一台以上即可。

＜获取部＞

获取部11从图像传感器20获取与作业者A所进行的动作相关的时间序列信息(在本实施方式中视频)。将获取部11获取到的时间序列信息向存储部19传送，并存储为视频19a。获取部11也获取存储于存储部19的视频19a。

获取部11从视频19a的图像提取表示作业者的骨骼的动作的骨骼数据。骨骼数据能够由与多个身体部位分别对应的坐标(x，y)来表达。在本实施方式中，对坐标为二维坐标(x，y)的情况进行说明，但在为三维坐标(x，y，z)的情况下也同样能够应用。另外，除了坐标值之外，也可以附加表示坐标值的准确度的信息。

将骨骼数据向存储部19传送，并存储为动作信息19b的一部分。获取部11也获取存储于存储部19的动作信息19b。

参照图5，对动作信息19b进行说明。作为数据项目，动作信息19b例如构成为包括经过时间项目、右手动作项目、左手动作项目以及骨骼数据项目。经过时间项目以成为作业对象的所有工序中的最初的工序开始的时间为基准，并存储从成为该基准的时间起的经过时间。经过时间的间隔能够任意地设定，例如，也可以按每个视频的帧单位而设定，也可以如每1秒等那样按每规定时间而设定。

右手动作项目储存表示右手的动作属于作为识别对象的共通动作的哪一个的信息。左手动作项目储存表示左手的动作属于作为识别对象的共通动作的哪一个的信息。对于储存于右手动作项目以及左手动作项目的信息而言，例如，能够通过参照视频，按每经过时间确认右手以及左手的各动作，并输入该确认后的动作内容来登记。

动作信息19b的骨骼数据项目储存从与经过时间对应的视频提取出的骨骼数据。此外，将储存于该骨骼数据项目的骨骼数据置换为由后述的转换处理计算而得到的距离数据。

图5所示的前端行的动作信息是基于从最初的工序开始起经过了1秒的时刻的视频的动作信息。该动作信息储存有表示作业者的右手的动作不属于共通动作中的任一个且作业者的左手的动作属于共通动作中的握持的信息以及从该时刻的视频提取出的骨骼数据。另外，图5所示的最终行的动作信息是基于从最初的工序开始起经过了2分53秒的时刻的视频的动作信息。该动作信息储存有表示作业者的右手以及左手的动作均属于共通动作中的调整的信息以及从该时刻的视频提取出的骨骼数据。

＜转换部＞

图4所示的转换部12执行将骨骼数据所含的各坐标转换为距起点坐标的距离的转换处理。转换处理是如下处理：基于骨骼数据所含的与多个身体部位分别对应的坐标，分别针对各个坐标与起点部位所对应的起点坐标之间的距离进行计算，将骨骼数据所含的各个坐标置换为经过计算而得到的距离。

此处，转换部12在学习模式时以及动作识别模式时成为共通的功能，但所输入的骨骼数据不同。在学习模式时，基于使用学习对象的视频生成的动作信息所含的骨骼数据来计算距离。另一方面，在动作识别模式时，基于从成为识别对象的作业者的视频提取出的骨骼数据来计算距离。

图6示意性地示出，设定颈部作为起点部位a，并分别针对颈部所对应的起点坐标与身体部位分别对应的坐标之间的距离进行计算的图像。

通过将图6所示的骨骼数据的各坐标分别转换为距起点坐标的距离，从而能够进行以下那样的识别。例如，若与右手对应的距离随着时间的经过而变长，则能够识别右手以怎样的程度向远离颈部的方向移动(伸长)。另一方面，若与右手对应的距离随着时间的经过而变短，则能够识别右手以怎样的程度向接近颈部的方向移动(缩短)。

距起点坐标的距离d

式(1)的p能够任意地指定为例如1或者2，但不局限于此。

转换部12基于由式(1)计算而得到的距离d

此处，转换部12能够进一步包括进行用于对从视频提取出的骨骼数据进行调整的调整处理的调整部。转换部12所含的调整部在执行前述的转换处理之前执行调整处理。

调整处理例如包括骨骼数据的时间序列补充处理、身高(体型)的标准化处理、骨骼数据的时间序列平滑化处理、骨骼数据的移位处理以及噪声赋予处理。以下对调整处理所含的各处理进行说明。

骨骼数据的时间序列补充处理是基于位于时间上的先后的其他的骨骼数据对骨骼数据所产生的缺损数据进行补充的处理。缺损数据例如是由于作业者的姿势等而隐藏的无法推断的部位而产生的。

身高(体型)的标准化处理例如是为了吸收男女间等所产生的体型差而基于体形使骨骼数据标准化的处理。作为标准化的处理，例如通过将骨骼数据除以躯干的长度(例如从鼻部至腰部为止的长度)，生成标准化的数据。

骨骼数据的时间序列平滑化处理是除去骨骼数据的相对于时间轴方向的变化的噪声的处理。作为平滑化的处理，例如，通过相对于骨骼数据实施高斯滤波处理，能够生成平滑化的数据。

骨骼数据的移位处理是通过使骨骼数据的原点一致并统一起点来抑制动作的不一致，使动作的特征容易识别的处理。例如，以使颈部的关节位于原点的方式使骨骼数据整体平行移动而生成移位后的骨骼数据。

噪声赋予处理是通过对骨骼数据施加噪声而使骨骼数据假想地增加的处理。施加于骨骼数据的噪声例如可以在可适合作为骨骼数据的范围内随机地产生的值来生成。

此处，优选调整部在学习模式时，执行前述的调整处理的各处理，在动作识别模式时，执行从前述的调整处理除去了噪声赋予处理之外的各处理。

＜学习部＞

图4所示的学习部13是学习模式时的功能。学习部13生成(学习)用于动作识别的模型，上述用于动作识别的模型基于由转换部12将骨骼数据的各坐标转换为距离之后的动作信息19b，输出表示属于共通动作中的任一个的作业者的动作的信息。

由学习部13学习的模型向存储部19传送，并作为已学习完成模型19c而存储。

＜动作识别部＞

动作识别部14是动作识别模式时的功能。动作识别部14将距离数据输入已学习完成模型19c，并基于表示属于从已学习完成模型19c输出的共通动作中的任一个的作业者的动作的信息，识别作业者的动作，其中，距离数据是通过转换部12将成为识别对象的作业者所对应的骨骼数据的各坐标进行转换后而得到的数据。在识别作业者的动作时，例如能够使用ST-GCN(Spatial Temporal Graph Convolutional Networks)等公知的动作识别方法。

[硬件结构]

接下来，使用图7，针对本实施方式所涉及的动作识别装置10的硬件结构，说明其一个例子。动作识别装置10具有：相当于运算装置的CPU(Central Processing Unit)10a、相当于存储部19的RAM(Random Access Memory)10b、相当于存储部19的ROM(Read onlyMemory)10c、通信装置10d、输入装置10e、显示装置10f。上述各结构经由总线以能够彼此收发数据的方式连接。此外，在本实施方式中对动作识别装置10由一台计算机构成的情况进行说明，但动作识别装置10也可以使用多个计算机实现。

CPU10a作为执行存储于RAM10b或者ROM10c的程序并进行数据的运算、加工的控制部发挥功能。CPU10a从输入装置10e、通信装置10d接收各种输入数据，并使对输入数据进行了运算的结果显示于显示装置10f，或者储存于RAM10b、ROM10c。

RAM10b例如由半导体存储元件构成，并存储能够改写的数据。ROM10c例如由半导体存储元件构成，并存储能够读出并且无法改写的数据。

通信装置10d是使动作识别装置10与外部设备连接的接口。通信装置10d例如通过LAN(Local Area Network：局域网)、因特网等通信网络与图像传感器20连接，并从图像传感器20接收视频。

输入装置10e是从用户接受数据的输入的接口，例如，能够包括键盘、鼠标以及触摸面板。

显示装置10f是在视觉上显示基于CPU10a的运算结果等的接口，例如能够由LCD(Liquid Crystal Display：液晶显示器)构成。

程序也可以作为存储于RAM10b、ROM10c等能够由计算机读取的存储介质而提供，也可以作为经由通过通信装置10d而连接的通信网络来提供。动作识别装置10通过CPU10a执行程序，从而进行图4所示的获取部11、转换部12、学习部13以及动作识别部14的动作。此外，这些物理结构是例示的，也可以不必是独立的结构。例如，动作识别装置10也可以成为具备CPU10a和RAM10b、ROM10c一体化而成的LSI(Large-Scale Integration)。

§3动作例

图8是表示本实施方式所涉及的动作识别装置10的学习模式时的动作的一个例子的流程图。该动作是使用将从用于学习的视频提取出的骨骼数据所含的各坐标转换为距起点坐标的距离之后的动作信息19b，来学习用于动作识别的模型时的动作。

首先，获取部11从存储部19获取基于用于学习的视频19a而生成的动作信息19b(步骤S101)。该动作信息19b是基于对根据包括共通动作的作业工序进行作业的作业者进行了拍摄的视频而生成的信息。另外，动作信息19b的骨骼数据项目储存有与该视频对应的作业者的骨骼数据。

接着，转换部12执行将骨骼数据所含的各坐标转换为距起点坐标的距离的转换处理(步骤S102)。针对该转换处理的次序将后述。

接着，学习部13学习用于动作识别的模型，上述用于动作识别的模型基于包括在上述步骤S102中进行了转换之后的距离数据的动作信息19b，输出表示属于共通动作中的任一个的作业者的动作的信息(步骤S103)。然后，结束本动作。

参照图9，对上述步骤S102中执行的转换处理的次序进行说明。在该转换处理中，预先设定颈部，作为起点部位。

首先，通过获取部11，例如从帧数为F的视频19a的图像按每帧单位提取1套骨骼数据(步骤S201)。换句话说，通过获取部11提取F套骨骼数据。

接着，转换部12根据上述式(1)，对1套骨骼数据所含的与多个身体部位分别对应的坐标与起点部位所对应的起点坐标之间的距离分别进行计算(步骤S202)。

接着，转换部12将骨骼数据所含的各个坐标转换为由上述步骤S202计算而得到的距离(步骤S203)。由此，在动作信息19b的骨骼数据项目储存有距离数据。

接着，转换部12判定是否已将F套所有的骨骼数据的坐标转换为距离(步骤S204)。在该判定为否的情况下，向上述步骤S202转移处理，另一方面，在该判定为是的情况下，结束本转换处理。

图10是表示本实施方式所涉及的动作识别装置10的动作识别模式时的动作的一个例子的流程图。在该动作中，对成为识别对象的作业者的动作进行了拍摄的视频19a以已经储存于存储部19作为前提。

首先，获取部11从存储部19获取用于动作识别的视频19a(步骤S301)。该视频19a是对根据包括共通动作的作业工序进行作业的作业者进行了拍摄的视频。另外，动作信息19b的骨骼数据项目储存有与该视频对应的作业者的骨骼数据。

接着，转换部12执行将骨骼数据所含的各坐标转换为距起点坐标的距离的转换处理(步骤S302)。该转换处理的次序与前述的图9的次序相同，因此，省略其说明。

接着，动作识别部14将由上述步骤S302转换之后的距离数据输入已学习完成模型19c，并基于表示属于从已学习完成模型19c输出的共通动作中的任一个的作业者的动作的信息，识别作业者的动作(步骤S303)。然后，结束本动作。

如前述那样，根据本实施方式所涉及的动作识别装置10，能够对从成为学习对象的作业者的视频提取出的骨骼数据所含的多个身体部位分别对应的坐标与起点部位所对应的起点坐标之间的距离分别进行计算，将骨骼数据的各坐标置换为经过该计算而得到的距离。而且，能够学习用于动作识别的模型，上述用于动作识别的模型基于将骨骼数据的各坐标置换为距离数据之后的动作信息，输出表示属于共通动作中的任一个的作业者的动作的信息。

另外，能够对从成为识别对象的作业者的视频提取出的骨骼数据所含的多个身体部位分别对应的坐标与起点部位所对应的起点坐标之间的距离分别进行计算，将骨骼数据的各坐标置换为经过该计算而得到的距离。而且，通过将置换后的距离数据输入已学习完成模型，能够识别属于共通动作中的任一个的作业者的动作。

因此，根据本实施方式所涉及的动作识别装置10，能够分别识别在不同的作业工序中进行的共通动作。

此外，本发明不限定于前述的实施方式，能够在不脱离本发明的主旨的范围内以其他各种形式实施。例如，本发明的实施方式也能够如以下的附记那样记载。但是，本发明的实施方式不限定于以下的附记所记载的形式。另外，本发明的实施方式也可以是将附记中的记载进行置换或组合的形式。

[附记1]

一种动作识别装置(10)，具备：

获取部(11)，获取动作信息(19b)，上述动作信息(19b)包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据；

转换部(12)，基于上述骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标；以及

学习部(13)，学习用于动作识别的模型，上述模型为：基于由上述转换部(12)将上述坐标转换为上述距离后的上述动作信息(19b)，输出表示上述作业者的动作的信息，其中，上述作业者的动作属于上述共通动作中的任一个。

[附记2]

一种动作识别装置(10)，具备：

获取部(11)，获取与作业者的动作相关的时间序列信息(19a)；

转换部(12)，基于从上述时间序列信息(19a)提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标；以及

动作识别部(14)，将由上述转换部(12)转换后的上述距离输入已学习完成模型(19c)，并基于从该已学习完成模型(19c)输出的表示上述作业者的动作的信息，来识别上述作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

[附记3]

在附记1或2记载的动作识别装置(10)中，上述起点部位是颈部或者腰部中的任一个。

[附记4]

一种动作识别方法，为由处理器(10a)执行的动作识别方法，包括如下步骤：

获取动作信息(19b)，上述动作信息(19b)包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据；

基于上述骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标；以及

学习用于动作识别的模型，上述模型为：基于将上述坐标转换为上述距离后的上述动作信息(19b)，输出表示上述作业者的动作的信息，其中，上述作业者的动作属于上述共通动作中的任一个。

[附记5]

一种动作识别方法，为由处理器(10a)执行的动作识别方法，包括如下步骤：

获取与作业者的动作相关的时间序列信息；

基于从上述时间序列信息(19a)提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标；以及

将转换后的上述距离输入已学习完成模型(19c)，并基于从该已学习完成模型(19c)输出的表示上述作业者的动作的信息，来识别上述作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

[附记6]

一种动作识别程序，使计算机作为获取部(11)、转换部(12)以及学习部(13)发挥功能，

上述获取部(11)获取动作信息(19b)，上述动作信息(19b)包括作业的经过时间、共通地包含在不同的作业工序中的作为识别对象的共通动作、以及作业者的骨骼数据，

上述转换部(12)基于上述骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标，

上述学习部(13)学习用于动作识别的模型，上述模型为：基于由上述转换部(12)将上述坐标转换为上述距离后的上述动作信息(19b)，输出表示上述作业者的动作的信息，其中，上述作业者的动作属于上述共通动作中的任一个。

[附记7]

一种动作识别程序，使计算机作为获取部(11)、转换部(12)以及动作识别部(14)发挥功能，

上述获取部(11)获取与作业者的动作相关的时间序列信息(19a)，

上述转换部(12)基于从上述时间序列信息(19a)提取出的骨骼数据所含的与多个身体部位分别对应的坐标，针对各个上述坐标与起点坐标之间的距离进行计算，将上述骨骼数据所含的各个上述坐标转换为经过上述计算而得到的上述距离，其中，上述起点坐标是上述身体部位中被定为起点的起点部位所对应的坐标，

上述动作识别部(14)将由上述转换部(12)转换后的上述距离输入已学习完成模型(19c)，并基于从该已学习完成模型(19c)输出的表示上述作业者的动作的信息，来识别上述作业者的动作，其中，上述作业者的动作属于共通地包含在不同的作业工序中的作为识别对象的共通动作中的任一个。

附图标记说明

10…动作识别装置；10a…CPU；10b…RAM；10c…ROM；10d…通信装置；10e…输入装置；10f…显示装置；11…获取部；12…转换部；13…学习部；14…动作识别部；19…存储部；19a…视频；19b…动作信息；19c…已学习完成模型；20a、20b、20c…图像传感器；100…动作识别系统；A…作业者；R…作业区域；a…起点部位。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 动作识别装置、动作识别方法、存储介质及动作识别系统 [P] . 中国专利： CN112861596A . 2021-05-28
2. 动作识别系统、动作识别方法及存储介质 [P] . 中国专利： CN113836991A . 2021-12-24
3. Play action recognition system, play action recognition program, play action recognition method, and play action recognition apparatus [P] . 日本专利： JP6281164B2 . 2018-02-21

机译：游戏动作识别系统，游戏动作识别程序，游戏动作识别方法以及游戏动作识别装置
4. NURSING ACTION RECOGNITION SYSTEM, NURSING ACTION RECOGNITION PROGRAM, NURSING ACTION RECOGNITION METHOD, AND NURSING ACTION RECOGNITION APPARATUS [P] . 日本专利： JP2015122004A . 2015-07-02

机译：护理动作识别系统，护理动作识别程序，护理动作识别方法以及护理动作识别装置
5. MULTITASK FACIAL ACTION RECOGNITION MODEL TRAINING METHOD, MULTITASK FACIAL ACTION RECOGNITION METHOD AND APPARATUS, COMPUTER DEVICE, AND STORAGE MEDIUM [P] . WO2021068323A1 . 2021-04-15

机译：多任务面部动作识别模型训练方法，多任务面部动作识别方法和装置，计算机设备和存储介质