公开/公告号CN112215257A
专利类型发明专利
公开/公告日2021-01-12
原文格式PDF
申请/专利权人 德清阿尔法创新研究院;
申请/专利号CN202010958882.8
申请日2020-09-14
分类号G06K9/62(20060101);G06N20/00(20190101);
代理机构33101 杭州九洲专利事务所有限公司;
代理人陈琦;陈继亮
地址 313200 浙江省湖州市德清县地理信息小镇C5栋
入库时间 2023-06-19 09:32:16
技术领域
本发明涉及跨域感知领域,尤其涉及一种多人多模态感知数据自动标记和互相学习方法。
背景技术
感知设备(如智能手机,可穿戴设备,摄像头,和无线接入点等)的广泛应用和感知数据的快速增长,使得智能感知成为热门的研究课题。近年来,有相当多的利用机器学习技术去理解各种模态数据(如视频,音频,运动传感器数据,和无线数据)的研究。但这些研究大部分都是针对单个模态数据。单模态数据只能获得当前场景部分的信息,这可能会导致感知精度不高。同时现有模型大都需要有标记的训练数据去训练,标记数据本身是一件费时费力的事情,并且训练出的模型也只能识别训练数据中有的类别。
发明内容
基于现有技术所存在的问题,并考虑到实际场景中我们往往能够采集到多种模态数据。
本发明的目的是提供一种多模态感知数据自动标记和互相学习方法,能够对感知数据流进行自动切分,对齐,标记,进而互相学习,实现更高精度的感知,解决人工标记数据难,单个模态数据感知能力有限的问题。
本发明的目的是通过以下技术方案实现的:
本发明实施方式提供一种多人多模态感知数据自动标记和互相学习方法,具体包括视频,音频,运动传感器数据(采集与智能手机和智能手表)和无线信号数据4种模态,流程如下:
步骤1,数据预处理:包括时钟对齐,去噪。特别地,对视频数据流,要先用骨架提取模型提取出视频中的人体骨架时序数据;
步骤2,基于多模态的数据流切分:将数据流按照动作切分,每一段数据包含一个动作(如拍球,蹲起)。这里我们主要利用各个模态已有标签的历史数据和多模态数据的理解模型的预测结果来对数据流进行切分。
步骤3,数据实体对齐:当场景中包含有多人信息时,需要按照数据实体(例如人)将多模态数据对应起来。这里我们同时利用人的静止状态和运动状态两种信息来进行对齐。
步骤4,预测融合和自动标记:我们设计了一种对多模态数据预测融合机制,并利用融合结果对数据段进行自动标记。特别地,自动标记的标签是带有置信度的,置信度越高标签可信度越高,实际应用中可设定合适的阈值。
步骤5,多模态数据互相学习:自动标记的数据可以帮助提升各个模态的理解模型的能力(包括模型精度和模型可识别类别数)。为了保证更新后模型的能力,我们评估了自动标记数据的质量,即只选择质量高的数据去更新模型。
作为优选:还包括相册的知识图谱的构建方法,该构建方法还包括:
多模态融合方法:在步骤4中,首先对各个模型输出的置信度乘上一个系数,该系数为该数据段特征到模型输出类别的历史数据的集合的特征的平均距离,减去模型输出类别的历史数据的集合的特征的平均距离,除以模型输出类别的历史数据的集合的特征的标准差,再乘以一个参数,该参数为调节该系统对置信度的影响程度。然后在模型只能识别部分类别时,将模型输出的各个类别的置信度设置成该类别和所有模型不能识别类别集合的置信度。最后利用D-S理论(Dempster-Shafer evidence theory)进行融合。
由上述本发明提供的技术方案可以看出,本发明实施例提供的多人多模态数据自动标记和互相学习方法,其有益效果为:
多模态数据可以互相补足,互相学习,利用多模态数据内在的关联,可以实现多模态数据的自动切分,标注,得到有标记的数据段,有助于推动数据理解相关研究。同时利用自动标记的数据可以实现多模态数据之间互相学习,以提升各个模态理解模型的能力,即提升识别精度,增加可识别的类别数。
附图说明
图1为本发明实施例提供的多模态数据自动标记和互相学习方法的流程。
具体实施方式
下面结合本发明的具体内容,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。本发明实施例中未作详细描述的内容属于本领域专业技术人员公知的现有技术。
如图1所示,本发明实施例提供一种多人多模态数据自动标记和互相学习方法,能自动地对多模态数据流进行切分,标记,进而互相学习,包括:
步骤1,数据预处理:包括时钟对齐,去噪。特别地,对视频数据流,要先用骨架提取模型提取出视频中的人体骨架时序数据;
步骤2,基于多模态的数据流切分:将数据流按照动作切分,每一段数据包含一个动作(如拍球,蹲起)。这里我们主要利用各个模态已有标签的历史数据和多模态数据的理解模型的预测结果来对数据流进行切分。
步骤3,数据实体对齐:当场景中包含有多人信息时,需要按照数据实体(例如人)将多模态数据对应起来。这里我们同时利用人的静止状态和运动状态两种信息来进行对齐。
步骤4,预测融合和自动标记:我们设计了一种对多模态数据预测融合机制,并利用融合结果对数据段进行自动标记。特别地,自动标记的标签是带有置信度的,置信度越高标签可信度越高,实际应用中可设定合适的阈值。
步骤5,多模态数据互相学习:自动标记的数据可以帮助提升各个模态的理解模型的能力(包括模型精度和模型可识别类别数)。为了保证更新后模型的能力,我们评估了自动标记数据的质量,即只选择质量高的数据去更新模型。
本发明的方法,利用多模态数据内在的关联,可以实现多模态数据的自动切分,标注,得到有标记的数据段,有助于推动数据理解相关研究。同时利用自动标记的数据可以实现多模态数据之间互相学习,以提升各个模态理解模型的能力,即提升识别精度,增加可识别的类别数。
下面对本发明实施例具体作进一步地详细描述。
本发明实施例提供一种多模态数据自动标记和互相学习方法,该方法包括以下步骤:
步骤1,数据预处理:包括时钟对齐,使用带通滤波去除低频和高频噪音。特别地,对视频数据流,要先用骨架提取模型提取出视频中的人体骨架时序数据;
步骤2,基于多模态的数据流切分:将数据流按照动作切分,每一段数据包含一个动作(如拍球,蹲起)。对各个模态已有标记数据的类别,每个类别选取中心点作为动作模板,然后将该模板作为滑动窗口去和接收到的相应模态数据流匹配,这里采用DTW(DynamicTime Warping)来计算距离,取一定间隔中距离最小的数据段作为切分结果。对每个模态数据,将所有动作模板匹配后,将得到的数据段输入到相应的模型,如果模型输出标签和模板标签相同,则保留该数据段,否则舍弃掉。对同一模态数据,如果存在某段数据同时属于不同的数据段,则取模型输出置信度高的,舍弃置信度低的(当场景中存在多人数据时,先进行步骤3,然后再进行这一步)。
步骤3,数据实体对齐:这里主要分两部分,即静止部分和运动部分。对于静止部分,我们可以利用简单的阈值来判断,即当某一段数据的波动程度小于某一阈值时我们认为是静止状态。当收集一定时长的各模态数据流后,统计同一时段所有模态数据段中利用静止状态可以比配的段数。当只利用静止部分就可以完全匹配所有模态数据流时,可不进入运动部分匹配步骤。对于运动部分,即将各个模态各自的切分结果输入到模型中得到相应的标签,然后统计标签能对应上的段数,然后再进行匹配。
步骤4,预测融合和自动标记:我们设计了一种基于D-S理论(Dempster-Shaferevidence theory)对多模态数据预测融合机制。这里采用各个模型输出的置信度作为输入,但在模型只能识别部分类别时,将模型输出的各个类别的置信度设置成该类别和所有模型不能识别类别集合的置信度。例如,模型能识别类别A,B,但实际上可能的类别有A,B,C,D四种,假设模型输出是类别A的置信度是0.8,类别B的置信度是0.2,经过我们的处理后则为是类别A,C,D的置信度是0.8,类别B,C,D的置信度是0.2。同时考虑到数据特征的分布的影响,在融合前会对每个置信度乘上一个系数,该系数为该数据段特征到模型输出类别的历史数据的集合的特征的平均距离,减去模型输出类别的历史数据的集合的特征的平均距离,除以模型输出类别的历史数据的集合的特征的标准差,再乘以一个参数,该参数为调节该系统对置信度的影响程度。然后利用传统D-S理论进行数据融合,并利用融合结果对数据段进行自动标记。特别地,自动标记的标签是带有置信度的,置信度越高标签可信度越高,实际应用中可设定合适的阈值。
步骤5,多模态数据互相学习:自动标记的数据可以帮助提升各个模态的理解模型的能力(包括模型精度和模型可识别类别数)。为了保证更新后模型的能力,我们评估了自动标记数据的质量,即只选择质量高的数据去更新模型。具体为,对模型已有训练过的类别,我们计算新的自动标记数据的特征到该类别历史数据的平均距离,如果该距离小于设定的阈值,则加入到下一轮的模型训练,否则舍弃掉;对模型没有训练过的类别,计算新标记的该类别的数据的特征的集合到已训练的类别的特征集合的类间距离,如果该距离小于设定的阈值,则加入到下一轮的模型训练,否则舍弃掉。对重新训练后的模型,如果准确率没有达到预期,则可以回滚到上一轮的模型。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
机译: 一种学习方法和学习设备,用于学习自动标记的自动标记设备,其使用外围车辆的图像和使用学习方法和学习设备的测试方法和测试装置和测试装置来自动标记基本车辆的图像。
机译: 一种使用GAN生成从虚拟世界中的虚拟数据中获取的训练数据以减少用于自动驾驶的神经网络的学习过程所需的注释成本的学习方法和学习设备,以及使用该学习方法的测试方法和测试设备方法和学习装置。
机译: 应用自动学习方法提取包含分子遗传标记的动植物数据集中的关联规则,然后使用创建的特征进行预测或分类