公开/公告号CN112733994A
专利类型发明专利
公开/公告日2021-04-30
原文格式PDF
申请/专利权人 中国科学院深圳先进技术研究院;
申请/专利号CN202011440726.9
申请日2020-12-10
分类号G06N3/00(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构44486 深圳智趣知识产权代理事务所(普通合伙);
代理人王策
地址 518055 广东省深圳市南山区深圳大学城学苑大道1068号
入库时间 2023-06-19 10:48:02
技术领域
本发明涉及机器人技术领域,具体而言,涉及机器人的自主情感生成方法、系统。还进一步涉及该方法和系统的应用,如计算机设备、计算机可读存储介质和机器人。
背景技术
随着机器人技术的发展,人们希望机器人能够拥有一定的情感,从而使其在人机交互种,可以理解用户的需求。
为了使机器人可以理解人类情感,出现了情感计算技术,也就是通过摄像头,麦克风获取人的视频、音频材料,从中分析人的情感状态。在这方面,目前已经有大量研究成果及方法,比如面部表情识别,语音情感识别等。
为了制造懂得情感的情感机器人,机器人理解用户情感是一方面,另一方面,机器人可以模仿人类拥有一定的情感。
现有技术中,通过情绪转换矩阵,将当前情绪输入和历史情绪输出与情绪转换矩阵相乘,并加权得到当前的情绪输出。使用情绪转换矩阵来表示机器人的个性,情绪转换矩阵的每一列代表不同的情绪种类,每一行代表输出的情绪种类。该种方法在设计机器人个性时比较生硬,如果要设置类似某一人物的个性比较困难。
发明内容
基于现有技术存在的问题,本发明提供了机器人的自主情感生成方法、系统,还进一步提供了该方法和系统的应用,如计算机设备、计算机可读存储介质和机器人。具体技术方案如下所示:
一种机器人的自主情感生成方法,包括:
收集包含目标人物和目标人物以外其他人物的视频,对视频进行情感标注得到标注向量;
根据所述标注向量准备训练数据,通过长短期记忆网络进行训练以得到所述目标人物的情感生成模型;
获取当前场景的人物情感作为机器人情感输入,并根据所述情感生成模型模型生成当前的机器人自主情感。
在一个具体的实施例中,所述“对视频进行情感标注得到标注向量”的方法包括:
对一个连续视频,将情感设置为n个维度,n为大于1的整数,设定每个情感维度的标签数量为k,得到该一个连续视频的标注向量的大小N=k1+k2+……+Kn,其中数值Kn为第n个情感维度的标签数量;
对于视频序列为预设的M个、每个视频序列的时长为预设的P、预设的人数Q,最终得到标注向量的大小为M*P*Q*N。
在一个具体的实施例中,所述维度包括:时长、人物、年龄、人物关系、语音情感、表情情感和场景;
关于所述时长,设定预设的时间间隔t,采用数字1*t,2*t,3*t,…,w*t进行标注,w*t代表第w个时间间隔时的时长;
关于所述人物,采用数字1,2,3,…,m进行标注,m代表第m个人物;
关于所述年龄,使用自然数进行标注,分为多个年龄段;
关于所述人物关系,包括:家人、朋友、同事、情侣、偶像、陌生人,分别以数字做代号;
关于所述场景标签,使用1*3的向量表示,分别代表3种场景:正向,负向,中性;
所述语音情感和表情情感,分别包括:开心、惊讶、伤心、担心、生气、厌恶或中性。
在一个具体的实施例中,所述时间间隔的时长选自0.01-10秒的数值范围。
在一个具体的实施例中,所述间隔时长为1秒。
在一个具体的实施例中,进行标注后,每一间隔时长的视频可以得到X*N的标注向量,其中X由视频中出现的人数而确定,在不同的间隔时长的视频中,人物数X的数值不同,假设整个数据集中涉及的人物数量为Q,如某一个人物不在间隔时长视频中出现,则对应的1*N标注向量设置为全0向量。
在一个具体的实施例中,所述“根据所述标注向量准备训练数据”的方法包括:
根据最终得到的M*P*Q*N的标注向量,指定要训练的情感自主模型以所述目标人物为目标,标注向量为(x,y)的样本形式;
其中,x为(Q-1)*(N-2),时长、人物两个维度的数据不参与训练;
其中,y为1*(N-3),时长,人物,年龄三个维度的数据不参与结果;
样本数序列数为M个,每个样本对应的序列长度为P,每个序列中的一个元素为(x,y)。
在一个具体的实施例中,所述“通过长短期记忆网络进行训练以得到所述目标人物的情感生成模型”的方法包括:
使用长短期记忆网络作为基本网络,设置神经元个数,输入神经元个数为(Q-1)*(N-2),输出神经元个数为1*(N-3),损失函数采用均方误差;
使用准备的训练数据在长短期记忆网络中进行训练,最终选取损失最小的模型作为人物目标人物的情感生成模型。
在一个具体的实施例中,所述生成机器人自主情感的步骤包括:
计算当前机器人获取到的情感;
在训练模型中,得到目标人物的情感模型,在机器人应用中,设置机器人中家人、朋友的通讯录图像,在识别到用户后,确定所述用户与机器人的关系;
使用当前机器人获取到的情感,输入到所述情感生成模型中,经过模型运算得到当前机器人的自主情感。
在一个具体的实施例中,所述“包含目标人物和目标人物以外其他人物的视频”来自影视资源和/或网络资源。
一种机器人的自主情感生成系统,用于执行前述任一技术方案所述的自主情感生成方法,其特征在于,包括:
情感标注单元,用于收集包含目标人物和目标人物以外其他人物的视频,对视频进行情感标注得到标注向量;
模型构建单元,用于根据所述标注向量准备训练数据,通过长短期记忆网络进行训练以得到所述目标人物的情感生成模型;
情感生成单元,用于获取当前场景的人物情感作为机器人情感输入,并根据所述情感生成模型模型生成当前的机器人自主情感。
在一个具体的实施例中,所述情感生成单元包括:
情感获取单元,用于计算当前机器人获取到的情感;
用户识别单元,用于在训练模型中,得到目标人物的情感模型,在机器人应用中,设置机器人中家人、朋友的通讯录图像,在识别到用户后,确定所述用户与机器人的关系;
情感生成单元,用于使用当前机器人获取到的情感,输入到所述情感生成模型中,经过模型运算得到当前机器人的自主情感。
一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如前述任一技术方案所述的自主情感生成方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述任一技术方案所述的自主情感生成方法。
一种机器人,包括机器人本体,还包括前述技术方案所述的自主情感生成系统。
在一个具体的实施例中,所述机器人包括家庭服务机器人、陪伴型机器人或公共场所服务型机器人。
本发明至少具有以下有益效果:
本发明中,该方法通过学习人物的情感生成规律,在机器人运行中,根据当前用户的情感,自主生成机器人当前的情感,从而使机器人达到一定程度的情感模仿能力,该方法可以应用到更多种场景中,如服务型机器人、陪伴型机器人等。
本发明中,使用长短期记忆网络作为基本网络,该网络相比循环神经网络,可以解决反向传播过程中存在的梯度消失和梯度爆炸现象。
而且本发明中,提供了一种通过视频等材料,通过深度学习方法,学习视频中特定人物的情绪生成模型,预测准确度更高,方法更简单,自动化程度更高。
附图说明
图1为机器人的自主情感生成方法流程图;
图2为对视频进行情感标注的框图;
图3为获取机器人的情感的方法框图;
图4为机器人的自主情感生成系统示意图。
具体实施方式
实施例1
本实施例1提出一种机器人的自主情感生成方法,该方法基于大量的音视频材料,通过深度学习技术,建立视频中特定人物的情感模型,从而使机器人拥有类似特定人物的情感,在机器人运行中,根据当前用户的情感,自主生成机器人当前的情感。
如图1所示,该机器人的自主情感生成方法包括:
S1:收集包含目标人物和目标人物以外其他人物的视频,对视频进行情感标注得到标注向量。该包含目标人物和目标人物以外其他人物的视频来自影视资源和/或网络资源。
其中,如图2所示,“对视频进行情感标注得到标注向量”的方法包括:
对一个连续视频,将情感设置为n个维度,n为大于1的整数,其中,维度包括:时长、人物、年龄、人物关系、语音情感、表情情感和场景等。设定每个情感维度的标签数量为k,得到该一个连续视频的标注向量的大小N=k1+k2+……+Kn,其中数值Kn为第n个情感维度的标签数量。
具体地,关于时长,设定预设的时间间隔t,采用数字1*t,2*t,3*t,…,w*t进行标注,w*t代表第w个时间间隔时的时长。关于人物,采用数字1,2,3,…,m进行标注,m代表第m个人物。关于年龄,使用自然数进行标注,分为多个年龄段。关于人物关系,包括:家人、朋友、同事、情侣、偶像、陌生人,分别以数字做代号。关于场景标签,使用1*3的向量表示,分别代表3种场景:正向,负向,中性。关于语音情感和表情情感,分别包括:开心、惊讶、伤心、担心、生气、厌恶或中性。
本实施例中,对于视频序列为预设的M个、每个视频序列的时长为预设的P、预设的人数Q,最终得到标注向量的大小为M*P*Q*N。
其中,进行标注后,每一间隔时长的视频可以得到X*N的标注向量,其中X由视频中出现的人数而确定,在不同的间隔时长的视频中,人物数X的数值不同,假设整个数据集中涉及的人物数量为Q,如某一个人物不在间隔时长视频中出现,则对应的1*N标注向量设置为全0向量。
其中,时间间隔t的时长选自0.01-10秒的数值范围。
优选地,时间间隔t的时长为1秒。由此,可以以1s为时间间隔的时长,对1s内的情感进行标注,标注内容包括:时间、人物、年龄、关系、语音情感、表情情感、场景等几个维度。针对该1s的视频分别标注视频中出现的每个人物的上述维度信息。对一个连续视频,时间标注使用从1开始的整数进行标注,n分别代表第n秒。人物标注用1,2,3,…,m进行标注,每个数字作为一个人的人物标签。年龄标注使用从1开始的整数进行标注,将分为多个年龄段。人物关系包括家人,朋友,其他,分别以数字做代号。语音和人物的情感的标注,使用最常见的7种情感标签(开心,惊讶,伤心,担心,生气,厌恶,中性),使用1*7的向量表示,向量中的元素值表示对应情感的程度。场景标签使用1*3的向量表示,分别代表3种场景(正向,负向,中)。按照上述方法进行标注后,每一秒的视频可以得到x*20(其中20=1+1+1+7+7+3)的标注向量,而x由本s视频中由几个人确定。因为在不同的1s视频中,x数值不同,为了保证数据的一致性,假设整个数据集中涉及的任务数量为Q,那么标注时,如果某一个人物不在1s视频中出现,则对应的1*20标注向量设置为全0向量。在此策略下,1s视频的标注向量为Q*20的大小。
S2:根据标注向量准备训练数据,通过长短期记忆网络进行训练以得到目标人物的情感生成模型。
其中,通过长短期记忆网络(long short-term memory network,LSTM),以本时刻的人物目标人物的情感与其他额人物的情感,事件的情感,预测下一时刻的人物目标人物情感,并将人物目标人物的情感预测值与样本值计算损失函数。
其中,长短时记忆网络训练时通过输入时序序列,然后预测下一个时刻的输出。在网络计算中,下一时刻的输出与当前时刻输入,上一时刻的输出,以及上一时刻的长期状态相关。
其中,“根据标注向量准备训练数据”的方法包括:
根据最终得到的M*P*Q*N的标注向量,指定要训练的情感自主模型以目标人物为目标,标注向量为(x,y)的样本形式;
其中,x为(Q-1)*(N-2),时长、人物两个维度的数据不参与训练;
其中,y为1*(N-3),时长,人物,年龄三个维度的数据不参与结果;
样本数序列数为M个,每个样本对应的序列长度为P,每个序列中的一个元素为(x,y)。
其中,“通过长短期记忆网络进行训练以得到目标人物的情感生成模型”的方法包括:
使用长短期记忆网络作为基本网络,设置神经元个数,输入神经元个数为(Q-1)*(N-2),输出神经元个数为1*(N-3),损失函数采用均方误差;
使用准备的训练数据在长短期记忆网络中进行训练,最终选取损失最小的模型作为人物目标人物的情感生成模型。
S3:获取当前场景的人物情感作为机器人情感输入,并根据情感生成模型模型生成当前的机器人自主情感。
如图3所示,具体方法包括:
S31:计算当前机器人获取到的情感。具体地,在使用场景中,通过机器人的摄像机与麦克风获取场景视频和音频,通过深度神经网络,可以计算当前场景的人物情感,作为机器人情感输入,并根据模型机器人自主情感模型,生成当前的情感。可使用现有的人脸表情识别算法、语音情感识别算法、场景识别算法、年龄识别算法,计算当前机器人获取到的情感。
S32:在训练模型中,得到目标人物的情感模型,在机器人应用中,设置机器人中家人、朋友的通讯录图像,在识别到用户后,确定用户与机器人的关系。
S33:使用当前机器人获取到的情感,输入到情感生成模型中,经过模型运算得到当前机器人的自主情感。
本实施例中,该方法通过学习人物的情感生成规律,在机器人运行中,根据当前用户的情感,自主生成机器人当前的情感,从而使机器人达到一定程度的情感模仿能力,该方法可以应用到更多种场景中,如服务型机器人、陪伴型机器人等。
本实施例中,使用长短期记忆网络作为基本网络,该网络相比循环神经网络,可以解决反向传播过程中存在的梯度消失和梯度爆炸现象。
而且本实施例中,提供了一种通过视频等材料,通过深度学习方法,学习视频中特定人物的情绪生成模型,方法更简单,自动化程度更高。
实施例2
本实施例针对实施例1提出的机器人的自主情感生成方法,如图4所示,提出了一种机器人的自主情感生成系统,用于执行实施例1的自主情感生成方法,包括:
情感标注单元1,用于收集包含目标人物和目标人物以外其他人物的视频,对视频进行情感标注得到标注向量;
模型构建单元2,用于根据所述标注向量准备训练数据,通过长短期记忆网络进行训练以得到目标人物的情感生成模型;
情感生成单元3,用于获取当前场景的人物情感作为机器人情感输入,并根据情感生成模型模型生成当前的机器人自主情感。
其中,情感生成单元包括:
情感获取单元,用于计算当前机器人获取到的情感;
用户识别单元,用于在训练模型中,得到目标人物的情感模型,在机器人应用中,设置机器人中家人、朋友的通讯录图像,在识别到用户后,确定所述用户与机器人的关系;
情感生成单元,用于使用当前机器人获取到的情感,输入到所述情感生成模型中,经过模型运算得到当前机器人的自主情感。
实施例3
本实施例提出了一种计算机设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当一个或多个程序被所述一个或多个处理器执行,使得一个或多个处理器实现实施例1的自主情感生成方法。
计算机设备可以通用计算设备的形式表现,也可以使机器人形态。计算机设备的组件可以包括但不限于:一个或者多个处理器或者处理单元,系统存储器,连接不同系统组件如系统存储器和处理单元的总线。计算机设备典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备计算机访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。系统存储器可以包括易失性存储器形式的计算机系统可读介质。
计算机设备也可以与一个或多个外部设备例如键盘、指向设备、显示器等通信,还可与一个或者多个使得用户能与该计算机设备交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备通信。
处理单元通过运行存储在系统存储器中的程序,从而执行各种功能应用以及数据处理。
实施例4
本实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现实例1的自主情感生成方法。
实施例5
本实施例提出了一种机器人,包括机器人本体,还包括实施例2的自主情感生成系统。
其中,机器人包括家庭服务机器人、陪伴型机器人或公共场所服务型机器人。
在家庭服务机器人场景中,我们的机器人可以根据家庭场景的视频,学习特定人(如妈妈,爸爸,孩子)的情感模式,在应用中按照当前用户的身份、情感,自主生成机器人的情感,从而使得机器人可以更加理解用户的需求。
在公共服务场合,可以模拟公众服务人员,如医疗、餐饮等行业,通过视频学习服务人员的情绪控制,从而使机器人更加人性化。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。
机译: 自主移动机器人的操作计划方法,使用移动机器人运动计划方法的自主移动机器人的自主控制方法,自主移动机器人的运动计划系统,自主移动机器人的运动控制装置,自主移动机器人运动计划程序,移动机器人程序的自主控制
机译: 具有自主移动机器人和自主移动机器人的基站的系统,自主移动机器人的基站,自主移动机器人的方法,与自主移动机器人的基站的自动对接方法
机译: 自主移动机器人的运行计划方法,使用自主移动机器人的运行计划方法的自主移动机器人的控制方法,自主移动机器人的运行计划装置,自主移动机器人的运行控制装置以及自主移动机器人的程序自主移动机器人