首页> 中国专利> 一种虚拟人情绪生成方法与系统

一种虚拟人情绪生成方法与系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及一种虚拟人情绪生成方法以及系统；所述生成方法通过采集模块记录用户与虚拟人交流过程中的声音音频，并从声音音频中提取多个特征以及特征值；进一步的，使用分类模块对多个特征以及特征值进行基于n项情绪的分类，并计算n项情绪中每一项的情绪能量；进一步的，获取虚拟人实时的情绪指数，根据实时的情绪指数获取对应的情绪反应函数，并计算情绪增量；该情绪反应函数用于反映基于当前情绪状况下，特定情绪能量能产生对情绪的影响效果；进一步的，根据情绪增量更新所述情绪参数后，驱动虚拟人的情绪发生相应变化。

著录项

公开/公告号CN114974312A

专利类型发明专利
公开/公告日2022-08-30

原文格式PDF
申请/专利权人环球数科集团有限公司;
展开▼

申请/专利号CN202210902311.1
发明设计人张卫平;丁烨;彭中华;张思琪;米小武;丁园;
展开▼

申请日2022-07-29
分类号G10L25/63(2013.01);G10L25/27(2013.01);G10L15/22(2006.01);G10L15/02(2006.01);G10L25/24(2013.01);G10L25/03(2013.01);G06N20/00(2019.01);
代理机构北京清控智云知识产权代理事务所(特殊普通合伙) 11919;北京清控智云知识产权代理事务所(特殊普通合伙) 11919;
代理人马肃;林淡如
地址 518063 广东省深圳市南山区粤海街道高新南九道10号深圳湾科技生态园10栋B座17层01-03号
入库时间 2023-06-19 16:34:57

法律信息

法律状态公告日

法律状态信息

法律状态
2022-10-21

授权

发明专利权授予
2022-09-16

实质审查的生效 IPC(主分类):G10L25/63 专利申请号:2022109023111 申请日:20220729

实质审查的生效

说明书

技术领域

本发明涉及电子数字数据处理技术领域。具体而言，涉及一种虚拟人情绪生成方法与系统。

背景技术

虚拟人技术随着近年虚拟空间图像技术以及人工智能技术的高速发展，成为了一项社会重点研究和发展的领域，是体现以下两项技术的综合应用实力的一项最重要体现。而关于虚拟人的情绪驱动生成方面的研究目前还存在较大的开发困难。由于情绪具有较大的情境性和短暂性，真实人类本身的情绪研究本身仍存在较大的不确定性，因此虚拟人的情绪生成机制和系统目前尚有很大的开发空间。

在一个方面，虚拟人在与人类进行互动的实质，是由虚拟人本身的个性，通过接受外部的刺激，并分析刺激的本质，从而作出合理的反应；因此需要建立虚拟人本身的个性属性，从而形成一个情绪机制启动的出发点和基础；另一方面，需要分析和处理外部环境对于虚拟人的影响，并计算虚拟人对于外部影响所产生的反应以及下一步动作的动机，从而生成兼具合理性、拟人性以及具有可持续发展的情绪表现。

查阅相关已公开的技术方案，公开号为KR1020080074758A的技术方案通过检测虚拟空间的环境信息并根据对象之间的相互作用来检测发生的外部事件来生成传感器值，并通过该传感器值驱动虚拟人物的情绪或生理状态进行变化；公开号为JP2003071772A的技术方案中，对出一种利用电磁感应传感器进行外部感应的的电子宠物，并通过所感应的物件生成该电子宠物的不同情绪与外部反应；公开号为WO2021150492A1的技术方案通过读取并分析虚拟角色在游戏中的经历以及虚拟角色在游戏中的配置设定文件，从而基于经历中不同的特征值驱动虚拟角色的性格以及情感发生不变程度的改变。然而目前的技术方案所设定的虚拟人物情绪表现相对固化，还无法实时地基于虚拟人当前的经历展示出更近似于人类的情绪化表现。

背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

发明内容

本发明的目的在于，提供一种虚拟人情绪生成方法以及系统；所述生成方法通过采集模块记录用户与虚拟人交流过程中的声音音频，并从声音音频中提取多个特征以及特征值；进一步的，使用分类模块对多个特征以及特征值进行基于n项情绪的分类，并计算n项情绪中每一项的情绪能量；进一步的，获取虚拟人实时的情绪指数，根据实时的情绪指数获取对应的情绪反应函数，并计算情绪增量；该情绪反应函数用于反映基于当前情绪状况下，特定情绪能量能产生对情绪的影响效果；进一步的，根据情绪增量更新所述情绪参数后，驱动虚拟人的情绪发生相应变化。

本发明采用如下技术方案：

一种生成虚拟人情绪生成系统；所述生成系统包括：

一种虚拟人情绪生成系统，所述生成系统包括采集模块、特征提取模块、分类模块以及情绪驱动模块；其中

所述采集模块，被配置为用于采集用户与虚拟人交流时的声音，并将声音转换为可被所述特征提取模块识别的数字音频信息；

所述特征提取模块，被配置为从一段音频信息中进行特征提取，从而获得多个特征以及对应的特征值；

所述分类模块，被配置为使用一段音频信息中包括的多个特征以及对应特征值中的至少一部分进行情绪分类，从而计算该段音频信息中提供的n项情绪参数能量q

所述情绪驱动模块，被配置为保存情绪参数，根据所述分类模块的计算结果，更新所述情绪参数，并根据所述情绪参数生成虚拟人的实时情绪表现；

进一步的，所述生成系统包括一种虚拟人情绪生成方法；所述生成方法包括采集阶段、处理阶段以及反应阶段；

在所述采集阶段，包括以下步骤：

S1：采集并存储当前与虚拟人交流的用户的音频信息；

S2：提取音频信息中的语气和语义中包含的多个特征，并分析每个特征对应的特征值f

S3：基于多个特征值f

在所述处理阶段，包括以下步骤：

E1：获取驱动虚拟人情绪表现的每项情绪的情绪参数EM，即EM=[em

E2：基于多个情绪子参数的当前值，确定每项情绪的情绪等级EL=[el

E3：将n项情绪参数能量作为激励，输入到对应的情绪反应函数中，获取情绪增量ΔEM；所述情绪增量ΔEM包括n项情绪子增量，即ΔEM=[Δem

式1中，i=1,2,……n；

在所述反应阶段，包括以下步骤：

R1：获取情绪模拟单元中的所述情绪增量ΔEM的阈值，阈值包括上限max(Δem

R2：根据以下条件式，计算每一项所述情绪子增量Δem

上式表明，若一项所述情绪子增量Δem

R3：更新所述情绪参数EM，即使更新后的EM´=EM+ΔEM，从而由更新后的所述情绪参数EM´生成新的虚拟人最新的情绪表现；

可选地，所述n项情绪分类的类别中至少包括中立情绪；并且分类的类别中还包括以下情绪的三项或三项以上：快乐、愤怒、恐惧、悲伤和厌恶；

可选地，在采集阶段的步骤S2中，包括：

读取音频信息；

从音频信息中计算一组梅尔频率倒谱系数；

从音频信息中确定多个声学变量；

计算这些声学变量在音频信息中的平均值、标准差、最大值和最小值；

可选地，在采集阶段中，包括采用基于机器学习的情绪分类模型进行情绪分类；所述情绪分类模型基于支持向量机内核而建立；

可选地，所述生成方法还包括衰减阶段；当虚拟人与外部不存在任何语音交流时随即开始所述衰减阶段；在所述衰减阶段中的每个时间周期Δt中，所述情绪参数EM的每一项情绪子参数em

上式中，e为自然常数，c

本发明所取得的有益效果是：

1. 本发明的生成方法基于用户与虚拟人进行声音交流时的语音特征，分析用户本身的语气以及语义所具有的内在情绪表现，从而驱动虚拟人作对应的情绪反应；

2. 本发明的生成法基于情绪参数驱动虚拟人的实时情绪反应；通过设定在不同情绪参数下具有不同的情绪反应函数，模拟人类处理不同情绪状态下针对不同的外部刺激具有超出一般表现的情绪反应；通过设定情绪增量的上、下限阈值，模拟虚拟人对于不同情绪的承受能力以及敏感程度；

3. 本发明的生成系统适用于纯数字形象的虚拟人系统，同时亦可适用接入诸如虚拟机器人或者其他虚拟-现实结合的虚拟人系统；

本发明的生成系统其硬件模块以及装置采用模块化设计和配合，后期可通过软件、硬件进行灵活优化和变更，节省了大量后期维护升级成本。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在不同的视图中，相同的附图标记指定对应的部分。

图1为本发明所述生成方法的原理示意图；

图2为本发明中所述采集阶段的步骤示意图；

图3为本发明实施例中对情绪进行分类的示意图；

图4为本发明中三个不同的情绪等级下的情绪反应函数的示意图。

附图图例说明：101-采集阶段；102-处理阶段；103-反应阶段；104-衰减阶段；301-音频信息；302-一阶段分类；303-类别1的二阶段分类；304-类别2的二阶段分类。

具体实施方式

为了使得本发明的目的技术方案及优点更加清楚明白，以下结合其实施例，对本发明进行进一步详细说明；应当理解，此处所描述的具体实施例仅用于解释本发明，并不用于限定本发明。对于本领域技术人员而言，在查阅以下详细描述之后，本实施例的其它系统.方法和/或特征将变得显而易见。旨在所有此类附加的系统、方法、特征和优点都包括在本说明书内.包括在本发明的范围内，并且受所附权利要求书的保护。在以下详细描述描述了所公开的实施例的另外的特征，并且这些特征根据以下将详细描述将是显而易见的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或组件必须具有特定的方位.以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

实施例一：

一种生成虚拟人情绪生成系统；所述生成系统包括：

一种虚拟人情绪生成系统，所述生成系统包括采集模块、特征提取模块、分类模块以及情绪驱动模块；其中

所述采集模块，被配置为用于采集用户与虚拟人交流时的声音，并将声音转换为可被所述特征提取模块识别的数字音频信息；

所述特征提取模块，被配置为从一段音频信息中进行特征提取，从而获得多个特征以及对应的特征值；

所述情绪驱动模块，被配置为保存情绪参数，根据所述分类模块的计算结果，更新所述情绪参数，并根据所述情绪参数生成虚拟人的实时情绪表现；

如附图1所示，进一步的，所述生成系统包括一种虚拟人情绪生成方法；所述生成方法包括采集阶段、处理阶段以及反应阶段；

在所述采集阶段，包括以下步骤：

S1：采集并存储当前与虚拟人交流的用户的音频信息；

S2：提取音频信息中的语气和语义中包含的多个特征，并分析每个特征对应的特征值f

S3：基于多个特征值f

在所述处理阶段，包括以下步骤：

E1：获取驱动虚拟人情绪表现的每项情绪的情绪参数EM，即EM=[em

E2：基于多个情绪子参数的当前值，确定每项情绪的情绪等级EL=[el

E3：将n项情绪参数能量作为激励，输入到对应的情绪反应函数中，获取情绪增量ΔEM；所述情绪增量ΔEM包括n项情绪子增量，即ΔEM=[Δem

式1中，i=1,2,……n；

在所述反应阶段，包括以下步骤：

R1：获取情绪模拟单元中的所述情绪增量ΔEM的阈值，阈值包括上限max(Δem

R2：根据以下条件式，计算每一项所述情绪子增量Δem

上式表明，若一项所述情绪子增量Δem

R3：更新所述情绪参数EM，即使更新后的EM´=EM+ΔEM，从而由更新后的所述情绪参数EM´生成新的虚拟人最新的情绪表现；

可选地，所述n项情绪分类的类别中至少包括中立情绪；并且分类的类别中还包括以下情绪的三项或三项以上：快乐、愤怒、恐惧、悲伤和厌恶。

可选地，在采集阶段的步骤S2中，包括：

读取音频信息；

从音频信息中计算一组梅尔频率倒谱系数；

从音频信息中确定多个声学变量；

计算这些声学变量在音频信息中的平均值、标准差、最大值和最小值；

可选地，在采集阶段中，包括采用基于机器学习的情绪分类模型进行情绪分类；所述情绪分类模型基于支持向量机内核而建立；

上式中，e为自然常数，c

其中，虚拟人的当前情绪由所述情绪参数EM中n项所述情绪子参数驱动从而作出情绪表现；例如，当所述情绪子参数中代表快乐的子参数具有较高数值时，则驱动虚拟人产生快乐的情绪；当所述情绪子参数中代表中立的子参数与悲伤的子参数较高时，则可以驱动虚拟人具有悲伤情绪的冲动，而同时受自身中立情绪压制着悲伤的情绪；

在一种实施方式中，如附图2所示的采集阶段，采集模块可以包括各类音频捕获设备，例如麦克风；音频信息由麦克风或其他音频捕获设备捕获的语音中获得的数据；在一些实施方式中，音频信息包括的无声部分被删除；通过截断音频信息并丢弃无助于情绪识别的数据，去除音频的无声部分可以提高系统的速度和效率；此外，从语音信号和滤波器中去除静音间隔，从而减少来自活动语音段的级联的失真；这在计算与语音相关的平均量时很有用，因为它消除了单词和音节之间的静默停顿，这在人与人之间可能会发生很大变化并影响性能计算；

但相对地在一些实施方式中，无声部分同样可作为一种情绪的表达，例如等待或者无奈的表现；这取决于虚拟人系统本身的处理能力或者需要接收外界信息的细节程度来决定是否去除无声部分；

进一步的，对采集后的音频信息进行模数转换以及重采样步骤，从而实现将采集到的原有模拟信号转化为具有目标采样频率的数字信号；

进一步的，对音频信息提取计算语音特征；常见的一种算法为梅尔频率倒谱系数（MFCC）；MFCC系数是通过将信号与宽度随着频率增加而增加的三角形箱进行分箱来生成的；梅尔频率倒谱系数通常用于语音和情感分类；因此，本领域技术人员将理解可以使用许多计算系数的方法；

在优选的实施方法中，使用15个韵律特征和45个语音特征，用于描述音频信息的基频和幅度；韵律特征在实时情感分类中很有用，通过使用话语能够准确地反映在话语音频中的情感状态；

其中，使用基于次谐波与谐波比的音调确定算法来确定音频信息的基频的水平音高、音域范围和轮廓，以上声学变量均与情感特征密切相关，可以根据以上声学变量的特征用于分析音频所包含的发言人需要表现的情绪；例如，在快乐情绪下的说话音频的基频会随之增加，并且平均语音强度增加，音频的特征具有较高的可变性；而无聊或中立情绪下的与基频会随之降低，并且声学变量的标准差较小；

与仅使用韵律特征相比，一起结合使用韵律特征和语音特征有助于实现更高的分类准确度；在一些实施方法中，特征统计更侧重于各项声学变量的统计参数，例如均值、标准差、最小值、最大值和范围；

进一步的，特征被提取后继续用于对音频信息进行分类；

在一种实施方法中，采集阶段的步骤S3如附图3所示，所述分析模块分为两个阶段为音频信息进行分类，在两阶段分类中，在步骤301中，音频信息输入到所述分析模块；在步骤302，数据被分类为类别1和类别2两种情绪；在优选的一种实施方法中，类别1包括中性和积极的情绪，例如快乐的情绪；类别2包括消极的情绪，例如愤怒和悲伤；并且在第二阶段的步骤303中，进一步将类别1中的中立或积极情绪作进一步的区别；同样地，在步骤304中，进一步将类别2中的消极情绪作进一步的区别；优选地，以上步骤302、303、304中，均配置一个基于支持向量机的分类器，用于每一阶段的情绪类别的分类操作；

出于分类的目的并且基于支持向量机（SVM）的特性，使用具有线性、二次和径向基函数内核的支持向量机来生成用于优化分类的超平面；根据虚拟人的特定应用，可以针对不同的内核使用不同的参数运行优化，并且为每个分类存储最佳性能模型及其参数，以便稍后与虚拟人一起使用；

例如基于一种与年龄较小的用户进行互动的虚拟人，其情绪分类的模型及其参数则基于该年龄段的语言特点进行调教，且明显区别于成年人，或者专业性更强的使用场合；

进一步的，需要训练对于情绪的分类模型以运行于支持向量机的分类操作；其中每个分类器必须运行分类模型，并且优选地可以基于所需要的分类任务，配置不同的分类模型；在一种训练方法中，对模型的训练集使用十折交叉验证方法，即将每种情绪对应的音频集合随机分组为10份等大小的数据组；轮流将其中9份作为训练数据，1份作为测试数据，进行试验；每次试验都会得出相应的正确率（或差错率）；10次的结果的正确率（或差错率）的平均值作为对算法精度的估计，一般还需要进行多次十折交叉验证，例如进行5次或者10次的十折交叉验证，再求其均值，作为对算法准确性的估计；

进一步的，基于以上方法，包括设定更多的分类器以及分类模型，对每种情绪进行情绪能量等级的划分；在一些实施例中，包括将除“中立”以外的具有明显特征的情绪，例如“快乐”或“愤怒”分为5个等级程度：非常高、比较高、一般、较为轻微、极轻微；而在使用更高运算能力的分类器中，可以将情绪能量等级划分为8级或者10级；

进一步的，并且对对应不同数据的情绪能量等级进行数值化，以映射到不同的情绪参数能量；例如在非常高等级，其情绪参数能量为10；而在一般等级，其情绪参数能量为5；从而将用户的音频信息，转化为具有n项情绪参数能量的输入量，进入下一阶段，即所述处理阶段。

实施例二：

本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进；

人类在不同情绪状态下，接受同一种外界刺激后，会产生不同的应激反应；例如，在比较快乐情绪下，接收一中等程度快乐的信息时，其表现不会出现太大改变；而在一中立情绪下，接收与上述相同的中等程度快乐的信息时，则其情绪相对地产生较大的起伏，从而表现出明显的快乐情绪；因此，为了进一步模拟人类在一定情绪基调下，在受到情绪刺激时产生具有差异化的情绪反应，所述生成方法包括在所述处理阶段对虚拟人的情绪生成作进一步的细化计算；

其中，在步骤E1中，需要获取虚拟人当前的所述情绪参数，亦即确定虚拟人当前的情绪状态；

从而在步骤E2中，针对不同的情绪状态，可以由所述情绪驱动模块输出对应该情绪状态对于外界刺激的一个反应；

如附图4所示，该函数曲线示意图包括了对应于第i项情绪中，三个不同的情绪等级下的所述情绪反应函数Fel

可见，对于一个确定的情绪能量q的刺激，由于在不同的情绪等级下，其情绪反应函数具有不同的输出值，因此，将会获得不同的情绪子增量Δem

进一步的，所述情绪反应函数根据设计人员对虚拟人的情感特性、性格特性等属性进行设定；所述情绪反应函数在一些实施方式中，可以为单调函数，即随着情绪能量的增加，情绪子增量亦随之增加；然而在一些实施方式中，所述情绪反应函数可以为常量，即设定虚拟人对某项情绪作出的表现恒定，该设定方式适合于一些较为严肃性格的虚拟人，或者应用于一些特殊需要的用户或应用场景。

实施例三：

本实施例应当理解为至少包含前述任意一个实施例的全部特征，并在其基础上进一步改进；

进一步的，在所述处理阶段以及所述衰减阶段，虚拟人的所述情绪参数随着各项情绪子增量的改变，从而情绪上出现相应的变化；

其中，所述衰减函数用于表现虚拟人的情绪随时间的推移并出现平复；

式2中，c

而若设定虚拟人的情绪更持续，例如具有较为感性的性格设定，则可以将c

进一步的，基于虚拟人的n项情绪子参数的每一项，可以设定为不同的c

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。也就是说上面讨论的方法，系统和设备是示例。各种配置可以适当地省略，替换或添加各种过程或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行方法，和/或可以添加，省略和/或组合各种部件。而且，关于某些配置描述的特征可以以各种其他配置组合，如可以以类似的方式组合配置的不同方面和元素。此外，随着技术发展其中的元素可以更新，即许多元素是示例，并不限制本公开或权利要求的范围。

在说明书中给出了具体细节以提供对包括实现的示例性配置的透彻理解。然而，可以在没有这些具体细节的情况下实践配置例如，已经示出了众所周知的电路，过程，算法，结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例配置，并且不限制权利要求的范围，适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对元件的功能和布置进行各种改变。

综上，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种虚拟人手语生成方法和系统 [P] . 中国专利： CN114546326A . 2022-05-27
2. 一种虚拟人讲课视频生成方法、系统、装置及存储介质 [P] . 中国专利： CN113194348B . 2022-07-22
3. A SYSTEM AND METHOD FOR GENERATING MERGED PATIENT-RELATED IMAGE DATA AND A SYSTEM AND METHOD FOR GENERATING A THREE-DIMENSIONAL MODEL OF AT LEAST A PART OF A VIRTUAL HUMAN REFERENCE BODY [P] . 欧洲知识产权局专利： WO2021224221A3 . 2021-12-16

机译：一种用于生成合并患者相关图像数据的系统和方法以及用于生成虚拟人参考主体的至少一部分的三维模型的系统和方法
4. A SYSTEM AND METHOD FOR GENERATING MERGED PATIENT-RELATED IMAGE DATA AND A SYSTEM AND METHOD FOR GENERATING A THREE-DIMENSIONAL MODEL OF AT LEAST A PART OF A VIRTUAL HUMAN REFERENCE BODY [P] . 欧洲知识产权局专利： WO2021224221A2 . 2021-11-11

机译：一种用于生成合并患者相关图像数据的系统和方法以及用于生成虚拟人参考主体的至少一部分的三维模型的系统和方法
5. Emotion and Motion Extracting System of Virtual Human and its Method [P] . 韩国专利： KR20040014123A . 2004-02-14

机译：虚拟人的情绪与运动提取系统及其方法