公开/公告号CN114881023A
专利类型发明专利
公开/公告日2022-08-09
原文格式PDF
申请/专利权人 长沙千博信息技术有限公司;
申请/专利号CN202210363790.4
申请日2022-04-07
分类号G06F40/289(2020.01);G06T3/40(2006.01);G06T13/00(2011.01);
代理机构北京市浩东律师事务所 11499;
代理人李雁
地址 410000 湖南省长沙市开福区月湖街道鸭子铺路1号255房1室
入库时间 2023-06-19 16:19:08
法律状态公告日
法律状态信息
法律状态
2022-08-26
实质审查的生效 IPC(主分类):G06F40/289 专利申请号:2022103637904 申请日:20220407
实质审查的生效
2022-08-09
公开
发明专利申请公布
技术领域
本发明涉及计算机软件技术领域,具体为一种文本驱动虚拟人非语言行为的系统及方法。
背景技术
当前随着Facebook、英伟达、微软等巨头相继大力投入打造元宇宙平台,虚拟人作为核心部分,是重点攻关的环节。虚拟人作为人的数字化化身,需要具备人的外观、人的行为和人的思想。而类人的行为又称为虚拟人智能行为交互。虚拟人智能行为交互中,非语言行为动作,比如点头、摆手、摊手等是可以辅助传达信息,也是人物性格特点的一种重要体现,是自然逼真地行为交互的重要模态通道。
当前虚拟人的非语言行为驱动技术研究基本集中在语音驱动非语言行为,很少涉及文本驱动非语言行为,在很多应用场景中,比如虚拟新闻主播、虚拟游戏主播、虚拟手语人等等,都是通过输入文本来进行驱动。而由于文本缺少语音的时序及语调信息,要准确同步地驱动非语言行为动作相对比较困难。
发明内容
针对现有技术的不足,本发明提供了一种文本驱动虚拟人非语言行为的系统及方法,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现,一种文本驱动虚拟人非语言行为的系统及方法,包括以下步骤:
预处理阶段:
S1,编写匹配规则:在配置文件中,编写非语言行为与分词文本的匹配规则,即在合适的分词处触发播放对应的非语言行为动作;目前规则包括文本词性检测、文本相等、文本包含、文本起始处匹配、文本末尾处匹配;
S2,制作动画文件:对演员说话进行分析,总结出其常用的非语言行为动作,由演员进行表演,通过optitrack动作捕捉系统捕捉所有的非语言行为动作,然后由动画师在MotionBuilder中进行修复;
实时交互阶段:
S3,NLP分词模块,模块中包括以下步骤:
步骤S31:NLP对文本进行分词处理得到分词序列;
步骤S32:对文本进行词性计算并标记分词的词性,得到带词性的分词序列;
S4,非语言行为BML构造模块,模块中包括以下步骤:
步骤S41:解析带词性的分词序列获取分词;
步骤S42:为每个分词按规则匹配获得非语言行为动作;
步骤S43:构造BML,并标记动作开始播放的词,得到非语言行为BML;
S5,非语言行为BML解析模块,模块中包括以下步骤:
步骤S51:解析BML;
步骤S52:查找词对应的同步时间;
步骤S53:加载动作并添加到动画播放模块中,得到带同步时间的非语言行为动作;
S6,动画播放模块,模块中包括以下步骤:
步骤S61:按同步时间排序组织非语言行为动作;
步骤S62:根据当前时间获取前后两个动作;
步骤S63:判断当前时间是否处于两个动作之间;
步骤S64:如果是,则对两个动作进行插值,然后进入步骤S65;
步骤S65:如果否,则直接播放动作。
进一步的,在步骤S1所述的编写匹配规则中,为了让非语言行为表现得更加自然,需要加入一些随机性。
进一步的,在步骤S2所述的制作动画文件中,为了准确的还原演员的动作,在录制动作时需要同时在正前方、左侧方部署摄像头录制演员的动作,方便动画师从多个角度参考以修复动作。
进一步的,在步骤S4所述的非语言行为BML构造中,为了快速地进行分词匹配,规则按树形结构组织,关键字为文本的哈希值。
进一步的,在步骤S5所述的非语言行为BML解析中,为了保证拓展性,BML需要拓展支持说话口型,口型时间序列有连续性,由非语言行为的标记词查找对应的同步时间。
进一步的,在步骤S6所述的动画播放中,为了保证动作播放的连续性,在当前时间处于两个动作之间的情形,采用淡入淡出的双向插值算法进行插值。
进一步的,所述的一种文本驱动虚拟人非语言行为实现方法的系统,包括:
编写匹配规则模块:用于编写非语言行为匹配的规则;
制作动画文件模块:用于制作非语言行为动作;
NLP分词模块:用于对文本进行分词和词性计算;
非语言行为BML构造模块:用于对分词序列进行规则匹配并标记同步词,非语言行为BML构造;
非语言行为BML解析模块:用于解析BML并获取非语言行为动作的同步时间;
动画播放模块:用于根据当前时间对非语言行为动作进行插值播放;
编写匹配规则模块和制作动画文件模块属于预处理阶段,用于实时交互阶段的非语言行为BML解析模块和动画播放模块。
本发明提供了一种文本驱动虚拟人非语言行为的系统及方法,具备以下有益效果:该文本驱动虚拟人非语言行为的系统及方法实现输入文本驱动逼真自然的非语言行为动作,能在恰当的文本处触发播放非语言行为动作,使虚拟人的表现更真实自然;
提出了文本驱动非语言行为的机制,拓展了虚拟人的应用领域。
附图说明
图1为本发明文本驱动虚拟人非语言行为的系统及方法的预处理阶段的流程图。
图2为本发明文本驱动虚拟人非语言行为的系统及方法的实时交互阶段的流程图。
图3为NLP分词模块流程图。
图4为非语言行为BML构造模块流程图。
图5为非语言行为BML解析模块流程图。
图6为动画播放模块流程图。
具体实施方式
在此记载的实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其他技术方案,这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。
在进行具体实施方式陈述之前,需要解释一些专用名词:
optitrack是光学动作捕捉动捕系统。
MotionBuilder是欧特克公司制作的一款修复动捕系统捕捉的动作的编辑工具软件。
NLP是Nature Language Process的缩写,中文:自然语言处理。
BML是Behavior Mark Language的缩写,中文:行为标记语言。
如图1所示,文本驱动虚拟人非语言行为方法的预处理阶段,包括以下步骤:
S1、编写匹配规则。在配置文件中,编写非语言行为与分词文本的匹配规则,即在合适的分词处触发播放对应的非语言行为动作。目前规则包括文本词性检测、文本相等、文本包含、文本起始处匹配、文本末尾处匹配。特别地,为了让非语言行为表现得更加自然,需要加入一些随机性。
S2,制作动画文件:对演员说话进行分析,总结出其常用的非语言行为动作,由演员进行表演,通过optitrack动作捕捉系统捕捉所有的非语言行为动作,然后由动画师在MotionBuilder中进行修复。特别地,为了准确的还原演员的动作,在录制动作时需要同时在正前方、左侧方部署摄像头录制演员的动作,方便动画师从多个角度参考以修复动作。
如图2所示,文本驱动虚拟人非语言行为方法的实时交互阶段,包括以下步骤:
S3,NLP分词模块,如图3所示,模块中包括以下步骤:
步骤S31:NLP对文本进行分词得到分词序列;
步骤S32:对文本进行词性计算,输出带词性的分词序列。
S4,非语言行为BML构造模块,如图4所示,模块中包括以下步骤:
步骤S41:解析获取分词;
步骤S42:为每个分词按规则匹配非语言行为动作;
步骤S43:构造BML,并标记动作开始播放的词。
特别地,为了快速地进行分词匹配,规则按树形结构组织,关键字为文本的哈希值。
S5,非语言行为BML解析模块,模块中包括以下步骤:
步骤S51:解析BML;
步骤S52:查找词对应的同步时间;
步骤S53:加载动作添加到动画播放模块。
特别地,为了保证拓展性,BML需要拓展支持说话口型,口型时间序列有连续性,由非语言行为的标记词查找对应的同步时间。
S6,动画播放模块,模块中包括以下步骤:
步骤S61:按同步时间排序组织非语言行为动作;
步骤S62:根据当前时间获取前后两个动作;
步骤S63:判断当前时间是否处于两个动作之间;
步骤S64:如果是,则对两个动作进行插值,然后进入步骤S65;
步骤S65:如果否,则直接播放动作。
特别地,为了保证动作播放的连续性,在当前时间处于两个动作之间的情形,采用淡入淡出的双向插值算法进行插值。
文本驱动虚拟人非语言行为系统,包括:
编写匹配规则模块:用于编写非语言行为匹配的规则。
制作动画文件模块:用于制作非语言行为动作。
NLP分词模块:用于对文本进行分词和词性计算。
非语言行为BML构造模块:用于对分词序列进行规则匹配并标记同步词,非语言行为BML构造。
非语言行为BML解析模块:用于解析BML并获取非语言行为动作的同步时间。
动画播放模块:用于根据当前时间对非语言行为动作进行插值播放。
编写匹配规则模块和制作动画文件模块属于预处理阶段,用于实时交互阶段的非语言行为BML解析模块和动画播放模块。
实现了文本驱动虚拟人的自然逼真的非语言行为动作,能在恰当的文本处触发播放非语言行为动作,拓展了虚拟人的应用领域。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域的技术人员应该明白,在本发明的技术方案基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或者变形仍在本发明的保护范围以内。
机译: 用于开发单语文档的基于计算机的系统和方法基于计算机的系统,用于翻译外语源中的文本输入,并且基于计算机的单,多语翻译方法涉及用于翻译语言源中的文本的计算机。一种基于计算机的语言开发方法用于文档开发单,多语言翻译和领域模型三方
机译: 一种提供有效的跨语言等效的书面交流和文本翻译的方法,使用piktoideograficheskogo元语言作为中间语言,而无需使用机器翻译系统或服务翻译器
机译: 行为定义标记语言(BDML):一种用于为物联网定义生态系统行为模型的XML标记语言