首页> 中国专利> 用于实现多模态交互的数据处理方法及多模态交互系统

用于实现多模态交互的数据处理方法及多模态交互系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种用于实现多模态交互的数据处理方法及多模态交互系统，该方法包括接收多模态输入数据，并对所述多模态输入数据进行预处理；利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析；基于分析得到的结果进行综合决策以获取决策数据；根据所述决策数据输出多模态的交互结果。该方法提升了机器人系统的智能性，且使机器人系统更具成长性与人性化，极大地改善了人机交互体验。

著录项

公开/公告号CN105843381A

专利类型发明专利
公开/公告日2016-08-10

原文格式PDF
申请/专利权人北京光年无限科技有限公司;
展开▼

申请/专利号CN201610157000.1
发明设计人韦克礼;
展开▼

申请日2016-03-18
分类号G06F3/01(20060101);
代理机构11372 北京聿宏知识产权代理有限公司;
代理人张文娟;朱绘
地址 100000 北京市石景山区石景山路3号玉泉大厦四层常青藤青年创业工作室193号
入库时间 2023-06-19 00:12:25

法律信息

法律状态公告日

法律状态信息

法律状态
2020-07-28

授权

授权
2016-09-07

实质审查的生效 IPC(主分类):G06F3/01 申请日:20160318

实质审查的生效
2016-08-10

公开

公开

说明书

技术领域

本发明涉及智能机器人领域，尤其涉及一种用于实现多模态交互的数据处理方法及多模态交互系统。

背景技术

随着机器人技术的发展，智能机器人产品已经越来越多地深入到人们生活的各个方面。机器人不只用来帮助使用者高效地完成指定的工作，更被要求设计为能够与使用者进行语言、动作以及情感等多模态交互的伙伴。

现有机器人交互系统一般非常呆板，智能性非常弱，甚至可能不具备智能性。这类机器人系统通常只能根据预先设置的指令完成动作，在与使用者进行交互时，机器人依靠系统自带的交互组件触发指令，交互模式单一，或者不能进行多模态交互。同时，这类机器人系统不能通过与使用者的交互过程来获取新的知识，不能依靠自身获得成长且缺乏人性化。

综上，亟需一种能够让机器人在交互过程中更具智能性、成长性以及更具人性化的处理方法以解决上述问题。

发明内容

本发明所要解决的技术问题之一是需要提供一种能够让机器人在交互过程中更具智能性、成长性以及更具人性化的处理方法。

为了解决上述技术问题，本申请的实施例首先提供了一种用于实现多模态交互的数据处理方法，包括接收多模态输入数据，并对所述多模态输入数据进行预处理；利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析；基于分析得到的结果进行综合决策以获取决策数据；根据所述决策数据输出多模态的交互结果。

优选地，情感引擎、思维引擎及自学习引擎布置于远程服务器上，在利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析之前还包括：利用本地数据处理器对预处理后的所述多模态输入数据进行分析；若本地数据处理器输出能够用于输出的分析结果，则根据所述分析结果输出多模态的交互结果；若本地数据处理器未输出能够用于输出的分析结果，则将预处理后的所述多模态输入数据发送至远程服务器。

优选地，在利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析时：所述情感引擎基于所述多模态输入数据分别计算出交互双方的情感状态，并根据所述交互双方的情感状态分析得到第一分析结果；所述思维引擎基于所述多模态输入数据模拟多种思维方式，并根据所述多种思维方式的运算结果分析得到第二分析结果；所述自学习引擎利用根据多种经验数据进行数据挖掘得到的交互方信息对所述多模态输入数据进行分析得到第三分析结果。

优选地，所述多模态输入数据包括语音、文字、图像及其他传感器感知的信息；所述交互结果包括语音、文字、图像、动作和表情中的一种或几种的组合。

优选地，在对所述多模态输入数据进行预处理的步骤中包括：分别对所述多模态输入数据进行识别与转化；对所述转化后的数据进行预分析。

本申请的实施例还提供了一种多模态交互系统，包括接收及预处理模块，其接收多模态输入数据，并对所述多模态输入数据进行预处理；分析模块，其利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析；决策模块，其基于分析得到的结果进行综合决策以获取决策数据；输出模块，其根据所述决策数据输出多模态的交互结果。

优选地，所述情感引擎、思维引擎及自学习引擎布置于远程服务器上，所述分析模块在利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析之前，利用本地数据处理器对预处理后的所述多模态输入数据进行分析，若本地数据处理器输出能够用于输出的分析结果，则根据所述分析结果输出多模态的交互结果；若本地数据处理器未输出能够用于输出的分析结果，则将预处理后的所述多模态输入数据发送至远程服务器。

优选地，所述分析模块在利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析时：所述情感引擎基于所述多模态输入数据分别计算出交互双方的情感状态，并根据所述交互双方的情感状态分析得到第一分析结果；所述思维引擎基于所述多模态输入数据模拟多种思维方式，并根据所述多种思维方式的运算结果分析得到第二分析结果；所述自学习引擎利用根据多种经验数据进行数据挖掘得到的交互方信息对所述多模态输入数据进行分析得到第三分析结果。

优选地，所述接收及预处理模块接收的多模态输入数据包括语音、文字、图像及其他传感器感知的信息；所述输出模块输出的交互结果包括语音、文字、图像、动作和表情中的一种或几种的组合。

优选地，所述接收及预处理模块在对所述多模态输入数据进行预处理时，分别对所述多模态输入数据进行识别与转化，并对所述转化后的数据进行预分析。

与现有技术相比，上述方案中的一个或多个实施例可以具有如下优点或有益效果：

通过布置情感引擎、思维引擎以及自学习引擎对人机交互过程中的多模态输入指令进行分析，提升了机器人系统的智能性，且使机器人系统更具成长性与人性化，极大地改善了人机交互体验。

本发明的其他优点、目标，和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书，权利要求书，以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本申请的技术方案或现有技术的进一步理解，并且构成说明书的一部分。其中，表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案，但并不构成对本申请技术方案的限制。

图1为根据本发明一实施例的用于实现多模态交互的数据处理方法的流程示意图；

图2为根据本发明一实施例的对多模态输入数据的分析流程示意图；

图3为根据本发明一实施例的多模态交互系统基于远程服务器提供服务的示意图；

图4为根据本发明另一实施例的多模态交互系统的结构示意图。

具体实施方式

以下将结合附图及实施例来详细说明本发明的实施方式，借此对本发明如何应用技术手段来解决技术问题，并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征，在不相冲突前提下可以相互结合，所形成的技术方案均在本发明的保护范围之内。

情绪、情感、思维是人类在日常交互过程中表现出的行为，使机器人在与使用者的交互过程中更具智能化，就是使机器人能够模拟人与人之间的交互行为，既能够准确地识别出使用者的情感与思维表达，同时也能以一定的情感与思维行为向使用者传达出信息。本发明实施例中提出一种基于建立的多个智能搜索引擎对人机交互过程中的多模态输入数据进行处理的方法，同时输出多模态的信息表达，下面结合附图详细说明。

图1为根据本发明实施例的用于实现多模态交互的数据处理方法的流程示意图，如图所示，该方法包括：

步骤S110、接收多模态输入数据，并对所述多模态输入数据进行预处理。

步骤S120、利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析。

步骤S130、基于分析得到的结果进行综合决策以获取决策数据。

步骤S140、根据所述决策数据输出多模态的交互结果。

情绪是人类的一种复合状态，既包含来自外界的体验又包含源自人自身的生理反应，还包含行为，涉及情感和思维的交互过程是一个识别、理解直至表达的过程，接收交互过程中的各种多模态信息是全面准确地理解使用者意图的前提。在人与人之间的日常交互中，某种信息的传达往往不是通过一种方式实现的，如果仅从一种输入信息中去理解往往会得到片面或是错误的结果。举例而言，使用者在表达不理解不明白的时候，其脸部会表示出疑惑的表情，例如皱眉，同时可能伴随着摇头，还可能通过语言表达出“不明白”的含义。如果仅是从其中一种输入信息来推测使用者的意图，往往比较困难且不准确。例如仅从摇头这个动作输入来看，也有可能表达的是“不赞成、不同意”的意思，因此接收交互过程中的各种多模态输入数据就显得非常重要。

对于机器人系统来说，其能够接收的多模态信息包括，利用音频传感器接收语音，利用视频传感器接收图像，利用键盘、触摸屏等输入终端接收文字等，还可以采用已经在工业应用中普遍使用的各种传感器来感知环境中的信息，例如利用触觉传感器感知来自外界的触摸，利用气体传感器感知环境中的气体成分，利用温度传感器感知环境的温度，利用湿度传感器感知环境的湿度，利用距离传感器感知环境中的障碍物等等。在本实施例中，对机器人系统所采用的传感检测手段不做限定，并将机器人系统根据自身的传感器所获取的与环境相关的检测数据存储为环境数据。

经由传感器接收的多模态输入数据首先会进入预处理系统，进行相关的预处理。预处理系统首先分别对接收到的多模态输入数据进行识别与转化。举例而言，对于语音输入，可以采用自动语音识别技术(Automatic Speech Recognition，ASR)将语音输入识别并转换为文本类数据。

对于图像信息，基于图像处理技术，可以从中提取到交互者的外貌及形体等信息，通过对人脸的识别可以得到表情信息，通过对交互者动态影像的识别可以得到肢体动作信息。对于由其他传感器得到的检测输入，根据输入的电信号直接转换为环境数据。在得到上述转换数据后，预处理系统还会对这些数据进行简单的预分析，例如纠错、分词、NER、句法分析等。上述识别、转换以及预分析方法均可参考现有技术实施，不再赘述。

现有技术中一般采用单一的情感分析模型对上述多模态信息进行理解和提取，进而推断使用者的意图，这时情感分析模型的准确性就显得至关重要，也因此导致前期开发周期长，且开发成本巨大。在本实施例中，通过设置多个智能引擎，分别对预处理后的多模态输入数据进行分析，在一定程度上降低了分析模型的复杂度，同时能够减少前期的成本投入。具体的分析流程如图2所示，主要包括三个智能搜索引擎，即情感引擎、思维引擎以及自学习引擎。

本实施例的情感引擎主要用来对多模态输入数据进行相关的情绪识别。情感引擎首先会基于多模态输入数据分别计算出交互双方的情感状态，然后根据交互双方的情感状态分析得到交互的结果。情感引擎可以结合上下文和历史交互情况，还可以同时结合经由其他传感器获取的环境数据以及交互方的身份特征数据计算出当前使用者和机器人各自的情感状态，并基于使用者的情感状态分析其多模态行为输入的真实意图。这里所说的情感状态包括但不限于喜悦、悲伤、愤怒、失望、惊讶等，本实施例的情感引擎能够识别多达25种人类情感。在情感引擎的数据库中存储有近500种情感言语声音表达方式，对应88套肢体动作和125种面部表情，通过言语声音、肢体动作以及面部表情的相互组合，几乎能够覆盖绝大部分的人类常见的情感。

本实施例的思维引擎主要用来对多模态输入数据进行相关的思维模式分析。人类的思维方式可以包括归纳、推理、对比等。当人运用其思维能力处理事务时，有可能使用上述任一种思维方式，或是结合多种思维方式，这也是造成交互结果千差万别的重要原因。在本实施例中，综合利用多种思维方式对多模态输入数据进行分析。在本实施例的思维引擎数据库中，集成了26种人类的宏观思维模式以及10400种人类微观思维模式，从上述宏观思维模式和微观思维模式中选择一种或多种的思维模式基于多模态输入数据进行运算。具体选择哪种思维模式，可以通过对使用者的身份特征数据进行分析，以获取其经常使用的思维方式进行抽取。

需要注意的是，情感引擎所使用的环境数据从暂存环境数据的存储单元获取，情感引擎与思维引擎所使用的身份特征数据从自学习引擎数据库获取。

本实施例的自学习引擎主要是使机器人具有自我学习和自我进化的能力，即依靠机器人自身来更新扩充数据库。在本实施例中，自学习引擎既可以通过互联网获取知识，也可以向使用者学习知识。

具体的，本实施例的情感引擎、思维引擎以及自学习引擎均布置于与机器人本体相距一定距离的远程服务器上，一方面，情感引擎、思维引擎以及自学习引擎能够通过服务器与互联网进行连接，进而与其他人工智能系统进行知识共享来获取海量数据。另一方面，通过各请求服务的用户端来与使用者进行交互，从交互过程中获取新知识，并根据获取的新知识实时更新扩充数据库。举例而言，本实施例中的自学习引擎能够从与使用者的对话中获取新的知识，根据新的知识对数据库进行更新以提高人机对话的准确度。

进一步地，本实施例的自学习引擎还能基于自身的数据库进行数据挖掘，可以主动地创造出新的知识来更新自身的数据库，也就是说，自学习引擎不仅能够从外部学习和更新数据库，还能够从内部学习和更新数据库。

更进一步地，本实施例的自学习引擎还能通过交互不断挖掘出交互方的相关特征，诸如用户行为习惯、用户喜恶、用户属性等，将这些知识存储为使用者的身份特征数据，从而能对使用者更加了解，提升人机交互的满意度。

本实施例的三大智能搜索引擎基于云计算提供服务，实现了数据共享及高可扩展性，极大地提升了机器人系统的智能性。测试数据表明，自然语言处理和语义理解准确率能够达到94.7％。

还需要注意的是，对于简单形式的多模态输入指令，例如单一模态的输入数据，或是简单的组合形式的多模态输入数据，机器人系统会优先选择使用位于机器人本地的数据处理器对多模态输入指令进行分析。如果本地数据处理器可以输出有效的分析结果，即机器人能够识别并提供与分析结果对应的输出指令的，因此可以直接根据分析结果，确定机器人的多模态交互行为。

如果接收到的组合形式的多模态指令比较复杂，那么本地处理器基于本地的数据库可能无法得出有效的分析结果，即机器人在本地数据库中查询不到对应的输出指令，那么机器人系统就要通过网络向远程服务器请求提供服务，将经过预处理系统预处理后的多模态输入数据发送至远程服务器，由远程服务器上的情感引擎、思维引擎和自学习引擎进行处理。

如图3所示，在机器人本地的机器人壳体内部设置有本地处理器31及本地数据库32，对于接收到的多模态输入指令，先由本地处理器31进行处理，包括对多模态输入数据的预处理以及分析。若本地处理器31无法得出有效的分析结果，则基于如图所示的无线网络30将预处理后的多模态输入数据发送至远程服务器33，在远程服务器33上布置有情感引擎、思维引擎和自学习引擎，利用情感引擎、思维引擎和自学习引擎对数据进行处理。

从图2还可以看出，在本实施例中，情感引擎、思维引擎和自学习引擎可并行运行。然而，在实际的运转过程中，情感引擎、思维引擎和自学习引擎根据实际分析需求进行配合。进一步地，在利用自学习引擎对多模态输入数据进行处理的时候，直接从自学习引擎数据库中读取通过学习获得的最新的数据库信息。这种同时对多模态输入数据并行地进行处理的分析方法既有利于简化分析模型，还能保证对多模态输入数据的分析处理的速度，实时性好。

进一步如图2所示，在利用情感引擎、思维引擎以及自学习引擎分别获得的分析结果后，基于分析得到的结果进行综合决策以获取决策数据。综合决策的目的确定与多模态输入最接近的使用者的意图，举例而言，一种最简单的综合决策方法就是统计出情感引擎、思维引擎以及自学习引擎的分析结果中的共有的部分，并以这些共有的部分作为最终的决策数据。当然，为了获得更加可靠的决策分析结果，也可以通过建立适当的决策模型进行综合决策分析。本实施例中对综合决策所采用的具体的分析方式不做限定。

在决策分析的过程中，可以同时输入暂存的环境数据以及与使用者有关的身份特征数据，还可以引入时间数据等信息，上述辅助的输入数据有利于增加综合决策的准确性。

最后，决策数据从远程服务器端传回至本地机器人端，机器人系统根据决策数据输出多模态的交互结果。在本实施例中，为了能够更好地回应使用者的意图，提高人机交互体验，交互结果也以多模态的形式输出，其中交互结果可以为语音、文字、图像、动作以及表情中一种或几种，机器人系统通过语音生成装置合成语音输出，通过屏幕输出文字、图像信息以及表情，通过电机驱动机器人来完成肢体动作，对于配备有仿生人脸的机器人系统还可以利用仿生人脸生成表情输出。

需要说明的是，思维引擎在输出与多模态输入数据相对应的分析结果的同时，还会基于推理、发散等思维模式输出推荐结果。推荐结果与决策数据决定的交互结果一起以多模态的形式输出。举例而言，机器人用兴奋的语气说出，你也听到这条新闻了吗？我还知道另外一条关联的新闻，跟你分享一下吧。就是思维引擎基于使用者已经得知第一条新闻的情况下做出的另外一条关联的新闻的推荐结果。

现有机器人的情感技术不仅需要整合大量的信息，更需要借助高阶的人工智能演算法进行识别，而本实施例的多模态输入数据的处理方法在简化分析模型的同时有利于提高机器人的智能性。利用多模态输出交互结果，提高了人机交互体验，使机器人更具人性化。

此外，本实施例的自学习引擎通过从互联网获取知识、向用户学习知识以及基于自身的数据库进行数据挖掘主动创造知识，能够对三个智能引擎数据库进行实时更新扩展，使机器人系统更具成长性。另外，数据库更新不占用向用户提供服务的时间，不会影响系统的实时响应。

图4为根据本发明另一实施例的多模态交互系统的结构示意图，如图所示，该系统包括：

接收及预处理模块41，其接收多模态输入数据，并对所述多模态输入数据进行预处理。

分析模块42，其利用情感引擎、思维引擎及自学习引擎分别对预处理后的所述多模态输入数据进行分析。

决策模块43，其基于分析得到的结果进行综合决策以获取决策数据。

输出模块44，其根据所述决策数据输出多模态的交互结果。

该多模态交互系统的功能可参见前一实施例，不再赘述。

虽然本发明所揭露的实施方式如上，但所述的内容只是为了便于理解本发明而采用的实施方式，并非用以限定本发明。任何本发明所属技术领域内的技术人员，在不脱离本发明所揭露的精神和范围的前提下，可以在实施的形式上及细节上作任何的修改与变化，但本发明的专利保护范围，仍须以所附的权利要求书所界定的范围为准。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于实现多模态交互的数据处理方法及多模态交互系统 [P] . 中国专利： CN105843381B . 2020.07.28
2. 一种应用于机器人交互的多模态数据处理方法 [P] . 中国专利： CN113894779A . 2022-01-07
3. MULTIMODAL INPUT CONTROL METHOD AND MULTIMODAL INTERACTION SYSTEM [P] . 日本专利： JPH0895734A . 1996-04-12

机译：多模态输入控制方法和多模态交互系统
4. MULTIMODAL 3D OBJECT INTERACTION SYSTEM [P] . 美国专利： US2020089388A1 . 2020-03-19

机译：多模态3D对象交互系统
5. MULTI-MODAL GESTURE BASED INTERACTIVE SYSTEM AND METHOD USING ONE SINGLE SENSING SYSTEM [P] . 欧洲知识产权局专利： EP3066551B8 . 2020-01-01

机译：基于单模态的基于多模态的交互系统及方法