首页> 中国专利> 基于特定语料库的提取语料的方法及语料提取器

基于特定语料库的提取语料的方法及语料提取器

摘要

本申请实施例提供的一种基于特定语料库的提取语料的方法及语料提取器,属于语言技术领域。该方法包括采集用户输入的对话指令,所述对话指令包括文本指令或语音指令;验证所述对话指令是否满足第一预设规则;若是,编码所述对话指令,生成二进制字符串;从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的;基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。

著录项

  • 公开/公告号CN112307181A

    专利类型发明专利

  • 公开/公告日2021-02-02

    原文格式PDF

  • 申请/专利权人 刘玲玲;

    申请/专利号CN202011176610.9

  • 发明设计人 刘玲玲;

    申请日2020-10-28

  • 分类号G06F16/332(20190101);G06F16/338(20190101);G06F16/438(20190101);G06F40/216(20200101);G06F40/284(20200101);G06F40/289(20200101);G10L15/22(20060101);

  • 代理机构11674 北京中南长风知识产权代理事务所(普通合伙);

  • 代理人郑海

  • 地址 518052 广东省深圳市南山区前海路2057号阳光棕榈园28栋1-5K

  • 入库时间 2023-06-19 09:46:20

说明书

技术领域

本申请涉及语言技术领域,具体而言,涉及一种基于特定语料库的提取语料的方法及语料提取器。

背景技术

随着生活水平的不断提高,机器人的应用也越来越广。一般来说,用户在与机器人进行互动时,机器人可以实现简单的对答,并且很多时候,机器人的回答都不是用户想要的,进而降低了用户使用体验,也就导致用户购买力度下降,无法提高机器人的适用能力。

因此,如何解决上述技术问题,是目前亟需解决的技术问题。

发明内容

本申请提供一种基于特定语料库的提取语料的方法及语料提取器,旨在改善上述问题。

第一方面,本申请提供的一种基于特定语料库的提取语料的方法,应用于机器人,所述方法包括:采集用户输入的对话指令,所述对话指令包括文本指令或语音指令;验证所述对话指令是否满足第一预设规则;若是,编码所述对话指令,生成二进制字符串;从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的;基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。

可选地,所述基于所述至少两个目标语料生成回答信息,包括:采集所述至少两个目标语料中的每个目标语料的历史频率;按照所述历史频率的大小对所述至少两个目标语料进行排序,生成回答信息。

可选地,所述采集所述至少两个目标语料中的每个目标语料的历史频率,包括:采集包含所述至少两个目标语料的所有短句;发送查询指令至服务器,以使所述服务器基于所述查指令返回所述短句中所述至少两个目标语料中的第一目标语料出现在第二目标语料之前的第一频率,以及所述第二目标语料在所述第一目标语料之前的第二频率;其中,所述第一频率和所述第二频率作为历史频率。

在上述实现过程中,通过采集包含所述至少两个目标语料的所有短句;发送查询指令至服务器,以使所述服务器基于所述查指令返回所述短句中所述至少两个目标语料中的第一目标语料出现在第二目标语料之前的第一频率,以及所述第二目标语料在所述第一目标语料之前的第二频率;其中,所述第一频率和所述第二频率作为历史频率。按照所述历史频率的大小对所述至少两个目标语料进行排序,生成回答信息。从而可以进一步提高回答信息的准确率,以使得机器人反馈的回答信息更加贴合用户所想要的答案,进而提升用户体验。

可选地,所述基于所述至少两个目标语料生成回答信息,包括:确定所述特定语料库对应的语句库,所述语句库存储有多条语句和每条所述语句包含的分词的词向量;其中,所述语句库存储在所述机器人的内存中;从所述语句库中获取所述至少两个目标语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组;将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;将所述初始句向量输入预训练的句向量模型,获得各语句的目标句向量,其中所述预训练的句向量模型基于语句的上下文关系来生成;根据所述目标句向量生成回答信息。

在上述实现过程中,通过先确定所述特定语料库对应的语句库,所述语句库存储有多条语句和每条所述语句包含的分词的词向量;其中,所述语句库存储在所述机器人的内存中;再从所述语句库中获取所述至少两个目标语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组;然后将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;接着将所述初始句向量输入预训练的句向量模型,获得各语句的目标句向量,其中所述预训练的句向量模型基于语句的上下文关系来生成;最后根据所述目标句向量生成回答信息。以通过向量方式来进一步提高回答信息的精确度,以使得机器人反馈的回答信息更加贴合用户所想要的答案,进而提升用户体验。

可选地,所述方法还包括:对所述预训练的句向量模型进行模型训练,其中所述预训练的句向量模型的训练过程包括:对所述特定语料库中的语料进行分词预处理,基于得到的分词分别生成对应的词向量;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,每条训练语句包括至少两个语料,训练语句预先存储在训练库中,所述训练库与所述特定语料库相互关联;将所述训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,输出对应的训练语句的初始句向量;基于所述特定语料库中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。

在上述实现过程中,通过对所述预训练的句向量模型进行模型训练,其中所述预训练的句向量模型的训练过程包括:对所述特定语料库中的语料进行分词预处理,基于得到的分词分别生成对应的词向量;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,每条训练语句包括至少两个语料,训练语句预先存储在训练库中,所述训练库与所述特定语料库相互关联;将所述训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,输出对应的训练语句的初始句向量;基于所述特定语料库中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。进而可以得到准确度较高的句向量模型,以便于后续通过该句向量模型输出精准度较高的回答信息,以便于提升用户体验。

可选地,所述方法还包括:在监测到触发呈现所述回答信息时,获取所述第一预设规则对应的预设权限信息,所述预设权限信息包括用于表征通过语音显示的第一权限、用于表征通过文字显示的第二权限或用于表征通过表情显示的第三权限;若所述预设权限信息为所述第一权限,将所述回答信息转换为语音,以通过所述机器人的播放器进行播放;若所述预设权限信息为所述第二权限,将所述回答信息转换为文本信息,以通过所述机器人的显示器进行显示;若所述预设权限信息为所述第三权限,查询表情库中与所述回答信息所对应的目标表情,所述表情库中存储有多个表情,每个所述表情对应至少一个目标语料;基于所述机器人上的可显示区域显示所述表情,所述可显示区域包括眼睛、脸和/或身体。

在上述实现过程中,通过在监测到触发呈现所述回答信息时,获取所述第一预设规则对应的预设权限信息,所述预设权限信息包括用于表征通过语音显示的第一权限、用于表征通过文字显示的第二权限或用于表征通过表情显示的第三权限;若所述预设权限信息为所述第一权限,将所述回答信息转换为语音,以通过所述机器人的播放器进行播放;若所述预设权限信息为所述第二权限,将所述回答信息转换为文本信息,以通过所述机器人的显示器进行显示;若所述预设权限信息为所述第三权限,查询表情库中与所述回答信息所对应的目标表情,所述表情库中存储有多个表情,每个所述表情对应至少一个目标语料;基于所述机器人上的可显示区域显示所述表情,所述可显示区域包括眼睛、脸和/或身体。从而可以使得在机器人输出回答信息时,能够以多种方式进行呈现,进而提升用户对机器人的喜爱程度,以便于提升用户体验。同时,可以提高机器人的灵活度,使得机器人不再死板,可以更加与人接近。进一步地,通过权限的设置,可以使得在显示回答信息时,能够提供更多的显示场景。

可选地,所述验证所述对话指令是否满足第一预设规则,包括:采集所述对话指令所对应的声音频率;按照预设解析方式解码所述声音频率,得到十六进制字符串;查询频率库中是否存在与所述十六进制字符串匹配的目标字符串,所述频率库中预先采集有多个字符串,每个字符串对应一声音频率,每一声音频率对应一用户;若是,则判定对话指令满足第一预设规则;若否,则判定对话指令不满足第一预设规则。

在上述实现过程中,通过采集所述对话指令所对应的声音频率;按照预设解析方式解码所述声音频率,得到十六进制字符串;查询频率库中是否存在与所述十六进制字符串匹配的目标字符串,所述频率库中预先采集有多个字符串,每个字符串对应一声音频率,每一声音频率对应一用户;若是,则判定对话指令满足第一预设规则;若否,则判定对话指令不满足第一预设规则。从而可以准确识别该对话指令的发起用户是否合法,以规避不合法用户,降低使用风险,提高机器人的工作效率。

可选地,所述方法还包括:采集用户的人脸图像;确定是否存在与所述人脸图像匹配的用户语料库;若存在,将所述回答信息存储至所述用户语料库,以更新所述用户语料库;若不存在,以所述人脸图像建立所述用户的用户语料库;将所述回答信息存储至所述用户语料库,以更新所述用户语料库。

在上述实现过程中,通过所述方法还包括:采集用户的人脸图像;确定是否存在与所述人脸图像匹配的用户语料库;若存在,将所述回答信息存储至所述用户语料库,以更新所述用户语料库;若不存在,以所述人脸图像建立所述用户的用户语料库;将所述回答信息存储至所述用户语料库,以更新所述用户语料库。从而便于维护同一用户的使用信息,提高后期同一用户再次使用时的回答效率。以及,便于机器人针对同一用户可以更快的作出反应,以提高用户体验。

可选地,所述采集用户输入的对话指令,包括:采集用户输入的第一指令;确认所述第一指令是否为短句;若否,采集所述用户的表情信息;查询表情库中是否存在与所述表情信息对应的文字信息,所述表情库中预先存储有多个表情和与每个表情对应的文字信息;若是,基于所述文字信息生成对话指令;若否,发出提示信息,并重新采集所述用户输入的新的第一指令。

第二方面,本申请提供的一种基于特定语料库的语料提取器,应用于机器人,所述语料提取器包括:接收模块,用于采集用户输入的对话指令,所述对话指令包括文本指令或语音指令;验证模块,用于验证所述对话指令是否满足第一预设规则;处理模块,用于若是,编码所述对话指令,生成二进制字符串;提取模块,用于从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的;生成模块,用于基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。

上述本申请提供的一种基于特定语料库的提取语料的方法及语料提取器,通过采集用户输入的对话指令,所述对话指令包括文本指令或语音指令;验证所述对话指令是否满足第一预设规则;若是,编码所述对话指令,生成二进制字符串;从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的;基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。从而建立一种新的语料提取规则,使得在从特定语料库进行语料提取时,通过先进行验证,在验证通过后,再对指令进行编码,使得语料提取更加安全可靠。并且,通过从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,以生成回答信息,进而可以使得回答信息的准确度更高,以使得机器人的回答更加精准,有效提高用户体验。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请第一实施例提供的一种电子设备的结构示意图;

图2为本申请第二实施例提供的一种基于特定语料库的提取语料的方法的流程图;

图3为本申请第三实施例提供的一种基于特定语料库的语料提取器的功能模块示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合附图对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

第一实施例

图1为本申请实施例提供的一种电子设备的结构示意图,在本申请中可以通过图1所示的示意图来描述用于实现本申请实施例的基于特定语料库的提取语料的方法及语料提取器的示例的电子设备100。

也就是说,电子设备100可以执行第二实施例的方法步骤,以及实现第三实施例中的模块功能。具体的,请参照第二实施例以及第三实施例,在此,不再赘述。

如图1所示的一种电子设备的结构示意图,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108,这些组件通过总线系统和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备可以具有图1示出的部分组件,也可以具有图1未示出的其他组件和结构。

所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令。

所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108用于输出语料。例如可以是语音播放设备,或者是显示设备。

第二实施例:

参照图2所示的一种基于特定语料库的提取语料的方法的流程图,该方法应用于机器人,方法具体包括如下步骤:

步骤S201,采集用户输入的对话指令。

其中,所述对话指令包括文本指令或语音指令。例如,用户可以通过语音方式来直接对机器人进行指示。又或者用户还可以通过输入文本的方式来输入对话指令。在此,不作具体限定。

作为一种实施方式,步骤S201,包括:采集用户输入的第一指令;确认所述第一指令是否为短句;若否,采集所述用户的表情信息;查询表情库中是否存在与所述表情信息对应的文字信息,所述表情库中预先存储有多个表情和与每个表情对应的文字信息;若是,基于所述文字信息生成对话指令;若否,发出提示信息,并重新采集所述用户输入的新的第一指令。

步骤S202,验证所述对话指令是否满足第一预设规则。

作为一种实施方式,步骤S202,包括:采集所述对话指令所对应的声音频率;按照预设解析方式解码所述声音频率,得到十六进制字符串;查询频率库中是否存在与所述十六进制字符串匹配的目标字符串,所述频率库中预先采集有多个字符串,每个字符串对应一声音频率,每一声音频率对应一用户;若是,则判定对话指令满足第一预设规则;若否,则判定对话指令不满足第一预设规则。

在上述实现过程中,通过采集所述对话指令所对应的声音频率;按照预设解析方式解码所述声音频率,得到十六进制字符串;查询频率库中是否存在与所述十六进制字符串匹配的目标字符串,所述频率库中预先采集有多个字符串,每个字符串对应一声音频率,每一声音频率对应一用户;若是,则判定对话指令满足第一预设规则;若否,则判定对话指令不满足第一预设规则。从而可以准确识别该对话指令的发起用户是否合法,以规避不合法用户,降低使用风险,提高机器人的工作效率。

步骤S203,若是,编码所述对话指令,生成二进制字符串。

步骤S204,从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的。

步骤S205,基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。

作为一种实施方式,步骤S205,包括:采集所述至少两个目标语料中的每个目标语料的历史频率;按照所述历史频率的大小对所述至少两个目标语料进行排序,生成回答信息。

可选地,所述采集所述至少两个目标语料中的每个目标语料的历史频率,包括:采集包含所述至少两个目标语料的所有短句;发送查询指令至服务器,以使所述服务器基于所述查指令返回所述短句中所述至少两个目标语料中的第一目标语料出现在第二目标语料之前的第一频率,以及所述第二目标语料在所述第一目标语料之前的第二频率;其中,所述第一频率和所述第二频率作为历史频率。

在上述实现过程中,通过采集包含所述至少两个目标语料的所有短句;发送查询指令至服务器,以使所述服务器基于所述查指令返回所述短句中所述至少两个目标语料中的第一目标语料出现在第二目标语料之前的第一频率,以及所述第二目标语料在所述第一目标语料之前的第二频率;其中,所述第一频率和所述第二频率作为历史频率。按照所述历史频率的大小对所述至少两个目标语料进行排序,生成回答信息。从而可以进一步提高回答信息的准确率,以使得机器人反馈的回答信息更加贴合用户所想要的答案,进而提升用户体验。

作为另一种实施方式,步骤S205,包括:确定所述特定语料库对应的语句库,所述语句库存储有多条语句和每条所述语句包含的分词的词向量;其中,所述语句库存储在所述机器人的内存中;从所述语句库中获取所述至少两个目标语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组;将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;将所述初始句向量输入预训练的句向量模型,获得各语句的目标句向量,其中所述预训练的句向量模型基于语句的上下文关系来生成;根据所述目标句向量生成回答信息。

在上述实现过程中,通过先确定所述特定语料库对应的语句库,所述语句库存储有多条语句和每条所述语句包含的分词的词向量;其中,所述语句库存储在所述机器人的内存中;再从所述语句库中获取所述至少两个目标语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组;然后将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;接着将所述初始句向量输入预训练的句向量模型,获得各语句的目标句向量,其中所述预训练的句向量模型基于语句的上下文关系来生成;最后根据所述目标句向量生成回答信息。以通过向量方式来进一步提高回答信息的精确度,以使得机器人反馈的回答信息更加贴合用户所想要的答案,进而提升用户体验。

在一可能的实施例中,所述方法还包括:对所述预训练的句向量模型进行模型训练,其中所述预训练的句向量模型的训练过程包括:对所述特定语料库中的语料进行分词预处理,基于得到的分词分别生成对应的词向量;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,每条训练语句包括至少两个语料,训练语句预先存储在训练库中,所述训练库与所述特定语料库相互关联;将所述训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,输出对应的训练语句的初始句向量;基于所述特定语料库中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。

在上述实现过程中,通过对所述预训练的句向量模型进行模型训练,其中所述预训练的句向量模型的训练过程包括:对所述特定语料库中的语料进行分词预处理,基于得到的分词分别生成对应的词向量;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,每条训练语句包括至少两个语料,训练语句预先存储在训练库中,所述训练库与所述特定语料库相互关联;将所述训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,输出对应的训练语句的初始句向量;基于所述特定语料库中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。进而可以得到准确度较高的句向量模型,以便于后续通过该句向量模型输出精准度较高的回答信息,以便于提升用户体验。

在一可能的实施例中,所述方法还包括:在监测到触发呈现所述回答信息时,获取所述第一预设规则对应的预设权限信息,所述预设权限信息包括用于表征通过语音显示的第一权限、用于表征通过文字显示的第二权限或用于表征通过表情显示的第三权限;若所述预设权限信息为所述第一权限,将所述回答信息转换为语音,以通过所述机器人的播放器进行播放;若所述预设权限信息为所述第二权限,将所述回答信息转换为文本信息,以通过所述机器人的显示器进行显示;若所述预设权限信息为所述第三权限,查询表情库中与所述回答信息所对应的目标表情,所述表情库中存储有多个表情,每个所述表情对应至少一个目标语料;基于所述机器人上的可显示区域显示所述表情,所述可显示区域包括眼睛、脸和/或身体。

在上述实现过程中,通过在监测到触发呈现所述回答信息时,获取所述第一预设规则对应的预设权限信息,所述预设权限信息包括用于表征通过语音显示的第一权限、用于表征通过文字显示的第二权限或用于表征通过表情显示的第三权限;若所述预设权限信息为所述第一权限,将所述回答信息转换为语音,以通过所述机器人的播放器进行播放;若所述预设权限信息为所述第二权限,将所述回答信息转换为文本信息,以通过所述机器人的显示器进行显示;若所述预设权限信息为所述第三权限,查询表情库中与所述回答信息所对应的目标表情,所述表情库中存储有多个表情,每个所述表情对应至少一个目标语料;基于所述机器人上的可显示区域显示所述表情,所述可显示区域包括眼睛、脸和/或身体。从而可以使得在机器人输出回答信息时,能够以多种方式进行呈现,进而提升用户对机器人的喜爱程度,以便于提升用户体验。同时,可以提高机器人的灵活度,使得机器人不再死板,可以更加与人接近。进一步地,通过权限的设置,可以使得在显示回答信息时,能够提供更多的显示场景。

在一可能的实施例中,所述方法还包括:采集用户的人脸图像;确定是否存在与所述人脸图像匹配的用户语料库;若存在,将所述回答信息存储至所述用户语料库,以更新所述用户语料库;若不存在,以所述人脸图像建立所述用户的用户语料库;将所述回答信息存储至所述用户语料库,以更新所述用户语料库。

在上述实现过程中,通过所述方法还包括:采集用户的人脸图像;确定是否存在与所述人脸图像匹配的用户语料库;若存在,将所述回答信息存储至所述用户语料库,以更新所述用户语料库;若不存在,以所述人脸图像建立所述用户的用户语料库;将所述回答信息存储至所述用户语料库,以更新所述用户语料库。从而便于维护同一用户的使用信息,提高后期同一用户再次使用时的回答效率。以及,便于机器人针对同一用户可以更快的作出反应,以提高用户体验。

第三实施例:

参见图3所示的一种基于特定语料库的语料提取器,该语料提取器应用于机器人,基于特定语料库的语料提取器400包括:

接收模块410,用于采集用户输入的对话指令,所述对话指令包括文本指令或语音指令。

可选地,接收模块410,还用于采集用户输入的第一指令;确认所述第一指令是否为短句;若否,采集所述用户的表情信息;查询表情库中是否存在与所述表情信息对应的文字信息,所述表情库中预先存储有多个表情和与每个表情对应的文字信息;若是,基于所述文字信息生成对话指令;若否,发出提示信息,并重新采集所述用户输入的新的第一指令。

验证模块420,用于验证所述对话指令是否满足第一预设规则。

可选地,验证模块420,还用于:采集所述对话指令所对应的声音频率;按照预设解析方式解码所述声音频率,得到十六进制字符串;查询频率库中是否存在与所述十六进制字符串匹配的目标字符串,所述频率库中预先采集有多个字符串,每个字符串对应一声音频率,每一声音频率对应一用户;若是,则判定对话指令满足第一预设规则;若否,则判定对话指令不满足第一预设规则。

处理模块430,用于若是,编码所述对话指令,生成二进制字符串。

提取模块440,用于从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的。

生成模块450,用于基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。

在一可能的实施例中,生成模块450,还用于采集所述至少两个目标语料中的每个目标语料的历史频率;按照所述历史频率的大小对所述至少两个目标语料进行排序,生成回答信息。

可选地,所述采集所述至少两个目标语料中的每个目标语料的历史频率,包括:采集包含所述至少两个目标语料的所有短句;发送查询指令至服务器,以使所述服务器基于所述查指令返回所述短句中所述至少两个目标语料中的第一目标语料出现在第二目标语料之前的第一频率,以及所述第二目标语料在所述第一目标语料之前的第二频率;其中,所述第一频率和所述第二频率作为历史频率。

在另一可能的实施例中,生成模块450,还用于确定所述特定语料库对应的语句库,所述语句库存储有多条语句和每条所述语句包含的分词的词向量;其中,所述语句库存储在所述机器人的内存中;从所述语句库中获取所述至少两个目标语料中的每条语句所包含的分词的词向量,得到每条语句的词向量组;将所述词向量组中的词向量按顺序依次输入初始句向量算法模型中,生成对应的语句的初始句向量;将所述初始句向量输入预训练的句向量模型,获得各语句的目标句向量,其中所述预训练的句向量模型基于语句的上下文关系来生成;根据所述目标句向量生成回答信息。

在一可能的实施例中,基于特定语料库的语料提取器400还包括:第二处理模块。第二处理模块,用于:

对所述预训练的句向量模型进行模型训练,其中所述预训练的句向量模型的训练过程包括:对所述特定语料库中的语料进行分词预处理,基于得到的分词分别生成对应的词向量;获取每条训练语句所包含的分词的词向量,得到每条训练语句的词向量组,每条训练语句包括至少两个语料,训练语句预先存储在训练库中,所述训练库与所述特定语料库相互关联;将所述训练语句的词向量组中的词向量按顺序依次输入所述初始句向量算法模型中,输出对应的训练语句的初始句向量;基于所述特定语料库中的各训练语句对应的上下文关系,将各训练语句对应的初始句向量输入初始的句向量模型进行训练,得到所述预训练的句向量模型。

在一可能的实施例中,基于特定语料库的语料提取器400还包括:第三处理模块。

第三处理模块,用于:在监测到触发呈现所述回答信息时,获取所述第一预设规则对应的预设权限信息,所述预设权限信息包括用于表征通过语音显示的第一权限、用于表征通过文字显示的第二权限或用于表征通过表情显示的第三权限;若所述预设权限信息为所述第一权限,将所述回答信息转换为语音,以通过所述机器人的播放器进行播放;若所述预设权限信息为所述第二权限,将所述回答信息转换为文本信息,以通过所述机器人的显示器进行显示;若所述预设权限信息为所述第三权限,查询表情库中与所述回答信息所对应的目标表情,所述表情库中存储有多个表情,每个所述表情对应至少一个目标语料;基于所述机器人上的可显示区域显示所述表情,所述可显示区域包括眼睛、脸和/或身体。

在一可能的实施例中,基于特定语料库的语料提取器400还包括:第四处理模块。

第四处理模块,用于采集用户的人脸图像;确定是否存在与所述人脸图像匹配的用户语料库;若存在,将所述回答信息存储至所述用户语料库,以更新所述用户语料库;若不存在,以所述人脸图像建立所述用户的用户语料库;将所述回答信息存储至所述用户语料库,以更新所述用户语料库。

进一步,本实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理设备运行时执行上述实施例二提供的任一项基于特定语料库的提取语料的方法的步骤。

本申请实施例所提供的一种基于特定语料库的提取语料的方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。

综上所述,本申请实施例提供的一种基于特定语料库的提取语料的方法及语料提取器,通过采集用户输入的对话指令,所述对话指令包括文本指令或语音指令;验证所述对话指令是否满足第一预设规则;若是,编码所述对话指令,生成二进制字符串;从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,其中,所述特定语料库为预先建立的;基于所述至少两个目标语料生成回答信息,所述回答信息以语音、文本和/或表情在所述机器人上进行显示。从而建立一种新的语料提取规则,使得在从特定语料库进行语料提取时,通过先进行验证,在验证通过后,再对指令进行编码,使得语料提取更加安全可靠。并且,通过从所述特定语料库提取出与所述二进制字符串匹配的至少两个目标语料,以生成回答信息,进而可以使得回答信息的准确度更高,以使得机器人的回答更加精准,有效提高用户体验。

需要说明的是,上述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号