首页> 中国专利> 机器人区分专业问题和寒暄问题的方法及系统

机器人区分专业问题和寒暄问题的方法及系统

摘要

本发明公开了一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:获取用于机器人识别的第一问题语句;将第一问题语句输入问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句;将第二问题语句输入问答系统中,经过过滤词表进行过滤处理后输出第三问题语句;如果第三问题语句所在集合为空时,则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中;如果第三问题语句所在集合为非空时,则判断第一问题语句为专业问题,从而进入专业问题处理系统中。本发明还公开了一种机器人区分专业问题和寒暄问题的系统。本发明具有能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率及问答效率的有益效果。

著录项

  • 公开/公告号CN107423432A

    专利类型发明专利

  • 公开/公告日2017-12-01

    原文格式PDF

  • 申请/专利号CN201710656545.1

  • 申请日2017-08-03

  • 分类号G06F17/30(20060101);

  • 代理机构11424 北京修典盛世知识产权代理事务所(特殊普通合伙);

  • 代理人杨方成

  • 地址 100086 北京市海淀区青云里满庭芳园小区配套公建3层307室

  • 入库时间 2023-06-19 03:56:57

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-05-12

    授权

    授权

  • 2017-12-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170803

    实质审查的生效

  • 2017-12-01

    公开

    公开

说明书

技术领域

本发明涉及聊天机器人技术领域,特别涉及机器人区分专业问题和寒暄问题的方法及系统。

背景技术

人工智能(Artificial Intelligence),英文缩写为AI,它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,可以设想未来人工智能带来的科技产品,将会是人类智慧的“容器”。

通常业内并不让同一个机器人同时具备寒暄聊天知识问答库和专业知识问答库,因此会准备两个知识问答库,一个是用于寒暄聊天的知识问答库,另一个是机器人面向服务领域或对象的专业知识问答库。也就是说,从为机器人准备知识时就会分别准备机器人用于寒暄的知识和机器人用于专业领域对话的知识。机器人在回答一个问题的时候会把这个问题输入到寒暄知识问答库和专业知识问答库中去,找到两个库中最好的答案,也就是匹配度最高的一个答案。

机器人区分专业问题和寒暄问题错误,从而导致问题回答的错误,也就是说经常出现这样回答错误的情况,机器人在寒暄知识问答库和专业知识问答库中找到两个库中匹配度最高的一个答案作为返回,但这个答案是错误的,即错误的找到了并非其答案所在库的答案,但是当关闭了这个并非其答案所在的库后机器人就能够正确回答了。比如本来这个问题是关于专业知识的问题,机器人却当作寒暄问题进行回答了,但是当关闭了寒暄知识问答库后,机器人就能正确回答这个关于专业知识的问题了。同样地,机器人有时也会错误地把寒暄的问话回答成专业知识库中的答案。

因此,研发出一种能够正确区分问题语句是专业问题还是寒暄问题的方法及系统具有重要的现实意义。

发明内容

本发明之目的是提供一种机器人区分专业问题和寒暄问题的方法及系统,其能够有效地判断用户输入的问题是专业问题还是寒暄问题,从而提高了问答系统整体的准确率及效率问题。

为此,本发明提供一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:

获取用于机器人识别的第一问题语句;

将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;

将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;

如果所述第三问题语句所在集合为空时,则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;

如果所述第三问题语句所在集合为非空时,则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。

优选地,所述寒暄问题处理系统包括:

获取用于机器人识别的所述第二问题语句;

将所述第二问题语句输入寒暄问题处理系统中,经过用于处理寒暄语料的停用词表进行过滤处理;

将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;

输出寒暄问题对应的答案。

优选地,所述专业问题处理系统包括:

获取用于机器人识别的所述第一问题语句;

将所述第一问题语句输入专业问题处理系统中,经过专业领域分词模型进行重新分词;

将重新分词后的所述第一问题语句经过专业领域停用词表进行过滤去除停用词;

将经过过滤去除停用词处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;

输出专业问题对应的答案。

优选地,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。

优选地,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。

本发明还提供一种机器人区分专业问题和寒暄问题的系统,包括:

问题创建模块,用于获取机器人识别的第一问题语句;

问题分词模块,将所述第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,所述特殊分词模型为专业领域语料加寒暄对话语料训练出的特殊分词模型;

问题过滤模块,将所述第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,所述过滤词表为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;

问题判断模块,如果所述第三问题语句所在集合为空时,所述问题判断模块则判断所述第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以所述第二问题语句为初始问题语句输入所述寒暄问题处理系统中;如果所述第三问题语句所在集合为非空时,所述问题判断模块则判断所述第一问题语句为专业问题,从而进入专业问题处理系统中,此时以所述第一问题语句为初始问题语句输入所述专业问题处理系统中。

优选地,所述寒暄问题处理系统包括:

寒暄问题创建模块,用于获取机器人识别的所述第二问题语句;

寒暄问题过滤模块,将所述第二问题语句输入所述寒暄问题过滤模块中,经过用于处理寒暄语料的停用词表进行过滤处理;

寒暄问题判断模块,将经过过滤处理后的所述第二问题语句输入寒暄对话模型中进行计算;

寒暄问题输出模块,用于输出寒暄问题对应的答案。

优选地,所述专业问题处理系统包括:

专业问题创建模块,用于获取机器人识别的所述第一问题语句;

专业问题分词模块,将所述第一问题语句输入所述专业问题分词模块中,经过专业领域分词模型进行重新分词;

专业问题过滤模块,将重新分词处理后的所述第一问题语句经过专业领域停用词表进行过滤处理;

专业问题判断模块,将经过过滤处理后的所述第一问题语句输入专业领域项目对话模型中进行计算;

专业问题输出模块,用于输出专业问题对应的答案。

优选地,所述第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式。

优选地,所述寒暄对话模型和所述专业领域项目对话模型通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立。

本发明的机器人区分专业问题和寒暄问题的方法及系统具有以下有益技术效果:

本发明之方案通过在语言处理中引入特殊分词模型和结合了停用词表的过滤词表,增加的分词模型和过滤词表用以完成主题区分处理的功能,利用机器人能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率及问答效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅用于解释本发明的构思。

图1是本发明的机器人区分专业问题和寒暄问题的流程示意图;

图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图。

具体实施方式

下面将描述本发明的机器人区分专业问题和寒暄问题的方法及系统的实施例。

在此记载的实施例为本发明的特定的具体实施方式,用于说明本发明的构思,均是解释性和示例性的,不应解释为对本发明实施方式及本发明范围的限制。除在此记载的实施例外,本领域技术人员还能够基于本申请权利要求书和说明书所公开的内容采用显而易见的其它技术方案,这些技术方案包括对在此记载的实施例做出任何显而易见的替换和修改的技术方案。

本说明书的附图为示意图,辅助说明本发明的构思,示意性地表示各部分的形状及其相互关系。请注意,为了便于清楚地表现出本发明实施例的各部分的结构,各附图之间不一定按照相同的比例绘制。相同或相似的参考标记用于表示相同或相似的部分。

目前本领域中通常并不让同一个机器人同时具备寒暄聊天知识问答库和专业知识问答库,因此,会准备两个知识问答库,一个是用于寒暄聊天的知识问答库,另一个是机器人面向服务领域或对象的专业知识问答库。也就是说,从为机器人准备知识时就会分别准备机器人用于寒暄的知识和机器人用于专业领域对话的知识。机器人在回答一个问题的时候会把这个问题输入到寒暄知识问答库和专业知识问答库中去,找到两个库中最好的答案,也就是匹配度最高的一个答案。但是这样会造成成本资源的极大浪费,或者经常错误地回答问题语句的答案,从而既浪费资源又容易造成误会。

实施例一

图1是本发明的机器人区分专业问题和寒暄问题的流程示意图,如图1所示,本发明提供了一种机器人区分专业问题和寒暄问题的方法,包括以下步骤:

获取用于机器人识别的第一问题语句;

将第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,其中特殊分词模型(special segmenter)为专业领域语料加寒暄对话语料训练出的特殊分词模型;

将第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,其中过滤词表(fliter word list(incl.chat word list&project SW.list))为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;

如果第三问题语句所在集合为空时,则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以第二问题语句为初始问题语句输入寒暄问题处理系统中;

如果第三问题语句所在集合为非空时,则判断第一问题语句为专业问题,从而进入专业问题处理系统中,此时以第一问题语句为初始问题语句输入专业问题处理系统中。

需要说明的是,分词处理是中文自然语言处理中的一个重要环节。对于通用语料,也就是说不是限定在某一专业领域的语料,在分词的时候是选择通用分词模型进行分词处理的,这一通用分词模型是通过人工分词标注的通用语料经过机器学习训练出来的。在处理某一专业领域语料时会使用专业分词模型,这一专业分词模型是通过人工分词标注的专业语料经过机器学习训练出来的,处理专业领域语料时使用专业分词模型比使用通用分词模型显然更准确,因为专业分词模型是为处理某一专业领域的语料特别训练的。

在自然语言处理时一般只准备通用分词模型和专业分词模型进行不同情况下的分词处理。在本发明中提到的特殊分词模型既不属于通用分词模型也不属于专业分词模型,它是机器人区分专业问题和寒暄问题的核心环节的重要组成部分。为了处理寒暄语料,可以制作训练寒暄分词模型。本发明中的特殊分词模型是通过人工标注专业领域语料加寒暄语料一起制作训练出的分词模型,在遇到专业领域句子或寒暄句子时这个特殊分词模型可以自动对它们进行按照训练语料人工标注的习惯进行正确的分词。

本发明的机器人区分专业问题和寒暄问题的系统中是利用分词模型和停用词表,进而可以区分可预知对话中的专业问题和寒暄问题。具体地,在语言处理中引入上述特殊分词模型(special segmenter)和结合了停用词表的过滤词表(fliter word list(incl.chat word list&project SW.list)),增加了分词模型和过滤词表用以完成主题区分处理的功能,利用它们能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率,还提高了问答系统整体的问答效率。

在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是寒暄问题语句,则进入寒暄问题处理系统进行处理问题,该寒暄问题处理系统包括:

获取用于机器人识别的第二问题语句;

将第二问题语句输入寒暄问题处理系统中,经过用于处理寒暄语料的停用词表(stopword list for chat)进行过滤处理;

将经过过滤处理后的第二问题语句输入寒暄对话模型中,通过该寒暄对话模型进行计算;

输出寒暄问题对应的答案。

在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是专业问题语句,则进入专业问题处理系统进行处理问题,该专业问题处理系统包括:

获取用于机器人识别的第一问题语句;

将第一问题语句输入专业问题处理系统中,经过专业领域分词模型(projectsegmenter)进行重新分词;

将重新分词后的第一问题语句经过专业领域停用词表(project SW.list)进行过滤去除停用词;

将经过过滤去除停用词处理后的第一问题语句输入专业领域项目对话模型中,通过该专业领域项目对话模型进行计算;

输出专业问题对应的答案,即通过模型回答出专业问题语句的答案。

需要说明的是,本发明的机器人区分专业问题和寒暄问题的方法中第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式,即本发明的机器人能够识别文本格式的问题。如果是第一问题语句是语音或图案形式的问题,则需要进行格式转换成文本格式,然后再输入本发明的方法或系统中。

在本发明的进一步实施例中,寒暄对话模型和专业领域项目对话模型均是通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立,当然还可以通过其他方式建立,只要能够处理寒暄问题或者专业问题即可。

需要说明的是,以下对本发明中出现的专业领域分词模型、专业领域停用词表、专业领域语料加寒暄对话语料训练出的特殊分词模型和用于处理寒暄语料的停用词表、过滤词表、寒暄对话模型和专业领域项目对话模型作简要说明。

特殊分词模型:针对项目主动收集专业领域语料和寒暄对话语料,然后进行人工分词标注,最后用制作完成的专业领域语料加寒暄对话语料训练出的分词模型;

过滤词表:用于建模的寒暄语料的词表加专业领域停用词表组成的词表为过滤词表,例如,过滤词表可以包括!、"、#、$、&、'、(、)、*、+、,、-、/、0、1、2、3、4、5、6、7、8、9、竟、笨、第、等、而、能、腾、自、臭、至、致、若、莫、血、被、要、见、让、论、该、请、诸,当然还可以包括其他未列举出的词或符号;

专业领域分词模型:用针对项目主动收集来的专业领域语料进行人工分词标注,然后用制作完成的专业领域语料训练出的分词模型;

寒暄语料停用词表:用于处理寒暄语料和寒暄对话的停用词表;

专业领域停用词表:用于处理专业领域语料和专业领域关于项目对话的停用词表;

专业领域项目对话模型:用针对项目主动收集来的专业领域项目对话语料建立的模型;

寒暄对话模型:用主动收集来的寒暄对话语料建立的模型。

实施例二

图1是本发明的机器人区分专业问题和寒暄问题的流程示意图,如图1所示,本发明还提供了一种机器人区分专业问题和寒暄问题的系统,包括:

问题创建模块,用于获取机器人识别的第一问题语句;

问题分词模块,将第一问题语句输入具有问答识别功能的问答系统中,经过特殊分词模型进行分词处理后输出第二问题语句,其中特殊分词模型(special segmenter)为专业领域语料加寒暄对话语料训练出的特殊分词模型;

问题过滤模块,将第二问题语句输入具有问答识别功能的问答系统中,经过过滤词表进行过滤处理后输出第三问题语句,其中过滤词表(fliter word list(incl.chatword list&project SW.list))为用于建模的寒暄问答对词表加专业领域停用词表组成的过滤词表;

问题判断模块,如果第三问题语句所在集合为空时,问题判断模块则判断第一问题语句为寒暄问题,从而进入寒暄问题处理系统中,此时以第二问题语句为初始问题语句输入寒暄问题处理系统中;如果第三问题语句所在集合为非空时,问题判断模块则判断第一问题语句为专业问题,从而进入专业问题处理系统中,此时以第一问题语句为初始问题语句输入专业问题处理系统中。

本发明的机器人区分专业问题和寒暄问题的系统中是利用分词模型和停用词表,进而可以区分可预知对话中的专业问题和寒暄问题。具体地,在语言处理中引入上述特殊分词模型和结合了停用词表的过滤词表,增加了分词模型和过滤词表用以完成主题区分处理的功能,利用它们能够有效地区分专业领域问答与普通寒暄对话,从而提高了问答系统整体的准确率和效率。

在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是寒暄问题语句,则进入寒暄问题处理系统进行处理问题,该寒暄问题处理系统包括:

寒暄问题创建模块,用于获取机器人识别的第二问题语句;

寒暄问题过滤模块,将第二问题语句输入寒暄问题过滤模块中,经过用于处理寒暄语料的停用词表(stopword list for chat)进行过滤处理;

寒暄问题判断模块,将经过过滤处理后的第二问题语句输入寒暄对话模型中,通过该寒暄对话模型进行计算;

寒暄问题输出模块,用于输出寒暄问题对应的答案。

在本发明的进一步实施例中,图2是本发明的机器人区分专业问题和寒暄问题的方法的流程示意图,如图2所示,如果判断出第一问题语句是专业问题语句,则进入专业问题处理系统进行处理问题,该专业问题处理系统包括:

专业问题创建模块,用于获取机器人识别的第一问题语句;

专业问题分词模块,将第一问题语句输入专业问题分词模块中,经过专业领域分词模型(project segmenter)进行重新分词;

专业问题过滤模块,将重新分词处理后的第一问题语句经过专业领域停用词表(project SW.list)进行过滤处理;

专业问题判断模块,将经过过滤处理后的第一问题语句输入专业领域项目对话模型中,通过该专业领域项目对话模型进行计算;

专业问题输出模块,用于输出专业问题对应的答案。

需要说明的是,本发明的机器人区分专业问题和寒暄问题的方法中第一问题语句、第二问题语句和第三问题语句的格式均设置为文本格式,即本发明的机器人能够识别文本格式的问题。如果是第一问题语句是语音或图案形式的问题,则需要进行格式转换成文本格式,然后再输入本发明的方法系统中。

在本发明的进一步实施例中,寒暄对话模型和专业领域项目对话模型均是通过关键词匹配的方法、LSI潜在语义分析的方法或基于词向量的方法建立,当然还可以通过其他方式建立,只要能够处理寒暄问题或者专业问题即可。

需要说明的是,以下对本发明中出现的专业领域分词模型、专业领域停用词表、专业领域语料加寒暄对话语料训练出的特殊分词模型和用于处理寒暄语料的停用词表、过滤词表、寒暄对话模型和专业领域项目对话模型作简要说明。

特殊分词模型:针对项目主动收集专业领域语料和寒暄对话语料,然后进行人工分词标注,最后用制作完成的专业领域语料加寒暄对话语料训练出的分词模型;

过滤词表:用于建模的寒暄语料的词表加专业领域停用词表组成的词表为过滤词表,例如,过滤词表可以包括!、"、#、$、&、'、(、)、*、+、,、-、/、0、1、2、3、4、5、6、7、8、9、竟、笨、第、等、而、能、腾、自、臭、至、致、若、莫、血、被、要、见、让、论、该、请、诸,当然还可以包括其他未列举出的词或符号;

专业领域分词模型:用针对项目主动收集来的专业领域语料进行人工分词标注,然后用制作完成的专业领域语料训练出的分词模型;

寒暄语料停用词表:用于处理寒暄语料和寒暄对话的停用词表;

专业领域停用词表:用于处理专业领域语料和专业领域关于项目对话的停用词表;

专业领域项目对话模型:用针对项目主动收集来的专业领域项目对话语料建立的模型;

寒暄对话模型:用主动收集来的寒暄对话语料建立的模型。

以上对本发明的机器人区分专业问题和寒暄问题的方法及系统的实施方式进行了说明。对于本发明的机器人区分专业问题和寒暄问题的方法及系统的具体特征如具体的建模方法可以根据上述披露的特征的作用进行具体设计,这些设计均是本领域技术人员能够实现的。而且,上述披露的各技术特征并不限于已披露的与其它特征的组合,本领域技术人员还可根据发明之目的进行各技术特征之间的其它组合,以实现本发明之目的为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号