首页> 中国专利> 智能问答知识库的建立方法、建立装置及建立系统

智能问答知识库的建立方法、建立装置及建立系统

摘要

一种智能问答知识库的建立方法、建立装置和建立系统,所述建立方法包括:提供领域知识数据库,领域知识数据库包括多个预置知识;接收初始请求信息;将初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库;当相似度计算结果小于相似度阈值时,抽象语义推荐步骤,获得与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息以及所具体语义表达式存入智能问答知识库。本发明的方法提高智能问答知识库的建立效率。

著录项

  • 公开/公告号CN105608218A

    专利类型发明专利

  • 公开/公告日2016-05-25

    原文格式PDF

  • 申请/专利号CN201511030332.5

  • 发明设计人 曾永梅;李波;姚贡之;朱频频;

    申请日2015-12-31

  • 分类号G06F17/30(20060101);

  • 代理机构11227 北京集佳知识产权代理有限公司;

  • 代理人吴敏

  • 地址 201803 上海市嘉定区金沙江西路1555弄398号7层

  • 入库时间 2023-12-18 15:29:29

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-27

    授权

    授权

  • 2016-06-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20151231

    实质审查的生效

  • 2016-05-25

    公开

    公开

说明书

技术领域

本发明涉及数据处理技术领域,特别涉及一种智能问答知识库的建立方 法、建立装置及建立系统。

背景技术

知识库,又称为智能数据库或人工智能数据库。知识库是知识工程中结 构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领 域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存 储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相 关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关 的定义、定理和运算法则以及常识性知识等。

知识库有着广泛的应用,典型的应用有智能问答系统或自动问题系统, 自动问题系统中存储着一些预设的问题,并存储预设问题对应的答案信息, 在公众用户提出问题时,自动问题系统会将公众用户提出的问题与预设的问 题进行匹配,若匹配成功,自动问题系统会将该预设问题对应的答案信息反 馈给公众用户。

参考图1,图1为现有技术智能问答系统中的知识库建立装置的结构示意 图,包括:人机界面10,用于输入待存储的问题;存入单元11,用于接收人 机界面10输入的待存储问题,并将接收的待存储问题存入问题库12;问题库 12,用于存储接收的待存储问题。

由于不同用户提出问题的角度不同以及表达方式不同,为了提高智能问 答系统的准确性,在对问题库中的问题进行预设时,需要人工从人机界面输 入不同表达方式的多个问题,耗时耗力,效率较低,因而现有的存储装置进 行问题存储时的效率有待改善。

发明内容

本发明解决的问题是怎样提高智能问答知识库建立的效率。

为解决上述问题,本发明提供了一种智能问答知识库的建立方法,包括:

提供领域知识数据库,所述领域知识数据库包括多个预置知识,所述预 置知识包括:一个标准问以及一个或多个扩展问;

接收初始请求信息;

将所述初始请求信息与所述领域知识数据库中的预置知识进行语义相似 度计算,并判断语义相似度计算结果的最大值是否大于相似度阈值,当相似 度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似度计算 结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库;

当相似度计算结果的最大值小于相似度阈值时,继续下面步骤:

提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式, 所述抽象语义表达式包括缺失语义成分;

根据所述抽象语义数据库对所述初始请求信息进行抽象语义推荐处理, 当获得与所述初始请求信息对应的一个或多个抽象语义表达式时,从所述初 始请求信息中提取与一个或多个抽象语义表达式的缺失语义成分对应的内 容,并将提取的内容填充到对应的缺失语义成分中以得到与所述初始请求信 息对应的一个或多个具体语义表达式,将该初始请求信息以及所述具体语义 表达式存入智能问答知识库。

可选的,所述语义相似度计算采用以下一种或多种方式的结合:基于向 量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属性论的 语义相似度计算方法和基于汉明距离的语义相似度计算方法。

可选的,分别计算所述初始请求信息与所述标准问的语义相似度以及所 述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中的最高值 作为所述初始请求信息与该预置知识的语义相似度结果。

可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。

可选的,在进行相似度计算之前还包括:对所述初始请求信息进行文本 预处理。

可选的,所述方法还包括:当无法获得与所述初始请求信息对应的抽象 语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初始请求 信息对应的扩展问。

可选的,所述方法还包括:将所述初始请求信息存入智能问答知识库的 同时,提供与所述初始请求信息对应的答案,并将该答案一并存入智能问答 知识库。

可选的,所述方法还包括:当停止接收初始请求信息之后,从领域知识 数据库中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取 的预置知识存入智能问答知识库,所述预置知识还包括答案。

可选的,所述抽象语义推荐处理包括:

对所述初始请求信息进行分词处理,得到若干单独词;

将每个单独词识别为语义规则词或非语义规则词;

分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的 词性信息;

分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类 信息;

对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象 语义候选集,所述抽象语义候选集包括多个抽象语义表达式;

根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进 行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

可选的,所述抽象语义推荐处理包括:

对所述初始请求信息进行分词处理,得到若干单独词;

分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;

分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;

对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象 语义候选集,所述抽象语义候选集包括多个抽象语义表达式;

根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进 行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

可选的,在进行匹配处理之前还包括:判断所述抽象语义候选集中抽象 语义表达式的数目是否位于预定范围内,当所述抽象语义候选集中抽象语义 表达式的数目大于预定范围时,去除部分抽象语义表达式;当所述抽象语义 候选集中抽象语义表达式的数目小于预定范围时,从默认集合中补充部分抽 象语义表达式。

可选的,所述抽象语义表达式还包括语义规则词;所述抽象语义候选集 中抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单 独词相同或属于同一词类。

可选的,与所述初始请求信息匹配的抽象语义表达式满足以下条件:

缺失语义成分对应的词性包括对应的填充内容的词性;

初始请求信息中填充内容外对应的单独词与语义规则词相同或两者属于 同一词类;

该抽象语义表达式与初始请求信息的顺序相同。

可选的,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需 要存入智能问答知识库中具体语义表达式的数目N时,还包括:

分别对与所述初始请求信息匹配的抽象语义表达式进行打分处理,从所 述初始请求信息中提取与得分较高的N个抽象语义表达式的缺失语义成分对 应的内容,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失 语义成分,得到与所述初始请求信息对应的N个具体语义表达式。

可选的,所述打分处理采用以下一种或多种方式的结合:

缺失语义成分匹配的数量越多,得分越高;

设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失 语义成分与该核心语义成分的距离越近,得分越高;

词性置信度越大,得分越高;

根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;

根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象 语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得 分越高。

本发明还提供了一种智能问答知识库的建立装置,包括:

预置知识获取单元,用于获取多个预置知识,所述预置知识包括:一个 标准问以及一个或多个扩展问;

接收单元,用于接收初始请求信息;

计算单元,用于将所述初始请求信息与所述预置知识进行语义相似度计 算;

判断单元,用于判断语义相似度计算结果的最大值是否大于相似度阈值;

抽象语义表达式获取单元,用于获取多个抽象语义表达式,所述抽象语 义表达式包括缺失语义成分;

抽象语义推荐模块,用于相似度计算结果的最大值小于相似度阈值时, 根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理, 获得与所述初始请求信息对应的一个或多个抽象语义表达式;

填充单元,用于当获得与所述初始请求信息对应的一个或多个抽象语义 表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失 语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到 与所述初始请求信息对应的一个或多个具体语义表达式;

存入单元,用于当相似度计算结果的最大值大于相似度阈值时,将相似 度计算结果的最大值对应的预置知识中的标准问和扩展问以及对应的初始请 求信息存入智能问答知识库;或者当相似度计算结果的最大值小于相似度阈 值时,将所述具体语义表达式以及对应的初始请求信息存入智能问答知识库。

可选的,所述计算单元采用以下一种或多种方式的结合进行语义相似度 计算:基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、 基于属性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

可选的,所述计算单元分别计算所述初始请求信息与所述标准问的语义 相似度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结 果中的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

可选的,所述相似度阈值大于或等于0.7且小于或等于1.0。

可选的,所述装置还包括文本预处理单元:用于对所述初始请求信息进 行文本预处理。

可选的,所述抽象语义推荐模块包括:分词单元、规则词识别单元、词 性标注单元、词类判断单元、搜索单元和匹配单元,其中,所述分词单元, 用于对所述初始请求信息进行分词处理,得到若干单独词;规则词识别单元, 用于将每个单独词识别为语义规则词或非语义规则词;词性标注单元,用于 分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性 信息;词类判断单元,用于分别对每个语义规则词进行词类判断处理,得到 每个语义规则词的词类信息;搜索单元,用于对抽象语义表达式获取单元获 取的多个抽象语义表达式进行搜索处理,得到与所述初始请求信息相关的抽 象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;匹配单元, 用于根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进 行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

可选的,所述抽象语义推荐模块还包括:分词单元、词性标注单元、词 类判断单元、搜索单元和匹配单元,其中,分词单元,用于对所述初始请求 信息进行分词处理,得到若干单独词;词性标注单元,用于分别对每个所述 单独词进行词性标注处理,得到每个单独词的词性信息;词类判断单元,用 于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息; 搜索单元,用于对抽象语义表达式获取单元获取的多个抽象语义表达式进行 搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义 候选集包括多个抽象语义表达式;匹配单元,用于根据所述词性信息和词类 信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得到与所述初始 请求信息匹配的抽象语义表达式。

可选的,所述抽象语义推荐模块还包括:数目判断单元、去除单元和补 充单元,其中:数目判断单元,用于判断所述抽象语义候选集中抽象语义表 达式的数目是否位于预定范围内;去除单元,用于当所述抽象语义候选集中 抽象语义表达式的数目大于预定范围时,去除部分抽象语义表达式;补充单 元,用于当所述抽象语义候选集中抽象语义表达式的数目小于预定范围时, 从默认集合中补充部分抽象语义表达式。

可选的,所述抽象语义表达式还包括语义规则词;所述搜索单元搜索得 到的所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初 始请求信息中至少部分单独词相同或属于同一词类。

可选的,所述匹配单元得到与所述初始请求信息匹配的抽象语义表达式 满足以下条件:

缺失语义成分对应的词性包括对应的填充内容的词性;

初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于 同一词类;

该抽象语义表达式与初始请求信息的顺序相同。

可选的,所述装置还包括打分单元,用于当抽象语义推荐模块获得的与 所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知 识库中具体语义表达式的数目N时,分别对与所述初始请求信息匹配的抽象 语义表达式进行打分处理,将提取的内容填充到得分较高的N个抽象语义表 达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体语义表 达式。

可选的,所述打分单元采用以下一种或多种方式的结合进行打分处理:

缺失语义成分匹配的数量越多,得分越高;

设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失 语义成分与该核心语义成分的距离越近,得分越高;

词性置信度越大,得分越高;

根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;

根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象 语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得 分越高。

可选的,所述装置还包括:答案提供单元,用于提供与初始请求信息对 应的答案;所述存入单元将所述初始请求信息存入智能问答知识库的同时, 将答案提供单元提供的答案一并存入智能问答知识库。

可选的,所述装置还包括:提取单元,用于当接收单元停止接收初始请 求信息之后,从预置知识获取单元中至少提取未存入智能问答知识库的部分 数目的预置知识;所述存入单元将提取单元提取的预置知识存入智能问答知 识库。

本发明还提供了一种智能问答知识库的建立系统,包括:

领域知识数据库,所述领域知识数据库包括多个预置知识,所述预置知 识包括:一个标准问以及一个或多个扩展问;

抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述 抽象语义表达式包括缺失语义成分;

还包括:上述所述的建立装置。

与现有技术相比,本发明的技术方案具有以下优点:

本发明智能问答知识库的建立方法,在接收初始请求信息后,将所述初 始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算,并判 断语义相似度计算结果的最大值是否大于相似度阈值,当相似度计算结果的 最大值大于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值 对应的预置知识中的标准问以及扩展问存入智能问答知识库;当相似度计算 结果小于相似度阈值时,根据所述抽象语义数据库对所述初始请求信息进行 抽象语义推荐处理,当获得与所述初始请求信息对应的一个或多个抽象语义 表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失 语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到 与所述初始请求信息对应的一个或多个具体语义表达式,将该初始请求信息 以及所述具体语义表达式存入智能问答知识库。本发明的方法,在接收到用 户输入的一条初始请求信息后,在进行语义相似度计算以及将相似度计算结 果与相似度阈值进行比较后,将相似度计算结果的最大值对应的预置知识及 对应的初始请求信息存储到智能问答知识库中存储到智能问答知识库中,因 而用户在建立智能问答知识库,无需多次向智能问答知识库输入相关联的多 个问题,从而提高了智能问答知识库建立效率;在相似度计算结果小于相似 度阈值时,则进行抽象语义的推荐处理,获得与所述初始请求信息对应的一 个或多个具体语义表达式,该获得的一个或多个具体语义表达式表达的语义 与初始请求信息所要表达的语义相同或近似,然后将一个或多个具体语义表 达式及对应的初始请求信息存入智能问答知识库,因而用户只需要输入一条 初始请求信息,本发明的方法可以对该初始请求信息进行自动的扩展,获得 与该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智 能问答知识库,进一步提高了智能问答知识库的建立效率和存储内容的准确 性;并且,本发明的方法,先进行语义相似度计算,通过对相似度计算结果 是否大于相似度阈值进行判断,当相似度计算结果的最大值大于相似度阈值 时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标 准问以及扩展问存入智能问答知识库;当相似度计算结果小于相似度阈值时, 进行抽象语义推荐处理,因而可以将领域知识数据库中用户需要的预置知识 优先推荐到智能问答知识库中,从而处理简单,进一步提高了建库的效率。

进一步,在进行语义相似度计算之前,可对初始请求信息与领域知识数 据库中的预置知识进行文本预处理,以从初始请求信息与领域知识数据库中 的预置知识中抽取出有代表性的特征,作为相似度计算的基础,以提高进行 相似度计算时的准确性。

进一步,对单独词进行词性标注处理,得到每个单独词的词性信息的目 的是为后续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据,提 高了后续匹配的精度和效率。

进一步,分别对每个所述单独词进行词类判断处理的目的是为了判断每 个单独词是否具有相应的词类,在进行匹配处理时,通过判断初始请求信息 中部分内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类, 从而判断初始请求信息与该抽象语义表达式的匹配程度,提高了匹配的精度 和效率。

进一步,对抽象语义数据库进行搜索处理,得到与所述初始请求信息相 关的抽象语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处 理时间,以提高系统的性能。

进一步,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺 失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始请求信 息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类;该抽 象语义表达式与初始请求信息的顺序相同,使得获得的抽象语义表达式与初 始请求信息匹配程度较高。

进一步,在进行词性标注处理和词类判断处理之前,进行识别每个单独 词为语义规则词或非语义规则词的步骤,然后对识别为非语义规则词的每个 单独词进行词性标注处理,对识别为语义规则词的每个单独词进行词类判断 处理,因而词性标注处理和词类判断处理的对象分别是部分单独词,减少了 词性标注处理和词类判断处理所需的时间,提高了处理效率。

进一步,当与所述初始请求信息匹配的抽象语义表达式的数目M大于需 要存入智能问答知识库中具体语义表达式的数目N时,还包括:分别对与所 述初始请求信息匹配的抽象语义表达式进行打分处理,因而可以将与初始请 求信息最匹配的具体语义表达式存入智能问答知识库,从而保证建立的智能 问答知识库具有较高的准确性。

本发明智能问答知识库的建立装置,接收单元在接收到用户输入的一条 初始请求信息后,计算单元将所述初始请求信息与所述预置知识进行语义相 似度计算,判断单元将所述初始请求信息与所述预置知识进行语义相似度计 算,存入单元在当相似度计算结果的最大值大于相似度阈值时,将该初始请 求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问 存入智能问答知识库,因而用户在使用本发明的装置建立智能问答知识库时, 无需多次向智能问答知识库输入相关联的多个问题,从而提高了智能问答知 识库建立效率;抽象语义推荐模块在相似度计算结果小于相似度阈值时,则 进行抽象语义的推荐处理,获得与所述初始请求信息对应的一个或多个具体 语义表达式,填充单元在获得的一个或多个具体语义表达式表达的语义与初 始请求信息所要表达的语义相同或近似,存入单元将一个或多个具体语义表 达式及对应的初始请求信息存入智能问答知识库,因而用户使用本发明的装 置只需要输入一条初始请求信息,本发明的装置可以对该初始请求信息进行 自动的扩展,获得与该初始请求信息相关的若干条信息(一个或多个具体语 义表达式),存入智能问答知识库,进一步提高了智能问答知识库的建立效率; 并且,本发明的装置,可以先进行语义相似度计算,通过对相似度计算结果 是否大于相似度阈值进行判断,当相似度计算结果的最大值大于相似度阈值 时,将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标 准问以及扩展问存入智能问答知识库;当相似度计算结果小于相似度阈值时, 进行抽象语义推荐处理,因而可以将用户需要的预置知识优先推荐到智能问 答知识库中,从而处理简单,进一步提高了建库的效率。

本发明智能问答知识库的建立系统,除了包括建立装置外还包括领域知 识数据库和抽象语义数据库,领域知识数据库用于提供预置知识,抽象语义 数据库用于提供抽象语义表达式,因而在智能问答知识库的建立时,一个领 域知识数据库和抽象语义数据库可以向不同的建立装置提供数据信息。

附图说明

图1为现有技术智能问答系统中的知识库建立装置的结构示意图;

图2~图6为本发明实施例智能问答知识库的建立方法的流程示意图;

图7~图10为本发明实施例智能问答知识库的建立装置的结构示意图;

图11为本发明实施例智能问答知识库的建立系统的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施例做详细的说明。

图2~图6为本发明实施例智能问答知识库的建立方法的流程示意图;图 7~图10为本发明实施例智能问答知识库的建立装置的结构示意图。

请参考图2,所述智能问答知识库的建立方法,包括步骤:

步骤S101,提供领域知识数据库,所述领域知识数据库包括多个预置知 识,所述预置知识包括:一个标准问以及一个或多个扩展问;

步骤S102,接收初始请求信息;

步骤S103,将所述初始请求信息与所述领域知识数据库中的预置知识进 行语义相似度计算;

步骤S104,判断语义相似度计算结果的最大值是否大于相似度阈值,当 相似度计算结果的最大值大于相似度阈值时,则进行步骤S105,当相似度计 算结果的最大值小于相似度阈值时,则进行步骤S106~步骤S109;

步骤S105,将该初始请求信息以及相似度计算结果的最大值对应的预置 知识中的标准问以及扩展问存入智能问答知识库;

步骤S106,提供抽象语义数据库,所述抽象语义数据库包括多个抽象语 义表达式,所述抽象语义表达式包括缺失语义成分;

步骤S107,根据所述抽象语义数据库对所述初始请求信息进行抽象语义 推荐处理;

步骤S108,当获得与所述初始请求信息对应的一个或多个抽象语义表达 式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺失语义 成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所 述初始请求信息对应的一个或多个具体语义表达式;

步骤S109,将该初始请求信息以及所述具体语义表达式存入智能问答知 识库。

下面对上述过程进行详细的描述。

进行步骤S101,提供领域知识数据库,所述领域知识数据库包括多个预 置知识,所述预置知识包括:一个标准问以及一个或多个扩展问。

所述领域知识数据库中包括(存储)有多个预置知识,在一实施例中, 每个预置知识包括一个标准问以及一个或多个扩展问。所述扩展问为标准问 的不同表达形式,其均表达同一语义。

针对同一领域,为了使得对应的领域知识数据库可以用于建立多个不同 的智能问答数据库,所述领域知识数据库中的预置知识可以是本领域的通用 知识。

需要说明的是,所述标准问和所述扩展问均既可以采用语义表达式的形 式,也可以采用具体的问句形式,其都在本发明的保护范围中。

在另一实施例中,所述预置知识除了包括一个标准问以及一个或多个扩 展问,还可以包括与该标准问以及一个或多个扩展问对应的答案。

本实施例中以电信领域的关于如何开通彩铃作为示例进行说明,所述领 域知识数据库中存储有与“彩铃如何开通”有关的预置知识包括:“彩铃如何 开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通彩 铃”。将上述问题的其中一个问题作为标准问,其他三个问题作为扩展问。在 一实施例中,比如可以将排在最前面的一个问题“彩铃如何开通”作为标准 问,将另外的三个问题作为相应的扩展问,在其他实施例中也可以指定其它 问题为标准问。

所述领域知识数据库中还存储有“彩铃如何开通”对应的答案。

所述领域知识数据库中还可以存储其他的预置知识,例如,如何开通 GPRS的预置知识、如何办理停机手续的预置知识、如何开通长途优惠业务的 预置知识。

在一实施例中,所述领域知识数据库中存储的预置知识以文本的形式存 在,预置知识为多个时,不同的预置知识具有对应的存储区间以及对应的存 储地址。

在其他实施例中,所述预置知识可以以其他的形式存在,比如预置知识 中的标准问和扩展问可以以文本的形式存在,而对应的答案可以以语音或视 频等多媒体形式存在。

本发明中不限定具体的领域,如:通信领域、金融领域、电子政务领域、 电子商务领域、日常生活领域、智能家居领域以及智能交通领域等。

进行步骤S102,接收初始请求信息。

所述初始请求信息为需要与所述领域知识数据库中的预置知识进行语义 相似度计算的信息或者为需要进行抽象语义推荐的信息。

在一实施例中,所述初始请求信息为人机界面输入的信息,比如所述初 始请求信息为键盘或触摸屏等输入的文本信息,或者所述初始信息也可以从 话筒输入,然后经语音识别引擎转化为的文本信息。

以如何开通彩铃作为示例进行说明,本实施例中,所述接收的初始请求 信息为“我要怎样才能开通彩铃”。

进行步骤S103,将所述初始请求信息与所述领域知识数据库中的预置知 识进行语义相似度计算。

语义相似度是指初始请求信息与领域知识数据库中的预置知识基于字与 词语上的匹配程度、和(或者)语义上的符合程度。

所述预置知识为多个时,将所述初始请求信息依次与所述领域知识数据 库中的预置知识进行语义相似度计算,获得相应的语义相似度结果。

在一实施例中,当每个领域知识包括一个标准问以及一个或多个扩展问, 分别计算所述初始请求信息与所述标准问的语义相似度以及所述初始请求信 息与每个所述扩展问的语义相似度,并将计算结果中的最高值作为所述初始 请求信息与该预置知识的语义相似度结果。

在一实施例中,语义相似度计算的过程为依据一种相似度计算方法分别 对初始请求信息与领域知识数据库中的预置知识进行相似度计算处理,获得 与初始请求信息对应的第一特征值,以及与预置知识对应的第二特征值,然 后将第一特征值和第二特征值进行比较或处理获得相似度值(或者语义相似 度计算结果)。所述比较或处理可以为相比运算、相减运算或者其他形式的运 算。所述第一特征值与第二特征值越接近,表明初始请求信息与对应的预置 知识的相似度越高,反之则越低。

需要说明的是,在进行语义相似度计算时,获得第一特征值和第二特征 值过程可以并行进行(同时进行计算),也可以串行进行(先后进行计算)。

所述语义相似度计算依据相似度计算方法采用以下一种或多种方式的结 合:基于向量空间模型(VectorSpaceModel,VSM)的计算方法、基于隐形 语义索引模型(LatentSemanticIndexing,LSI)的计算方法、基于属性论的语 义相似度计算方法或基于汉明距离的语义相似度计算方法。需要说明的是, 所述相似度计算方法还可以为其他的语义相似度的计算方法。

本实施例中,以基于向量空间模型的计算方法对初始请求信息与领域知 识数据库中的预置知识进行语义相似度计算作为示例,初始请求信息与领域 知识数据库中的预置知识被看作是由相互独立的词条组(T1,T2,…….,Tn)构成, 对于每一个词条Ti(1≤i≤n),根据其在句中的重要程度赋以一定的权值Wi, 并将T1,T2,…….,Tn看成一个n维系坐标系中的坐标轴,W1,W2,…….,Wn为对 应的坐标值,这样由(T1,T2,…….,Tn)分解而得到的正交字条矢量组就构成一 个向量空间,词条则映射成为空间中的一个点。对于初始请求信息与领域知 识数据库中的预置知识都可以映射到此向量空间中,用词条矢量(T1,W1,T2, W2,…….,Tn,Wn)来表示,从而将语句信息的匹配问题转化为向量空间中矢量 匹配的问题。具体到初始请求信息与领域知识数据库中的预置知识,两者的 语义相似度计算结果为两向量对应的交角的比值,具体为预置知识对应的词 条矢量在向量空间中对应的第一角度(第一特征值)与初始请求信息对应的 词条矢量在向量空间中对应的第二角度(第二特征值)之比,所述比值越接 近于1表示两者的相似度越高。在其他实施例中,两者的相似度计算结果也 可用向量之间的夹角来表示,夹角越小,说明两者相似度越高,所述夹角(相 似度值)为预置知识对应的词条矢量在向量空间中对应的第一角度(第一特 征值)减去初始请求信息对应的词条矢量在向量空间中对应的第二角度(第 二特征值)。

需要说明的是,在进行语义相似度计算之前,可对初始请求信息与领域 知识数据库中的预置知识进行文本预处理,以从初始请求信息与领域知识数 据库中的预置知识中抽取出有代表性的特征,作为相似度计算的基础,以提 高进行相似度计算时的准确性。在一实施例中,所述文本预处理包括分词处 理和去停用词处理。此外,文本预处理还可以去除部分无意义词语,如:“我” “想”“吗”等。

所述分词处理依据一定分词规则进行,在系统中预先设定分词的规则, 进行分词处理时,调用设定的分词规则,对初始请求信息与对应的领域知识 数据库中的预置知识分别进行分词处理,形成若干词条构成的两个词条串。

去停用词处理是预先建立一个停用词列表,去停用词时,每一个词条与 停用词列表中的词进行匹配,如果该词条存在于停用词列表中,则将该词条 从中文分词处理后的词条串中删除。

所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍 历法或词频统计法,或其他合适的分词方法。去停用词处理是是去除句子中 识别意义不大但出现频率很高的词,这些词在计算相似度的过程中会引入较 大的误差,可用看成是一种噪音,比如:“这,的,和”等词。

以如何开通彩铃作为示例进行说明,将接收的初始请求信息“我要怎样 才能开通彩铃”分别与领域知识数据库中若干预置知识进行语义相似度计算。

以初始请求信息为“我要怎样才能开通彩铃”与一个预置知识(“彩铃如 何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃怎么办”,“如何开通 彩铃”)进行语义相似度计算为例,将初始请求信息为“我要怎样才能开通彩 铃”分别与“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃 怎么办”,“如何开通彩铃”进行语义相似度计算,获得四个语义相似度值, 将四个语义相似度值中的最大值作为语义相似度计算结果。

领域知识数据库中有若干预置知识,相应的获得若干相似度计算结果。

进行步骤S104,判断语义相似度计算结果的最大值是否大于相似度阈值, 当相似度计算结果的最大值大于相似度阈值时,则进行步骤S105;当相似度 计算结果的最大值小于相似度阈值时,则进行步骤S106。

相似度阈值为预先设置。在一实施例中,所述相似度阈值大于或等于0.7 且小于或等于1.0。需要说明的是,所述相似度阈值可以为其他的数值。

当相似度计算结果的最大值大于相似度阈值时,则进行步骤S105,将该 初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及 扩展问一并存入智能问答知识库。

本实施例将该初始请求信息以及相似度计算结果的最大值对应的预置知 识中的标准问以及扩展问存入智能问答知识库的时候,可以将该初始请求信 息作为存储的标准问,而将相似度计算结果的最大值对应的预置知识中的标 准问以及扩展问作为该存储的标准问下的扩展问。

在一实施例中,当相似度计算结果的最大值大于相似度阈值时,将该初 始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩 展问存入智能问答知识库的同时,提供与所述初始请求信息对应的答案,并 将该答案一并存入智能问答知识库。所述提供的与所述初始请求信息对应的 答案为用户自己提供的答案,该答案与初始请求信息具有对应关系。此时存 入智能问答知识库的答案更加准确。

在另一实施例中,当相似度计算结果的最大值大于相似度阈值时,将该 初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及 扩展问存入智能问答知识库的同时,将领域知识数据库存储的与该预置知识 对应的答案也一并存储到智能问答知识库中。此时建库的效率更高。

当相似度计算结果的最大值大于相似度阈值时,说明初始请求信息与相 应的预置知识相似度很高,表示该预置知识为用户希望存储到智能问答知识 库的预置知识。本发明实施例的方法,在接收到用户输入的一条初始请求信 息后,在进行语义相似度计算以及将相似度计算结果与相似度阈值进行比较 后,将达到相似度阈值的预置知识及对应的初始请求信息存储到智能问答知 识库中,因而用户在建立智能问答知识库,无需多次向智能问答知识库输入 相关联的多个问题,从而提高了智能问答知识库建立效率。

以如何开通彩铃作为示例进行说明,初始请求信息为“我要怎样才能开 通彩铃”与预置知识(“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要 开通彩铃怎么办”,“如何开通彩铃”)的相似度计算结果大于相似度阈值,将 该预置知识(“彩铃如何开通”,“开通彩铃的步骤是怎样的”,“我要开通彩铃 怎么办”,“如何开通彩铃”)存入智能问答知识库中。

需要说明的是,在一实施例中,当相似度计算结果等于相似度阈值时, 进行步骤S105。在其他实施例中,当相似度计算结果等于相似度阈值时,也 可以进行步骤S106~步骤S109。

当相似度计算结果的最大值小于相似度阈值时,则进行步骤S106~步骤 S109。

由于智能问答知识库建立时涉及的知识多种多样,以及智能问答知识库 对应的领域不同,使得接收到的初始请求信息也是多种多样,而相应的领域 知识数据库中不可能囊括所有的领域知识,通过相似度计算的方式还是存在 一些限制,为了进一步提高智能问答知识库建立效率,在相似度计算结果的 最大值小于相似度阈值时,进行步骤S106~步骤S109,继续进行智能问答知 识库的建立过程。

比如,在一实施例中,当接收的初始请求信息为“通过网上银行如何开 通交通银行信用卡”时,所述初始请求信息“通过网上银行如何开通交通银 行信用卡”与领域知识数据库中预置知识进行语义相似度计算获得的相似度 计算结果会小于相似度阈值,而用户恰恰需要在智能问答知识库建立与通过 网上银行如何开通交通银行信用卡的相关的内容,因而本发明后续实施例中 提供了另外的建立方法,以在相似度计算结果小于相似度阈值时,进一步提 高智能问答知识库建立效率。

进行步骤S106,提供抽象语义数据库,所述抽象语义数据库包括多个抽 象语义表达式,所述抽象语义表达式包括缺失语义成分。

所述抽象语义数据库中存储有多个抽象语义表达式,每个抽象语义表达 式包括缺失语义成分,后续在抽象语义表达式中的缺失语义成分对应的位置 填充内容构成具体语义表达式。

所述抽象语义表达式中除了包括缺失语义成分之外,还可以包括语义规 则词。在一实施例中,所述语义规则词还标注有词类信息,词类信息表示该 规则词属于某一词类,一个词类中具有若干用法相同或语义相近的若干关键 词。

所述抽象语义表达式可以只具有缺失语义成分,将这种形式的抽象语义 表达式定义为默认集合。

一个抽象语义表达式中可以包括多个缺失语义成分,每个缺失语义成分 具有对应的属性,并且不同缺失语义成分的属性不同,缺失语义成分的属性 定义了填充该缺失语义成分对应的内容的属性,即初始请求信息中只有满足 缺失语义成分对应属性的部分内容才能填充对应的缺失语义成分,从而形成 具体语义表达式。

在一具体实施例中,所述抽象语义数据库中存储的若干抽象语义表达式 包括:通过[concept1][action][concept2]($如何)办理;通过[concept]办理($如何) 办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理;通过 [concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过 [concept][action]($如何)办理;[concept2]通过[concept1]($如何)办理;通过 [concept1]($如何)开通[concept2];通过[concept1]($如何)[action][concept2]; [action1][concept1]($如何)[action2][concept2];[action1][concept1]($如 何)[action2][concept2];哪里可以[action][concept];[action][concept]的步骤; [concept1][action][concept2]。

上述语义表达式中,“[]”表示缺失语义成分,“[]”的内容表示该缺失语 义成分的属性,语义表达式中其他内容表示语义规则词,具体的上述表达式 中,“[concept]”,“[concept1]”,“[concept2]”,“[action]”,“[action1]”,“[action2]” 表示缺失语义成分,“[]”的内容“concept”,“concept1”,“concept2”,“action”, “action1”,“action2”表示对应的缺失语义成分的属性,其中“concept”表 示缺失语义成分“[concept]”为概念属性的缺失语义成分,后续填充该缺失语 义成分的内容至少包括初始请求信息中的一个具有名词词性的单独词,或者 包括初始请求信息中一个具有名词词性的单独词以及若干具有其他词性的单 独词的组合;“concept1”表示缺失语义成分“[concept1]”为第一个概念属性 的缺失语义成分,其中“concept”和“1”结合表示该缺失语义成分的属性, “concept”表示概念属性,“1”表示位置属性,为第一个,后续填充该缺失 语义成分的内容为至少包括初始请求信息中第一个具有名词词性的单独词, 或者包括初始请求信息中第一个具有名词词性的单独词以及若干具有其他词 性的单独词的组合;“concept2”表示缺失语义成分“[concept2]”为第二个概 念属性的缺失语义成分,后续填充该缺失语义成分的内容为至少包括初始请 求信息中第二个具有名词词性的单独词,或者包括初始请求信息中第二个具 有名词词性的单独词以及若干其他词性的单独词的组合;“action”表示缺失 语义成分“[action]”为动作属性的缺失语义成分,后续填充该缺失语义成分 的内容至少包括初始请求信息中的一个具有动词词性的单独词,或者包括初 始请求信息中一个具有动词词性的单独词以及若干具有其他词性的单独词的 组合;“action1”表示缺失语义成分“[action1]”为第一个具有动作属性的缺 失语义成分,后续填充该缺失语义成分的内容至少包括初始请求信息中的第 一个具有动词词性的单独词,或者包括初始请求信息中第一个具有动词词性 的单独词以及若干具有其他词性的单独词的组合;“action2”表示缺失语义成 分“[action2]”为第二个具有动作属性的缺失语义成分,后续填充该缺失语义 成分的内容至少包括初始请求信息中的第二个具有动词词性的单独词,或者 包括初始请求信息中第二个具有动词词性的单独词以及若干具有其他词性的 单独词的组合。

上述各语义表达式中缺失语义成分之外的内容如“通过”,“($如何)”,“办 理”,“开通”,“的步骤”等表示语义规则词,其中语义规则词“($如何)”表 示“如何”这个语义规则词属于词类“$如何”,在一实施例中,所述“$如何” 词类包括关键词“如何”,“怎么”,“怎么样”,“怎样”,词类可以在建立抽象 语义表达式时同时建立。相应的通过表示这个语义规则词属于词类“$通过”, 在一实施例,所述词类“$开通”中包括关键词“开通”、“办理”、“订购”“申 请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的语义规则 词可以用该词类中的其他关键词代替。

上述语义表达式中,将语义表达式“[concept1][action][concept2]”定义为 默认集合。

需要说明的是,上述抽象语义表达式中缺失语义成分的表示方式以及词 类信息的表示方式是为描述和表示的方便,仅作为一个示例,其不用限制本 发明的保护范围,本发明的其他实施例中,对抽象语义表达式中缺失语义和 词类信息可以采用其他的表示方式。

进行步骤S107,根据所述抽象语义数据库对所述初始请求信息进行抽象 语义推荐处理,获得与所述初始请求信息对应的一个或多个抽象语义表达式。

进行抽象语义推荐处理的目的是从抽象语义数据库中获得与所述初始请 求信息对应的一个或多个抽象语义表达式,从而可以将初始请求信息部分内 容填充在该一个或多个抽象语义表达式中的对应的缺失语义成分以得到一个 或多个具体语义表达式,一个或多个具体语义表达式表达的语义与初始请求 信息所要表达的语义相同或近似,后续可以将获得一个或多个具体语义表达 式及对应的初始请求信息存入智能问答知识库,因而用户只需要输入一条初 始请求信息,本发明的方法可以对该初始请求信息进行自动的扩展,获得与 该初始请求信息相关的若干条信息(一个或多个具体语义表达式),存入智能 问答知识库,提高了智能问答知识库的建立效率。

本实施例中可以将初始请求信息作为标准问,将具体语义表达式作为对 应的扩展问,并将所述初始请求信息存入智能问答知识库的同时,提供与所 述初始请求信息对应的答案,并将该答案一并存入智能问答知识库,从而形 成智能问答知识库的一个知识点,后续可以不断对该知识点进行更新优化。

在一实施例中,请参考图3,步骤S107包括步骤S107a、步骤S107b、步 骤S107c、步骤S107d和步骤S107h五个子步骤。

进行步骤S107a,对所述初始请求信息进行分词处理,得到若干单独词。

所述分词处理可用采用正向(逆向)最大匹配法、最佳匹配法、逐词遍 历法或词频统计法,或其他合适的分词方法。

需要说明的是,在一实施例中,进行步骤S107a的分词处理可以与进行 步骤S103时的分词处理为同一分词处理,即步骤S103对初始请求信息进行 分词处理后,在进行步骤S107a时无需再重复进行分词处理,直接采用步骤 S103进行分词处理得到的结果。在其他实施例中,进行步骤S107a的分词处 理与进行步骤S103时的分词处理为不同的分词处理步骤,即在进行步骤S107 时,重新对初始请求信息进行分词处理。

以接收的初始请求信息为“通过网上银行如何开通信用卡”作为示例进 行说明。

对初始请求信息“通过网上银行如何开通信用卡”进行分词处理,得到 若干单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡”。

进行步骤S107b,分别对每个所述单独词进行词性标注处理,得到每个单 独词的词性信息。

对单独词进行词性标注处理,得到每个单独词的词性信息的目的是为后 续将输入的初始信息与抽象语义表达式的匹配提供匹配的依据。

具体的,在一实施例中,标注上述的单独词“通过”的词性为第一个动 词、介词,标注单独词“网上银行”的词性为第一个名词,标注单独词“如 何”的词性为代词,标注单独词“开通”的词性为第二个动词,标注单独词 “信用卡”的词性为第二个名词。需要说明的是词性标注为第一个名词时表 示单独词“网上银行”为第一个具有名词词性的单独词,第二个名词、第一 个动词或第二个动词的解释类似。

在另一实施例中,标注上述的单独词“通过”的词性为动词、介词,标 注单独词“网上银行”的词性为第一个名词,标注单独词“如何”的词性为 代词,标注单独词“开通”的词性为动词,标注单独词“信用卡”的词性为 第二个名词。

在进行词性标注时,还可以结合上下文的语义环境,以提高词性标注的 准确率。

进行步骤S107c,分别对每个所述单独词进行词类判断处理,得到每个单 独词的词类信息。

分别对每个所述单独词进行词类判断处理的目的是为了判断每个单独词 是否具有相应的词类,在一实施例中,其具体过程为:将每个单独词与词类 库中的若干词类进行匹配,若某一词类中存在该单独词,则该单独词具有相 应的词类,当单独词具有相应的词类,则对该单独词进行属于某一词类(或 词类信息)的标记,后续在进行匹配处理时,通过判断初始请求信息中部分 内容与抽象语义表达式中的对应的语义规则词的是否属于同一词类,从而判 断初始请求信息与该抽象语义表达式的匹配程度,提高了匹配的精度和效率。

具体的,对单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡” 进行词类判断处理,通过判断,单独词“如何”具有对应的词类“$如何”, 所述“$如何”词类中包括关键词“如何”,“怎么”,“怎么样”,“怎样”,对 单独词“如何”进行属于词类“$如何”的标记。单独词“开通”具有对应的 词类“$开通”,所述词类“$开通”中包括关键词“开通”、“办理”、“订购” “申请”。后续在进行缺失语义成分的填充形成具体语义时,具有词类的某一 单独词对某个缺失语义成分进行填充时,可以将该词类中的其他关键词代替 该单独词对对应的某个缺失语义成分进行填充。

进行步骤S107d,对抽象语义数据库进行搜索处理,得到与所述初始请求 信息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式。

对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽象 语义候选的目的是为了减少后续进行匹配处理时的负担以及减少处理时间, 以提高系统的性能。

所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初 始请求信息中至少部分单独词相同或属于同一词类。在一实施例中,进行搜 索处理时,根据抽象语义数据库中的抽象语义表达式的至少部分语义规则词 与所述初始请求信息中至少部分单独词是否相同或是否属于同一词类,若某 个抽象语义表达式的至少部分语义规则词与所述初始请求信息中至少部分单 独词相同或属于同一词类,则将该抽象语义表达式作为抽象语义候选集中的 一个抽象语义表达式。在其他实施例中,可以根据其他的搜索方式对抽象语 义数据库进行搜索,得到与所述初始请求信息相关的抽象语义候选集。

在具体的实施例中,对抽象语义数据库进行搜索处理,得到与所述初始 请求信息“通过网上银行如何开通信用卡”相关的抽象语义候选集包括抽象 语义表达式:通过[concept1][action][concept2]($如何)办理;通过[concept]办理 ($如何)办理;[concept2]($如何)通过[concept1]办理;($如何)通过[concept]办理; 通过[concept]($如何)办理;通过[concept1]($如何)办理[concept2];通过 [concept1]($如何)开通[concept2];通过[concept][action]($如何)办理;通过 [concept1]($如何)开通[concept2];[concept2]通过[concept1]($如何)办理;通过 [concept1]($如何)[action][concept2];[action1][concept1]($如 何)[action2][concept2];[action1][concept1]($如何)[action2][concept2]。上述抽 象语义候选集中的抽象语义表达式部分语义规则词(通过,通过,办理或($ 如何))与所述初始请求信息中至少部分单独词(通过,办理或如何)相同或 属于同一词类。

步骤S107h,根据所述词性信息和词类信息对抽象语义候选集中的抽象语 义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

在一实施例中,与所述初始请求信息匹配的抽象语义表达式满足以下条 件:缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始 请求信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词 类;该抽象语义表达式与初始请求信息的顺序相同。即进行匹配时,根据以 上条件进行匹配,当抽象语义候选集中某一个抽象语义表达式同时满足上述 三个条件时,该抽象语义表达式即为与所述初始请求信息匹配的抽象语义表 达式,以提高匹配的精度和准确度。即进行匹配处理时,根据上述条件判断 某抽象语义表达式是否为与初始请求信息匹配的抽象语义表达式。

在其他实施例中,与所述初始请求信息匹配的抽象语义表达式可以只满 足前述的一个或两个条件,具体为,与所述初始请求信息匹配的抽象语义表 达式满足以下条件:缺失语义成分对应的词性(或属性)包括对应的填充内 容的词性。或者,与所述初始请求信息匹配的抽象语义表达式满足以下条件: 缺失语义成分对应的词性(或属性)包括对应的填充内容的词性;初始请求 信息中填充内容外对应的单独词与语义规则词相同或两者属于同一词类。或 者,与所述初始请求信息匹配的抽象语义表达式满足以下条件:缺失语义成 分对应的词性(或属性)包括对应的填充内容的词性;该抽象语义表达式与 初始请求信息的顺序相同。

具体的,通过匹配处理,得到与所述初始请求信息“通过网上银行如何 开通信用卡”匹配的抽象语义表达式包括:通过[concept1]($如 何)[action][concept2],该语义表达式中相应的缺失语义成分[concept1]与单独 词“网上银行”对应,缺失语义成分[action]与单独词“开通”对应,缺失语 义成分[concept2]与单独词“信用卡”对应;[action1][concept1]($如 何)[action2][concept2],该语义表达式中相应的缺失语义成分[concept1]与单 独词“网上银行”对应,缺失语义成分[action1]与单独词“通过”对应;缺失 语义成分[concept2]与单独词“信用卡”对应,缺失语义成分[action2]与单独词 “开通”对应;通过[concept1]($如何)开通[concept2],该语义表达式中相应的 缺失语义成分[concept1]与单独词“网上银行”对应,缺失语义成分[concept2] 与单独词“信用卡”对应。

在其他实施例中,当无法获得与所述初始请求信息对应的抽象语义表达 式时,还可以通过人工方式在所述智能问答知识库中添加与所述初始请求信 息对应的扩展问。

在另一实施例中,请参考图4,步骤S107包括步骤S107a、步骤S107b、 步骤S107c、步骤S107d、步骤S107e、步骤S107f、步骤S107g和步骤S107h 八个子步骤,本实施例中与前一实施例的区别在于在进行步骤S107d之后以 及步骤S107h之前,还要进行步骤S107e、步骤S107f、步骤S107g。本实施 例中的目的是防止抽象语义候选集中的抽象语义表达式的数量过多或过少, 以提高智能问答知识库的建立效率和精确度。

下面对步骤S107e、步骤S107f、步骤S107g进行详细说明,本实施例中 的其他步骤请参考前述实施例,在此不再赘述。

在对抽象语义数据库进行搜索处理,得到与所述初始请求信息相关的抽 象语义候选集,所述抽象语义候选集包括多个抽象语义表达式后,进行步骤 S107e,判断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围 内,当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,进行 步骤S107f,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义表 达式的数目小于预定范围时,进行步骤S107g,从默认集合中补充部分抽象语 义表达式;当所述抽象语义候选集中抽象语义表达式的数目位于预定范围内 时,直接进行步骤S107h,根据所述词性信息和词类信息对抽象语义候选集中 的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义 表达式。

所述预定范围可以预先设定,其可以是一个具体的数值,也可以是一个 数值范围。

当所述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除 部分抽象语义表达式,然后将抽象语义候选集中剩余的抽象语义表达式进行 后续步骤S107h。在一实施例中,所述去除部分抽象语义表达式去除方式可以 随机去除,或者按照一定的规则去除,比如去除序号为奇数(或偶数)的抽 象语义表达式,或者每间隔固定数量的抽象语义表达式去除一个或多个抽象 语义表达式。

当所述抽象语义候选集中抽象语义表达式的数目小于预定范围内时,从 默认集合中补充部分抽象语义表达式,然后将补充默认集合的抽象语义候选 集进行后续步骤S107h。

在又一实施例中,请参考图5,所述步骤S107包括步骤S107i、步骤S107j、 步骤S107k、步骤S107l、步骤S107m和步骤S107n六个子步骤,具体包括:

步骤S107i,对所述初始请求信息进行分词处理,得到若干单独词;

步骤S107j,将每个单独词识别为语义规则词或非语义规则词;

步骤S107k,分别对每个非语义规则词进行词性标注处理,得到每个非语 义规则词的词性信息;

步骤S107l,分别对每个语义规则词进行词类判断处理,得到每个语义规 则词的词类信息;

步骤S107m,对抽象语义数据库进行搜索处理,得到与所述初始请求信 息相关的抽象语义候选集,所述抽象语义候选集包括多个抽象语义表达式;

步骤S107n,根据所述词性信息和词类信息对抽象语义候选集中的抽象语 义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

本实施例与前述实施例的区别在于,在进行词性标注处理和词类判断处 理之前,进行识别每个单独词为语义规则词或非语义规则词的步骤,然后对 识别为非语义规则词的每个单独词进行词性标注处理,对识别为语义规则词 的每个单独词进行词类判断处理,因而词性标注处理和词类判断处理的对象 分别是部分单独词,减少了词性标注处理和词类判断处理所需的时间,提高 了处理效率。

下面对步骤S107j进行详细说明,本实施例中步骤S107j之外的其他步骤 与前述实施例的部分步骤类似,具体请参考前述实施例相关部分的描述,在 此不再赘述。

进行步骤S107j,将每个单独词识别为语义规则词或非语义规则词。

识别单独词为语义规则词或语义规则词的过程为:提供语义规则词库, 所述语义规则词库中包括若干语义规则词;判断若干单独词是否存在于语义 规则词库中,若某一单独词存在于语义规则词库中,则该单独词为语义规则 词,若某一单独词不存在于语义规则词库中,则该单独词为非语义规则词。

在具体的实施例中,提供的语义规则词库中包括语义规则词:“通过”,“如 何”,“怎么”,“怎么办”等,初始请求信息为“通过网上银行如何开通信用 卡”,通过分词处理,得到若干单独词“通过”,“网上银行”,“如何”,“开通”, “信用卡”;判断单独词“通过”,“网上银行”,“如何”,“开通”,“信用卡” 是否存在于语义规则词库中。通过判断,单独词“如何”存在于语义规则库, 因而识别单独词“如何”为语义规则词,单独词“通过”存在于语义规则库, 因而识别单独词“通过”为语义规则词,而单独词“网上银行”,“开通”和 “信用卡”不存在于语义规则词库中,则识别单独词“网上银行”,“开通” 和“信用卡”为非语义规则词。后续在进行词类判断处理时,只对语义规则 词“如何”和“通过”进行词类判断处理,获得语义规则词“如何”和“通 过”的词类信息;在进行词性标注处理时,只对非语义规则词“网上银行”, “开通”和“信用卡”进行词性标注处理,分别获得非语义规则词“网上银 行”,“开通”和“信用卡”的词性信息。

需要说明的是,在其他实施例中,在进行步骤S107m之后,进行步骤S107n 之前,还可以包括步骤:判断所述抽象语义候选集中抽象语义表达式的数目 是否位于预定范围内,当所述抽象语义候选集中抽象语义表达式的数目大于 预定范围时,去除部分抽象语义表达式;当所述抽象语义候选集中抽象语义 表达式的数目小于预定范围时,从默认集合中补充部分抽象语义表达式。

请继续参考图2,进行步骤S108,当获得与所述初始请求信息对应的一 个或多个抽象语义表达式时,从所述初始请求信息中提取与一个或多个抽象 语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失 语义成分中以得到与所述初始请求信息对应的一个或多个具体语义表达式。

具体的,与所述初始请求信息“通过网上银行如何开通信用卡”匹配的 抽象语义表达式包括:通过[concept1]($如何)[action][concept2],从初始请求信 息中提取单独词“网上银行”填充对应的缺失语义成分[concept1],从初始请 求信息中提取单独词“开通”填充对应的缺失语义成分[action],从初始请求 信息中提取单独词“信用卡”填充对应的缺失语义成分[concept2],形成具体 语义表达式:通过网上银行($如何)($开通)信用卡,($如何)表示语义规则词“如 何”可以为关键词“怎么”、“怎么样”或“怎样”替代,($开通)表示单独词 “开通”可以被“办理”、“订购”或“申请”替代;[action1][concept1]($如 何)[action2][concept2],从初始请求信息中提取单独词“网上银行”填充对应 的缺失语义成分[concept1],从初始请求信息中提取单独词“通过”填充对应 的缺失语义成分[action1],从初始请求信息中提取单独词“信用卡”填充对应 的缺失语义成分[concept2],从初始请求信息中提取单独词“开通”填充对应 的缺失语义成分[action2],形成具体语义表达式:通过网上银行($如何)开通信 用卡;通过[concept1]($如何)开通[concept2],从初始请求信息中提取单独词“网 上银行”填充对应的缺失语义成分[concept1],从初始请求信息中提取单独词 “信用卡”填充对应的缺失语义成分[concept2],形成具体语义表达式:通过 网上银行($如何)开通信用卡。

在一实施例中,在进行步骤S108前,当与所述初始请求信息匹配的抽象 语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式的数目 N时,还包括:分别对与所述初始请求信息匹配的抽象语义表达式进行打分 处理。

具体请参考图6,步骤S108包括步骤S108a、步骤S108b、步骤S108c、 步骤S108d四个子步骤。

首先进行步骤S108a,判断与所述初始请求信息匹配的抽象语义表达式的 数目M是否大于需要存入智能问答知识库中具体语义表达式的数目N,当与 所述初始请求信息匹配的抽象语义表达式的数目M大于需要存入智能问答知 识库中具体语义表达式的数目N时,进行步骤S108c;当与所述初始请求信 息匹配的抽象语义表达式的数目M小于需要存入智能问答知识库中具体语义 表达式的数目N时,进行步骤S108b;

步骤S108c,分别对与所述初始请求信息匹配的抽象语义表达式进行打分 处理,然后进行步骤S108d;

步骤S108d,从所述初始请求信息中提取与得分较高的N个抽象语义表 达式的缺失语义成分对应的内容,将提取的内容填充到得分较高的N个抽象 语义表达式对应的缺失语义成分,得到与所述初始请求信息对应的N个具体 语义表达式,接着进行步骤S109;

步骤S108b,从所述初始请求信息中提取与M个抽象语义表达式的缺失 语义成分对应的内容,将提取的内容填充到对应的M个抽象语义表达式对应 的缺失语义成分,得到与所述初始请求信息对应的M个具体语义表达式;然 后进行步骤S109。

需要说明的是,当与所述初始请求信息匹配的抽象语义表达式的数目M 等于需要存入智能问答知识库中具体语义表达式的数目N时,既可以进行步 骤S108c,也可以进行步骤S108b。

进行打分处理的目的是将与初始请求信息最匹配的预定数目的具体语义 表达式存入智能问答知识库。

在一实施例中,所述打分处理采用以下一种或多种方式的结合:

方式一,缺失语义成分匹配的数量越多,得分越高。

比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开 通信用卡”匹配的抽象语义表达式:通过[concept1]($如何)[action][concept2], 该语义表达式中相应的缺失语义成分[concept1]与单独词“网上银行”对应, 缺失语义成分[action]与单独词“开通”对应,缺失语义成分[concept2]与单独 词“信用卡”对应,每个缺失语义成分均有对应的填充内容,因而该抽象语 义表达式的缺失语义成分匹配的数量很多,得分较高。

方式二,设定一抽象语义表达式中某一缺失语义成分为核心语义成分, 其他缺失语义成分与该核心语义成分的距离越近,得分越高。

比如,通过匹配处理,得到与所述初始请求信息“通过网上银行如何开 通信用卡”匹配的抽象语义表达式,包括,抽象语义表达式1:通过[concept1]($ 如何)[action][concept2];抽象语义表达式2:[action1][concept1]($如 何)[action2][concept2]。

设定缺失语义成分[concept2]为核心语义成分,由于抽象语义表达式2中, 缺失语义成分[action1]距离核心语义成分[concept2]的距离大于抽象语义表达 式1中缺失语义成分[concept1]距离核心语义成分[concept2]的距离,抽象语 义表达式1的得分高于抽象语义表达式2的得分。

方式三,词性置信度越大,得分越高。当多个单独词构成的内容填充抽 象语义表达式中对应的某一缺失语义成分时,若填充内容的某个位置的一个 单独词为业务属性词汇时,则该抽象语义表达式得分较高。

在一实施例中,当至少两个单独词构成的内容填充抽象语义表达式中对 应的某一缺失语义成分时,若所述内容的末尾的一个单独词为业务属性词汇, 则该抽象语义表达式得分较高。

比如,当填充某一填充抽象语义表达式中某一缺失语义成分对应的内容 为“个人信用卡”时,该内容有两个单独词“个人”和“信用卡”构成,“个 人信用卡”中的末尾的一个单独词为“信用卡”,单独词“信用卡”属于业务 属性词汇,则该抽象语义表达式得分较高。

方式四,根据预先设定的抽象语义表达式的优先级,优先级越高,得分 越高。

在建立抽象语义数据库时,可以定义抽象语义数据库中某些抽象语义表 达式的优先级较高,在匹配处理时,如果得到该优先级较高的抽象语义表达 式,则该优先级较高的抽象语义表达式的得分较高。

比如,在建立抽象语义数据库时,定义抽象语义表达式“通过[concept1]($ 如何)[action][concept2]”具有较高的优先级。在具体的实施例中,可以对该抽 象语义表达式打上标记,该标记代表该抽象语义表达式的具有较高的优先级, 或者该标记表示该抽象语义表达式的优先级别的高低。

通过匹配处理,得到与所述初始请求信息“通过网上银行如何开通信用 卡”匹配的抽象语义表达式为:通过[concept1]($如何)[action][concept2],由于 该语义表达式的具有较高的优先级,因而得分较高。

方式五,根据自然语言模型进行判断,对爬取的大量语料数据的分词给 出对抽象语义表达式进行填充后获得的数据信息语义是否正确的概率,概率 越高,得分越高。

请继续参考图2,进行步骤S109,将该初始请求信息以及所述具体语义 表达式存入智能问答知识库。

本实施例将该初始请求信息以及所述具体语义表达式存入智能问答知识 库时,可以将该初始请求信息作为标准问,将具体语义表达式作为该存储的 标准问下的扩展问。此外,将该初始请求信息以及所述具体语义表达式存入 智能问答知识库的同时,提供与所述初始请求信息对应的答案,并将该答案 一并存入智能问答知识库。所述与初始请求信息对应的答案为用户提供。

本实施例可以根据不同的设定,仅将得分最靠前的一个具体语义表达式 及对应的初始请求信息一并存入智能问答知识库,也可以将得分最靠前的多 个具体语义表达式及对应的初始请求信息一并存入智能问答知识库。

由于用户输入的初始请求信息的数目是有限的,且用户输入的初始请求 信息也很难与领域知识库中所有的预置知识都对应,即通过步骤S103、步骤 S104和步骤S105也很难将领域知识库中所有的预置知识都存入智能问答知 识库,因此当停止接收初始请求信息之后,本发明还可以从领域知识数据库 中至少提取未存入智能问答知识库的部分数目的预置知识,并将提取的预置 知识存入智能问答知识库,所述预置知识还包括答案。

在一个具体例子中,领域知识库中包括1000个预置知识,用户输入的500 条初始请求信息分别与500个预置知识的语义相似度计算结果的最大值都大 于相似度阈值,从而将这500个预置知识的标准问和扩展问都存入了智能问 答知识库,但是仍剩余500个预置知识未包括在智能问答知识库中。由于领 域知识库中的知识多为本领域的通用知识,因此可以有效利用剩余的500个 预置知识,在不输入对应的初始请求信息的前提下,将这500个预置知识直 接存入智能问答知识库中,在智能问答知识库中新增500个知识点。

需要说明的是,将预置知识直接存入智能问答知识库时,预置知识的标 准问作为智能问答知识库中对应知识点的标准问,预置知识的扩展问作为智 能问答知识库中对应知识点的扩展问,预置知识的答案作为智能问答知识库 中对应知识点的答案,从而在高效利用领域知识库的同时,进一步提高了智 能知识库的建立效率。

为了防止领域知识库中的预置知识不符合智能问答知识库的要求,可以 对未存入智能问答知识库的预置知识进行筛选,从而仅将部分数目的预置知 识存入智能问答知识库,以保证建库的准确性。

本发明实施例还提供了一种智能问答知识库的建立装置,请参考图7,包 括:

预置知识获取单元201,用于获取多个预置知识,所述预置知识包括:一 个标准问以及一个或多个扩展问;

接收单元202,用于接收初始请求信息;

计算单元203,用于将所述初始请求信息与所述预置知识进行语义相似度 计算;

判断单元204,用于判断语义相似度计算结果的最大值是否大于相似度阈 值;

抽象语义表达式获取单元302,用于获取多个抽象语义表达式,所述抽象 语义表达式包括缺失语义成分;

抽象语义推荐模块301,用于相似度计算结果最大值小于相似度阈值时, 根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理, 获得与所述初始请求信息对应的一个或多个抽象语义表达式;

填充单元303,用于当获得与所述初始请求信息对应的一个或多个抽象语 义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺 失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得 到与所述初始请求信息对应的一个或多个具体语义表达式;

存入单元205,用于当相似度计算结果的最大值大于相似度阈值时,将相 似度计算结果的最大值对应的预置知识中的标准问以及扩展问以及对应的初 始请求信息存入智能问答知识库206;或者当相似度计算结果的最大值小于相 似度阈值时,将所述具体语义表达式以及对应的初始请求信息存入智能问答 知识库206。

所述计算单元203采用以下一种或多种方式的结合进行语义相似度计算: 基于向量空间模型的计算方法、基于隐形语义索引模型的计算方法、基于属 性论的语义相似度计算方法和基于汉明距离的语义相似度计算方法。

所述计算单元203分别计算所述初始请求信息与所述标准问的语义相似 度以及所述初始请求信息与每个所述扩展问的语义相似度,并将计算结果中 的最高值作为所述初始请求信息与该预置知识的语义相似度结果。

在一实施例中,所述相似度阈值大于或等于0.7且小于或等于1.0。

在一实施例中,抽象语义推荐模块301进行抽象语义推荐处理过程包括:

对所述初始请求信息进行分词处理,得到若干单独词;

分别对每个所述单独词进行词性标注处理,得到每个单独词的词性信息;

分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息;

对抽象语义表达式获取单元获取的多个抽象语义表达式进行搜索处理, 得到与所述初始请求信息相关的抽象语义候选集,所述抽象语义候选集包括 多个抽象语义表达式;

根据所述词性信息和词类信息对抽象语义候选集中的抽象语义表达式进 行匹配处理,得到与所述初始请求信息匹配的抽象语义表达式。

在一实施例中,抽象语义推荐模块301在进行匹配处理之前还包括:判 断所述抽象语义候选集中抽象语义表达式的数目是否位于预定范围内,当所 述抽象语义候选集中抽象语义表达式的数目大于预定范围时,去除部分抽象 语义表达式;当所述抽象语义候选集中抽象语义表达式的数目小于预定范围 时,从默认集合中补充部分抽象语义表达式。

需要说明的是,当抽象语义推荐模块无法获得与所述初始请求信息对应 的抽象语义表达式时,通过人工方式在所述智能问答知识库中添加与所述初 始请求信息对应的扩展问。

需要说明的是,本实施例和后续实施例关于建立装置的某个单元(或模 块)功能的其他限定或描述请参考前述智能问答知识库的建立方法部分的相 关限定或描述,在此不再赘述。

在另一实施例中,所述建立装置还包括:答案提供单元,用于提供与初 始请求信息对应的答案;所述存入单元将所述初始请求信息存入智能问答知 识库的同时,将答案提供单元提供的答案一并存入智能问答知识库。

在又一实施例中,所述建立装置还包括:提取单元,用于当接收单元停 止接收初始请求信息之后,从预置知识获取单元中至少提取未存入智能问答 知识库的部分数目的预置知识;所述存入单元将提取单元提取的预置知识存 入智能问答知识库。

在另一实施例中,请参考图8,所述装置还包括文本预处理单元207:用 于对所述初始请求信息进行文本预处理。在一实施例中,所述文本预处理包 括分词处理和去停用词处理。此外,文本预处理还可以去除部分无意义词语, 如:“我”“想”“吗”等。

抽象语义推荐模块301包括:分词单元301a,用于对所述初始请求信息 进行分词处理,得到若干单独词;词性标注单元301b,用于分别对每个所述 单独词进行词性标注处理,得到每个单独词的词性信息;词类判断单元301c, 用于分别对每个所述单独词进行词类判断处理,得到每个单独词的词类信息; 搜索单元301d,用于对抽象语义表达式获取单元302获取的多个抽象语义表 达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集,所述 抽象语义候选集包括多个抽象语义表达式;匹配单元301e,用于根据所述词 性信息和词类信息对抽象语义候选集中的抽象语义表达式进行匹配处理,得 到与所述初始请求信息匹配的抽象语义表达式。

所述抽象语义表达式还包括语义规则词;所述搜索单元301d搜索得到的 所述抽象语义候选集中抽象语义表达式的至少部分语义规则词与所述初始请 求信息中至少部分单独词相同或属于同一词类。

所述匹配单元301e得到与所述初始请求信息匹配的抽象语义表达式满足 以下条件:

缺失语义成分对应的词性包括对应的填充内容的词性;

初始请求信息中填充内容外对应的关键词与语义规则词相同或两者属于 同一词类;

该抽象语义表达式与初始请求信息的顺序相同。

在另一实施例中,请参考图9,所述抽象语义推荐模块301包括:分词单 元301a、规则词识别单元301f、词性标注单元301b、词类判断单元301c、搜 索单元301d、匹配单元301e,其中,

所述分词单元301a,用于对所述初始请求信息进行分词处理,得到若干 单独词;

规则词识别单元301f,用于将每个单独词识别为语义规则词或非语义规 则词;

词性标注单元301b,用于分别对每个非语义规则词进行词性标注处理, 得到每个非语义规则词的词性信息;

词类判断单元301c,用于分别对每个语义规则词进行词类判断处理,得 到每个语义规则词的词类信息;

搜索单元301d,用于对抽象语义表达式获取单元302获取的多个抽象语 义表达式进行搜索处理,得到与所述初始请求信息相关的抽象语义候选集, 所述抽象语义候选集包括多个抽象语义表达式;

匹配单元301e,用于根据所述词性信息和词类信息对抽象语义候选集中 的抽象语义表达式进行匹配处理,得到与所述初始请求信息匹配的抽象语义 表达式。

在另一实施例中,请参考图10,所述智能问答知识库的建立装置还包括 打分单元304,用于当抽象语义推荐模块301获得的与所述初始请求信息匹配 的抽象语义表达式的数目M大于需要存入智能问答知识库中具体语义表达式 的数目N时,分别对与所述初始请求信息匹配的抽象语义表达式进行打分处 理,将提取的内容填充到得分较高的N个抽象语义表达式对应的缺失语义成 分,得到与所述初始请求信息对应的N个具体语义表达式。

所述打分单元304采用以下一种或多种方式的结合进行打分处理:

缺失语义成分匹配的数量越多,得分越高;

设定一抽象语义表达式中某一缺失语义成分为核心语义成分,其他缺失 语义成分与该核心语义成分的距离越近,得分越高;

根据词性置信度,多个单独词填充某一的语义成分符时,多个单独词中 某一位置单独词为某一属性词汇时,得分越高;

根据预先设定的抽象语义表达式的优先级,优先级越高,得分越高;

根据自然语言模型进行判断,对爬取的大量语料数据的分词给出对抽象 语义表达式进行填充后获得的数据信息语义是否正确的概率,概率越高,得 分越高。

本发明还提供了一种智能问答知识库的建立系统,请参考图11,包括:

领域知识数据库401,所述领域知识数据库401包括多个预置知识,所述 预置知识包括:一个标准问以及一个或多个扩展问;

抽象语义数据库501,所述抽象语义数据库501包括多个抽象语义表达式, 所述抽象语义表达式包括缺失语义成分;

智能问答知识库的建立装置21,所述智能问答知识库的建立装置21包括:

预置知识获取单元201,用于从领域知识数据库401中获取多个预置知识;

接收单元202,用于接收初始请求信息;

计算单元203,用于将所述初始请求信息与所述预置知识进行语义相似度 计算;

判断单元204,用于判断语义相似度计算结果的最大值是否大于相似度阈 值;

抽象语义表达式获取单元302,用于从抽象语义数据库501中获取多个抽 象语义表达式;

抽象语义推荐模块301,用于相似度计算结果最大值小于相似度阈值时, 根据所述多个抽象语义表达式对所述初始请求信息进行抽象语义推荐处理, 获得与所述初始请求信息对应的一个或多个抽象语义表达式;

填充单元303,用于当获得与所述初始请求信息对应的一个或多个抽象语 义表达式时,从所述初始请求信息中提取与一个或多个抽象语义表达式的缺 失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得 到与所述初始请求信息对应的一个或多个具体语义表达式;

存入单元205,用于当相似度计算结果的最大值大于相似度阈值时,将相 似度计算结果的最大值对应的预置知识中的标准问以及扩展问以及对应的初 始请求信息存入智能问答知识库206;或者当相似度计算结果的最大值小于相 似度阈值时,将所述具体语义表达式以及对应的初始请求信息存入智能问答 知识库206。

可以对领域知识数据库401中预置知识进行编辑操作,对抽象语义数据 库501中抽象语义表达式进行编辑操作,所述编辑操作包括:增加、删除、 替换等操作。

需要说明的是,关于建立系统的各单元、模块的其他限定或描述,请参 考前述实施例,在此不再赘述。

综上,本发明实施例智能问答知识库的建立方法,在接收到用户输入的 一条初始请求信息后,在进行语义相似度计算以及将相似度计算结果与相似 度阈值进行比较后,将相似度计算结果的最大值对应的预置知识及对应的初 始请求信息存储到智能问答知识库中存储到智能问答知识库中,因而用户在 建立智能问答知识库,无需多次向智能问答知识库输入相关联的多个问题, 从而提高了智能问答知识库建立效率;在相似度计算结果小于相似度阈值时, 则进行抽象语义的推荐处理,获得与所述初始请求信息对应的一个或多个具 体语义表达式,该获得的一个或多个具体语义表达式表达的语义与初始请求 信息所要表达的语义相同或近似,然后将一个或多个具体语义表达式及对应 的初始请求信息存入智能问答知识库,因而用户只需要输入一条初始请求信 息,本发明的方法可以对该初始请求信息进行自动的扩展,获得与该初始请 求信息相关的若干条信息(一个或多个具体语义表达式),存入智能问答知识 库,进一步提高了智能问答知识库的建立效率;并且,本发明的方法,先进 行语义相似度计算,通过对相似度计算结果是否大于相似度阈值进行判断, 当相似度计算结果的最大值大于相似度阈值时,将该初始请求信息以及相似 度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知 识库;当相似度计算结果小于相似度阈值时,进行抽象语义推荐处理,因而 可以将领域知识数据库中用户需要的预置知识优先推荐到智能问答知识库 中。

本发明实施例的智能问答知识库的建立装置,接收单元在接收到用户输 入的一条初始请求信息后,计算单元将所述初始请求信息与所述预置知识进 行语义相似度计算,判断单元将所述初始请求信息与所述预置知识进行语义 相似度计算,存入单元在当相似度计算结果的最大值大于相似度阈值时,将 该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以 及扩展问存入智能问答知识库,因而用户在使用本发明的装置建立智能问答 知识库时,无需多次向智能问答知识库输入相关联的多个问题,从而提高了 智能问答知识库建立效率;抽象语义推荐模块在相似度计算结果小于相似度 阈值时,则进行抽象语义的推荐处理,获得与所述初始请求信息对应的一个 或多个具体语义表达式,填充单元在获得的一个或多个具体语义表达式表达 的语义与初始请求信息所要表达的语义相同或近似,存入单元将一个或多个 具体语义表达式及对应的初始请求信息存入智能问答知识库,因而用户使用 本发明的装置只需要输入一条初始请求信息,本发明的装置可以对该初始请 求信息进行自动的扩展,获得与该初始请求信息相关的若干条信息(一个或 多个具体语义表达式),存入智能问答知识库,进一步提高了智能问答知识库 的建立效率;并且,本发明的装置,可以先进行语义相似度计算,通过对相 似度计算结果是否大于相似度阈值进行判断,当相似度计算结果的最大值大 于相似度阈值时,将该初始请求信息以及相似度计算结果的最大值对应的预 置知识中的标准问以及扩展问存入智能问答知识库;当相似度计算结果小于 相似度阈值时,进行抽象语义推荐处理,因而可以将用户需要的预置知识优 先推荐到智能问答知识库中。

本发明智能问答知识库的建立系统,除了包括建立装置外还包括领域知 识数据库和抽象语义数据库,领域知识数据库用于提供预置知识,抽象语义 数据库用于提供抽象语义表达式,因而在智能问答知识库的建立时,一个领 域知识数据库和抽象语义数据库可以向不同的建立装置提供数据信息。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步 骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可 读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。

虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员, 在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保 护范围应当以权利要求所限定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号