首页> 中国专利> 一种提问标题质量判定方法、提问引导方法及其装置

一种提问标题质量判定方法、提问引导方法及其装置

摘要

本发明提供了一种提问标题质量判定方法、提问引导方法及其装置,其中提问标题质量判定方法包括:A.获取提问的标题;B.对标题结合语法结构与文本内容进行分析,以确定所述标题的质量。对提问进行引导的方法包括:a.对提问的标题进行检索,以获取候选标题;b.对候选标题进行过滤,以得到候选引导标题;c.计算提问的标题与候选引导标题的相关度,并根据相关度得到引导标题;d.向用户展示引导标题。通过上述方式,减轻了数据库的负担,增加了数据库的使用效率。

著录项

  • 公开/公告号CN102789466A

    专利类型发明专利

  • 公开/公告日2012-11-21

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201110131169.7

  • 发明设计人 陈庆轩;李连华;杨小光;

    申请日2011-05-19

  • 分类号

  • 代理机构深圳市威世博知识产权代理事务所(普通合伙);

  • 代理人何青瓦

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2023-12-18 07:21:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-09-30

    授权

    授权

  • 2013-01-16

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20110519

    实质审查的生效

  • 2012-11-21

    公开

    公开

说明书

【技术领域】

本发明涉及搜索引擎领域,特别涉及一种提问标题质量判定方法、提问 引导方法及其装置。

【背景技术】

随着WEB2.0的广泛应用,人们越来越多地利用网络来获取自己想要的 知识和信息,与此同时,在互联网上兴起了大量的知识互动社区或知识问答 平台。所谓的知识互动社区或知识问答平台,是指用户既可以在该平台上进 行提问,同时也可以在该平台上回答其他用户提问的场所。

在知识互动社区或知识问答平台里存在大量的问答数据,因此如何方便 用户回答或检索这些数据,是个重要问题。在这些平台上的提问均有一个标 题,标题的质量直接对检索或回答产生影响,因此对用户提问的标题进行质 量控制,是一个很重要的工作。现有技术在解决这个问题时,通常是采用简 单的策略来进行控制的,例如对用户提问的标题字数进行限制,规定标题的 字数不能少于一个阈值,或对用户提问的标题里缺乏实际含义的字符进行过 滤控制,但是这些做法不能对用户提问的标题进行表意能力的判断,即虽然 有些标题的字数超过了规定的字数,但是该标题的内容却让人不知所云,而 现有技术的简单策略无法识别出这种含义不清晰的标题,同时,针对这种低 质量标题的提问,现有技术也没有提供一种对提问进行引导的方法。

【发明内容】

本发明所要解决的技术问题是提供一种提问标题质量判定的方法、提问 引导方法及其装置,以解决现有技术不能清晰识别用户在知识问答平台上的 提问的表意能力较差的标题,从而不能很好地控制用户在知识问答平台上提 问的标题的质量,导致大量不利于检索的数据进入数据库,增加数据库负担 的问题。

本发明为解决技术问题而采用的技术方案是提供一种提问标题质量判定 的方法,包括:A.获取提问的标题;B.对所述标题结合语法结构与文本内容 进行分析,以确定所述标题的质量。

根据本发明之一优选实施例,所述步骤B包括:B11.利用关键词与语法结 构结合的问题模版对所述标题进行匹配验证;B12.计算通过所述验证的标题中 包含的表意能力的词语的个数,当所述个数大于第一阈值时,确定所述标题为 高质量标题。

根据本发明之一优选实施例,所述步骤B包括:B21.利用疑问词表对所述 标题进行匹配验证;B22.计算通过所述验证的标题的有效长度及包含的实词的 个数,当所述有效长度大于第二阈值且所述实词的个数大于第三阈值时,确定 所述标题为高质量标题。

根据本发明之一优选实施例,所述步骤B包括:B31.利用疑问规则对所述 标题进行匹配验证,其中所述疑问规则至少包含对词汇、词性或位置三者中一 种的限制;B32.计算通过所述验证的标题的有效长度及包含的实词的个数,当 所述有效长度大于第四阈值且所述实词的个数大于第五阈值时,确定所述标题 为高质量标题。

根据本发明之一优选实施例,所述步骤B进一步包括:B41.当所述标题无 法确定为高质量标题时,对所述标题进行语义分析,以获取所述标题的主题; B42.利用分类信息目录对所述主题进行匹配验证,并根据所述主题与所述目录 匹配的层次判断所述标题的质量。

本发明还提供了一种提问引导方法,包括:a.对提问的标题进行检索,以 获取候选标题;b.对所述候选标题进行过滤,以得到候选引导标题,所述过滤 包括采用所述提问标题质量判定方法对所述候选标题进行质量判定,并过滤掉 所述候选标题中除判定为高质量标题外的其他标题;c.计算所述提问的标题与 所述候选引导标题的相关度,并根据所述相关度得到引导标题;d.向用户展示 所述引导标题,以对用户的提问进行引导。

根据本发明之一优选实施例,所述相关度包括第一相关度与第二相关度, 其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个 数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的 标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的 词汇个数之比。

根据本发明之一优选实施例,所述步骤c中,当所述第一相关度与所述第 二相关度均大于第六阈值时,将所述候选引导标题选择为所述引导标题。

根据本发明之一优选实施例,所述方法在所述步骤d前,进一步包括:e1.当 所述步骤c中的输出结果为零时,对所述提问的标题进行语义分析以得到所述 标题的主题;e2.利用分类信息目录对所述主题进行匹配验证,并从相匹配的目 录层次的数据库中抽取预置数目的提问标题作为所述引导标题。

本发明还提供了一种提问标题质量判定装置,包括:输入单元,用于获取 提问的标题;质量判定单元,用于对所述标题结合语法结构与文本内容进行分 析,以确定所述标题的质量。

根据本发明之一优选实施例,所述质量判定单元包括:问题模版验证单元, 用于利用关键词与语法结构结合的问题模版对所述标题进行匹配验证;第一确 定单元,用于计算通过所述验证的标题中包含的表意能力的词语的个数,当所 述个数大于第一阈值时,确定所述标题为高质量标题。

根据本发明之一优选实施例,所述质量判定单元包括:疑问词表验证单元, 用于利用疑问词表对所述标题进行匹配验证;第二确定单元,用于计算通过所 述验证的标题的有效长度及包含的实词的个数,当所述有效长度大于第二阈值 且所述实词的个数大于第三阈值时,确定所述标题为高质量标题。

根据本发明之一优选实施例,所述质量判定单元包括:疑问规则验证单元, 用于利用疑问规则对所述标题进行匹配验证,其中所述疑问规则至少包含对词 汇、词性或位置三者中一种的限制;第三确定单元,用于计算通过所述验证的 标题的有效长度及包含的实词的个数,当所述有效长度大于第四阈值且所述实 词的个数大于第五阈值时,确定所述标题为高质量标题。

根据本发明之一优选实施例,所述质量判定单元进一步包括:第一语义分 析单元,用于当所述标题无法确定为高质量标题时,对所述标题进行语义分析, 以获取所述标题的主题;第四确定单元,用于利用分类信息目录对所述主题进 行匹配验证,并根据所述主题与所述目录匹配的层次判断所述标题的质量。

本发明还提供了一种提问引导装置,包括:检索单元,用于对提问的标题 进行检索,以获取候选标题;过滤单元,用于对所述候选标题进行过滤,以得 到候选引导标题,所述过滤包括采用所述提问标题质量判定装置对所述候选标 题进行质量判定,并过滤掉所述候选标题中除判定为高质量标题外的其他标题; 相关度计算单元,用于计算所述提问的标题与所述候选引导标题的相关度,并 根据所述相关度得到引导标题;展示单元,用于向用户展示所述引导标题,以 对用户的提问进行引导。

根据本发明之一优选实施例,所述相关度包括第一相关度与第二相关度, 其中所述第一相关度是所述提问的标题与所述候选引导标题共同包含的词汇个 数与所述提问的标题单独包含的词汇个数之比,所述第二相关度是所述提问的 标题与所述候选引导标题共同包含的词汇个数与所述候选引导标题单独包含的 词汇个数之比。

根据本发明之一优选实施例,当所述第一相关度与所述第二相关度均大于 第六阈值时,所述相关度计算单元将所述候选引导标题选择为所述引导标题。

根据本发明之一优选实施例,所述装置进一步包括:第二语义分析单元, 用于当所述相关度计算单元的输出结果为零时,对所述提问的标题进行语义分 析以得到所述标题的主题;抽取单元,用于利用分类信息目录对所述主题进行 匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提问标题作为所述 引导标题。

由以上技术方案可以看出,通过对提问的标题结合语法结构与文本内容 进行分析,能够很好地将用户提问中含义不清晰的标题识别出来,并结合对 提问进行引导,可以有效地提高数据库中提问的标题的质量,从而有利于用 户进行检索或回答,并释放了数据库中无效提问的存储空间,减轻了数据库 的负担,增加了数据库的使用效率。

【附图说明】

图1为本发明实施例中提问标题质量判定方法的流程示意图;

图2为本发明中提问标题质量判定方法另一实施例的流程示意图;

图3为本发明实施例中疑问规则建立的方法的流程示意图;

图4为本发明实施例中提问引导方法的流程示意图;

图5为本发明实施例中提问标题质量判定装置的结构示意框图;

图6为本发明实施例中提问引导装置的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体 实施例对本发明进行详细描述。

请参考图1,图1为本发明实施例中提问标题质量判定方法的流程示意 图。如图1所示,所述方法100包括:

步骤101:获取提问的标题;

步骤102:对所述标题结合语法结构与文本内容进行分析,以确定所述 标题的质量。

下面结合具体的实施例,对上述方法进行详细描述。

请一并参考图1与图2,图2为本发明中提问标题质量判定方法另一实 施例的流程示意图。

如图1与图2所示,步骤S101与步骤101对应,在步骤S101中,获取 提问的标题,获取标题是进行后续处理的基础。由于本发明既可应用在对线 下数据库中的提问的标题的质量判定,也可用于线上对用户输入的提问的标 题的质量判断,所以步骤S101中并不限定标题的来源。

步骤S1021至S1028与步骤102对应,在本实施例中,对标题结合语法 结构与文本内容进行分析,是通过四个处理逻辑实现的,分别为问题模版匹 配、疑问词匹配、疑问规则匹配和分类信息匹配四个方面,对于一个用户提 问的标题,只要通过这四个处理逻辑中的任意一个认定为高质量标题,就说 明该标题是含义清晰的,否则该标题就属于低质量标题,也就是含义不清晰 的标题。

下面结合具体的步骤,对上述的四个处理逻辑进行说明。

步骤S1021至步骤S1022实现的是问题模版匹配的处理逻辑,其中步骤 S1021:利用关键词与语法结构结合的问题模版对标题进行匹配验证。如果 标题未通过验证,则执行步骤S1023,否则执行步骤S1022。

所述的问题模版,指的是包含关键词与语法结构的句子结构定义,其中 所述的关键词通常具有强烈的疑问倾向。以下面这个问题模版为例:还能 +VP+吗,其中的VP代表动词短语,该模版表示标题中含有“还能”、“吗” 这样的关键字,同时在“还能”和“吗”中间包含动词短语,当一个符合上 述要求的标题出现时,该标题就能通过验证,例如,“跟有女朋友的前男友 还能和好吗?”这样一个标题,由于符合上述问题模版,将通过验证。除了 动词短语,还可以在句子中通过短语或名词短语等语法结构对问题模版中除 关键字以外的部分进行限定,在此不再赘述。

问题模版中的关键词具有很强的疑问倾向,这是由于问题模版的关键词 提取是对数据库中的优质提问的标题进行统计分析后得到的,例如,可以将 数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回 答的提问提取出来,将这些提问的标题进行分词后统计,通过每个词在一个 标题中单独出现的次数、与其他词共同出现的次数,可以计算每个词在一个 标题中单独出现的概率和每个词与其他词在一个标题中共同出现的概率,这 样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键 词。通过对上述提取的包含关键词的问题进行语法结构的分析,即可以得到 完整的问题模版。

步骤S1022:计算通过验证的标题中包含的表意能力的词语的个数,当 该个数大于第一阈值时,确定标题为高质量标题,否则执行步骤S1023。步 骤S1022是对步骤S1021中通过匹配的标题进行进一步地过滤,从而提高高 质量标题的置信度。所述表意能力的词语,指的是名词或动词这样有实际含 义的词。

步骤S1023至步骤S1024实现的是疑问词匹配的处理逻辑,其中步骤 S1023:利用疑问词表对标题进行匹配验证。如果标题未通过验证,则执行 步骤S1025,否则执行步骤S1024。所述的疑问词表,可以根据人们语言使 用中的常识进行总结,例如哪里、哪些、为什么、怎么样、如何、谁等等。

步骤S1024:计算通过验证的标题的有效长度与包含的实词的个数,当 有效长度大于第二阈值且实词的个数大于第三阈值时,确定标题为高质量标 题,否则执行步骤S1025。步骤S1024是对步骤S1023中通过匹配的标题进 行进一步地过滤,从而提高高质量标题的置信度。

标题的有效长度,指的是一个标题通过分词后得到的所有词,去掉停用 词后的词语个数。所述的停用词,指的是诸如“像”、“的”、“啊”、“哎 呀”、“按理”等没有实际意义的词。标题包含的实词的个数,是在标题去 掉这些停用词的基础上,再去掉一些对提问的含义没有帮助的词汇,例如有 的用户常在提问的时候采用“求助”、“高手”、“大侠”这样的词语,这 些词语本身对理解提问的内容没有任何的意义,因此考虑实词的个数时,也 会将这些词语剔除。第二阈值与第三阈值相当于两个门槛,只有达到相应门 槛的标题,才确定为高质量标题。

步骤S1025与步骤S1026实现的是疑问规则匹配的处理逻辑,其中步骤 S1025:利用疑问规则对标题进行匹配验证,所述疑问规则至少包含对词汇、 词性或位置三者中一种的限制。如果标题未通过验证,则执行步骤S1027, 否则执行步骤S1026。

所述词汇的限制,指的是定义一个具体词语的限制,例如以下面这种结 构来表示一条规则:应/1+不/1+应该/1,其中“应”、“不”、“应该”都是 具体的词语,表示在标题中出现“应不应该”这样的词语,而规则中的数字 “1”可以理解为一个代号,代表的是“应”、“不”、“应该”都是关于词 汇的限制,例如“吃完饭后应不应该吃水果?”这样一个标题就符合上面所 述的规则。

所述词性的限制,指的是限制句子中的部分词语的词性,例如下面这条 规则:那/1+名词/2,指的是在标题中出现“那”这样的词语,同时在那后面 出现一个词性为名词的词语,例如“那苹果像是行货吗?”这样一个标题就 符合上面所述的规则。规则中的数字“1”表示“那”的限制是一个具体词汇 的限制,而数字“2”表示“名词”代表的是词性的限制,而不是表示在标题 中需要出现“名词”这样的词汇。

所述位置的限制,指的是限制一个具体的词语或某种词性的词语处于标 题中的位置。例如下面这条规则:含义/1+末尾/3,指的是在标题中出现“含 义”这样的词语,同时该词语出现在标题的末尾,“我想知道台风的‘台’ 字的含义”这样一个标题就符合上述规则。规则中的数字“1”表示“含义” 的限制是一个具体词汇的限制,而数字“3”表示对“含义”这个词汇出现的 位置进行限制,“3”在所举例子里面代表处于末尾这样的位置。位置的限制 除了所举例子里位于末尾的这种情况外,还有位于起始、位于某个词语两侧 等等,只要规则中带有位置信息,都可以理解为对位置的限制,在此不一一 列举。

以上例子中的数字“1”、“2”、“3”只是为了说明本发明采用的示 意性地描述,实际上任何具有代表意义的符号都可采用。另外,在限制规则 中,可以对词汇、词性或位置的限制进行任意组合,并不限于前文所举例子 中的几种情况。

疑问规则的建立,是通过对数据库中的数据进行统计分析后得到的,请 参考图3,图3为本发明实施例中疑问规则建立的方法的流程示意图。如图3 所示,建立疑问规则的方法包括:

步骤201:根据疑问词表从数据库中抽取包含相同疑问词的优质提问标 题,以形成相同疑问词的标题集合。疑问词表就是如步骤S1023中所述的根 据常识可以总结出来的具有疑问倾向的词语的集合。例如疑问词表中有“哪 里”这个疑问词,步骤201就从数据库中将包含“哪里”这个疑问词的所有 优质提问标题抽取出来。优质标题的判断可以基于一定的策略进行,例如根 据提问的回答个数、提问获取到回答的时间或提问被点击的次数等等。步骤 201在对优质提问的标题进行抽取后,针对每一个疑问词,就可以形成与该 疑问词有关的标题集合。

步骤202:统计标题集合中的频繁项特征,以得到统计结果,其中所述 特征包括词汇、词性或位置。频繁项指的是分词后统计出现频率较高的词语, 其本身就构成了词汇这一特征,分析其出现的位置即可得到位置特征,分析 其与其他词语的连接关系即可得到词性特征。

步骤203:根据统计结果生成疑问规则。通过对统计结果设置阈值,可 将最具共性的标题特点挑选出来,通过进一步地人工审核,则可以得到相应 的疑问规则。

请继续参阅图2。步骤S1026:计算通过验证的标题的有效长度与包含 的实词的个数,当有效长度大于第四阈值且实词的个数大于第五阈值时,确 定标题为高质量标题,否则执行步骤S1027。步骤S1026与步骤S1024类似, 是为了对步骤S1025中通过匹配的标题进行进一步地过滤,其中的第四阈值 与第五阈值可以设置为与第二阈值和第三阈值相同,也可以不同。

步骤S1027至步骤S1028实现的是分类信息匹配的处理逻辑,其中步骤 S1027:对标题进行语义分析,以获取标题的主题。对标题进行语义分析可 采用现有技术进行,在此不再赘述。

步骤S1028:利用分类信息目录对主题进行匹配验证,并根据主题与目 录匹配的层次判断标题的质量。

分类信息目录是科学体系的分类层次结构,例如第一层为计算机、体育、 社会这样的认知体系的大范围,在计算机、体育、社会的范围下再进一步细 分,可得到第二层,例如计算机还可以分为笔记本、台式机、平板电脑等等。 在第二层之下还可以进一步细分出第三层,以此类推。

当标题的主题匹配到分类信息目录第一层时,认为该标题是低质量的, 也就是不清晰的,当标题的主题匹配到第二层及以下各层时,可通过过滤策 略进一步判断标题是否是高质量的,例如为每一层次设置一个实词阈值的限 制,当标题匹配到某个层次,其包含的实词的个数又超过该层次设置的阈值, 就认为标题是高质量的,否则就是不清晰的。当匹配的层次越小,说明标题 的语义就越清楚,因此为实词设置的阈值就可越小。

值得注意的是,对提问标题的质量判定,本实施例同时采用问题模版匹 配、疑问词匹配、疑问规则匹配和分类信息匹配这四个处理逻辑及其处理顺 序仅为示范性描述,在本发明的其他实施例中,对这四个处理逻辑任意组合 及安排处理顺序,都可实现提问标题质量判定。

通过本发明提供的方法,实验数据表明,不清晰的标题的判定精确率为 87%,清晰问题误判率为3%,不清晰问题召回率为60%,说明本发明取得了 较好的判定效果。

请参考图4,图4为本发明实施例中提问引导方法的流程示意图。如图 4所示,所述方法300包括:

步骤301:对提问的标题进行检索,以获取候选标题,即以用户提问的 标题为关键字,在搜索引擎的数据库中进行检索,找到数据库中包含该关键 字的所有标题,以这些标题作为候选标题。

步骤302:对候选标题进行过滤,以得到候选引导标题。

对候选标题进行过滤,主要是为了过滤掉一些重复的标题以及低质量的 标题。由于数据库中的数据来自于不同用户,因此,有可能出现不同的用户 提交了相同的问题,这样就会出现一些重复数据,因此对这些重复的标题, 只要保留一个即可。对低质量的标题进行过滤,采用的方法包括对标题的质 量进行判定以及去除相应的低质量标题。对标题的质量判定,可采用前文所 述的方法100进行,在方法100中除了判定为高质量标题以外的其他标题, 都是低质量标题,将给予过滤。

步骤303:计算提问的标题与候选引导标题的相关度,并根据相关度得 到引导标题。

相关度包括两个方面的度量,称为第一相关度和第二相关度,其中第一 相关度指的是提问的标题与候选引导标题共同包含的词汇个数与提问的标题 单独包含的词汇个数之比,第二相关度指的是提问的标题与候选引导标题共 同包含的词汇个数与候选引导标题单独包含的词汇个数之比。

例如,提问的标题是“中国的四大是什么”,候选引导标题是“中国人 爱吃的四大菜系,是谁发明的”,这两个标题分词后分别为“中国、的、四、 大、是、什么”和“中国、人、爱吃、的、四、大、菜系、是、谁、发明、 的”,那么提问的标题和候选引导标题共同包含的词汇就是“中国、的、四、 大、是”,因此提问的标题和候选引导标题共同包含的词汇个数是5,提问 的标题单独包含的词汇个数是6,候选引导标题单独包含的词汇个数是11, 第一相关度就是5/6,第二相关度就是5/11。

当第一相关度与第二相关度均大于规定的阈值时,就认为提问的标题与 候选引导标题相关,从而将候选引导标题选择为引导标题。仍以上面的例子 说明,如果还有一个候选引导标题为“中国的四大发明是什么”,其包含的 词汇为“中国、的、四、大、发明、是、什么”,与提问的标题“中国的四 大是什么”包含的相同的词汇为“中国、的、四、大、是、什么”,那么第 一相关度为6/6,第二相关度为6/7,如果阈值设为0.8,那么对于候选引导 标题“中国的四大发明是什么”来说,其第一相关度与第二相关度都大于了 规定的阈值,因此会成为引导标题,但是对于候选引导标题“中国人爱吃的 四大菜系,是谁发明的”,虽然其第一相关度大于规定的阈值,但是其第二 相关度却小于规定的阈值,因此不会成为引导标题。

步骤304:向用户展示引导标题,以对用户的提问进行引导。也就是在 用户交互的界面,将引导标题以一定的顺序排列后供用户选择,排序的依据 可以是步骤303中计算的相关度大小,也可以与其他策略相结合。

所述方法300在步骤304前还可进一步包括步骤305:当步骤303中得 到的引导标题的数量为零时,对提问的标题进行语义分析以得到标题的主题。 语义分析可采用现有技术进行,在此不再赘述。步骤306:利用分类信息目 录对主题进行匹配验证,并从匹配的目录层次的数据库中抽取预置数目的提 问标题作为引导标题。

例如提问的标题为“我到峨眉山什么泉”,由于在步骤303中得到的引 导标题数目为零,那么通过步骤305的语义分析,得到的主题为四川,那么 就从“旅游-四川”的目录层次的数据库中抽取一定数目的提问标题作为引 导标题。

请参考图5,图5为本发明实施例中提问标题质量判定装置的结构示意 框图。如图5所示,所述装置400包括:

输入单元401,用于获取提问的标题;

质量判定单元402,用于对所述标题结合语法结构与文本内容进行分析, 以确定所述标题的质量。在本实施例中,对标题结合语法结构与文本内容进 行分析,是通过四个处理逻辑实现的,分别为问题模版匹配、疑问词匹配、 疑问规则匹配和分类信息匹配四个方面,对于一个用户提问的标题,只要通 过这四个处理逻辑中的任意一个认定为高质量标题,就说明该标题是含义清 晰的,否则该标题就属于低质量标题,也就是含义不清晰的标题。

在本实施例中,质量判断单元402包括问题模版验证单元4021、第一确 认单元4022、疑问词表验证单元4023、第二确认单元4024、疑问规则验证 单元4025、第三确认单元4026、语义分析单元4027和第四确认单元4028。 其中问题模版验证单元4021、第一确认单元4022对应问题模版匹配处理逻 辑,疑问词表验证单元4023、第二确认单元4024对应疑问词匹配处理逻辑, 疑问规则验证单元4025、第三确认单元4026对应疑问规则匹配处理逻辑, 语义分析单元4027、第四确认单元4028对应分类信息匹配处理逻辑。

下面对每个具体单元进行详细说明。

问题模版验证单元4021,用于利用关键词与语法结构结合的问题模版对 标题进行匹配验证,通过验证的标题会传递到第一确认单元4022,否则传递 到疑问词表验证单元4023。

所述的问题模版,指的是包含关键词与语法结构的句子结构定义,其中 所述的关键词通常具有强烈的疑问倾向。以下面这个问题模版为例:还能 +VP+吗,其中的VP代表动词短语,该模版表示标题中含有“还能”、“吗” 这样的关键字,同时在“还能”和“吗”中间包含动词短语,当一个符合上 述要求的标题出现时,该标题就能通过验证,例如,“跟有女朋友的前男友 还能和好吗?”这样一个标题,由于符合上述问题模版,将通过验证。除了 动词短语,还可以在句子中通过短语或名词短语等语法结构对问题模版中除 关键字以外的部分进行限定,在此不再赘述。

问题模版中的关键词具有很强的疑问倾向,这是由于问题模版的关键词 提取是对数据库中的优质提问的标题进行统计分析后得到的,例如,可以将 数据库中得到较多用户回答的提问或在提问生成后在较短时间内得到用户回 答的提问提取出来,将这些提问的标题进行分词后统计,通过每个词在一个 标题中单独出现的次数、与其他词共同出现的次数,可以计算每个词在一个 标题中单独出现的概率和每个词与其他词在一个标题中共同出现的概率,这 样就可以选择单独出现概率高或共同出现概率高的词作为问题模版的关键 词。通过对上述提取的包含关键词的问题进行语法结构的分析,即可以得到 完整的问题模版。

第一确认单元4022,用于计算通过问题模版验证单元4021验证的标题 中包含的表意能力的词语的个数,当该个数大于第一阈值时,确定标题为高 质量标题,否则将标题传递至疑问词表验证单元4023。所述表意能力的词语, 指的是名词或动词这样有实际含义的词。

疑问词表验证单元4023,用于利用疑问词表对标题进行匹配验证。通过 验证的标题将传递至第二确认单元4024,否则传递至疑问规则验证单元 4025。所述的疑问词表,可以根据人们语言使用中的常识进行总结,例如哪 里、哪些、为什么、怎么样、如何、谁等等。

第二确认单元4024,用于计算通过疑问词表验证单元4023验证的标题 的有效长度与包含的实词的个数,当有效长度大于第二阈值且实词的个数大 于第三阈值时,确定标题为高质量标题,否则将标题传递至疑问规则验证单 元4025。

标题的有效长度,指的是一个标题通过分词后得到的所有词,去掉停用 词后的词语个数。所述的停用词,指的是诸如“像”、“的”、“啊”、“哎 呀”、“按理”等没有实际意义的词。标题包含的实词的个数,是在标题去 掉这些停用词的基础上,再去掉一些对提问的含义没有帮助的词汇,例如有 的用户常在提问的时候采用“求助”、“高手”、“大侠”这样的词语,这 些词语本身对理解提问的内容没有任何的意义,因此考虑实词的个数时,也 会将这些词语剔除。第二阈值与第三阈值相当于两个门槛,只有达到相应门 槛的标题,第二确认单元4024才确定为高质量标题。

疑问规则验证单元4025,用于利用疑问规则对标题进行匹配验证,所述 疑问规则至少包含对词汇、词性或位置三者中一种的限制。通过验证的标题 将传递至第三确认单元4026,否则传递至语义分析单元4027。

所述词汇的限制,指的是定义一个具体词语的限制,例如以下面这种结 构来表示一条规则:应/1+不/1+应该/1,其中“应”、“不”、“应该”都是 具体的词语,表示在标题中出现“应不应该”这样的词语,而规则中的数字 “1”可以理解为一个代号,代表的是“应”、“不”、“应该”都是关于词 汇的限制,例如“吃完饭后应不应该吃水果?”这样一个标题就符合上面所 述的规则。

所述词性的限制,指的是限制句子中的部分词语的词性,例如下面这条 规则:那/1+名词/2,指的是在标题中出现“那”这样的词语,同时在那后面 出现一个词性为名词的词语,例如“那苹果像是行货吗?”这样一个标题就 符合上面所述的规则。规则中的数字“1”表示“那”的限制是一个具体词汇 的限制,而数字“2”表示“名词”代表的是词性的限制,而不是表示在标题 中需要出现“名词”这样的词汇。

所述位置的限制,指的是限制一个具体的词语或某种词性的词语处于标 题中的位置。例如下面这条规则:含义/1+末尾/3,指的是在标题中出现“含 义”这样的词语,同时该词语出现在标题的末尾,“我想知道台风的‘台’ 字的含义”这样一个标题就符合上述规则。规则中的数字“1”表示“含义” 的限制是一个具体词汇的限制,而数字“3”表示对“含义”这个词汇出现的 位置进行限制,“3”在所举例子里面代表处于末尾这样的位置。位置的限制 除了所举例子里位于末尾的这种情况外,还有位于起始、位于某个词语两侧 等等,只要规则中带有位置信息,都可以理解为对位置的限制,在此不一一 列举。

以上例子中的数字“1”、“2”、“3”只是为了说明本发明采用的示 意性地描述,实际上任何具有代表意义的符号都可采用。另外,在限制规则 中,可以对词汇、词性或位置的限制进行任意组合,并不限于前文所举例子 中的几种情况。

第三确认单元4026,用于计算通过疑问规则验证单元4025验证的标题 的有效长度与包含的实词的个数,当有效长度大于第四阈值且实词的个数大 于第五阈值时,确定标题为高质量标题,否则将标题传递至语义分析单元 4027。第四阈值与第五阈值可以设置为与第二阈值和第三阈值相同,也可以 不同。

语义分析单元4027,用于对标题进行语义分析,以获取标题的主题。对 标题进行语义分析可采用现有技术进行,在此不再赘述。

第四确认单元4028,用于利用分类信息目录对语义分析单元4027得到 的主题进行匹配验证,并根据主题与目录匹配的层次判断标题的质量。

分类信息目录是科学体系的分类层次结构,例如第一层为计算机、体育、 社会这样的认知体系的大范围,在计算机、体育、社会的范围下再进一步细 分,可得到第二层,例如计算机还可以分为笔记本、台式机、平板电脑等等。 在第二层之下还可以进一步细分出第三层,以此类推。

当标题的主题匹配到分类信息目录第一层时,认为该标题是低质量的, 也就是不清晰的,当标题的主题匹配到第二层及以下各层时,可通过过滤策 略进一步判断标题是否是高质量的,例如为每一层次设置一个实词阈值的限 制,当标题匹配到某个层次,其包含的实词的个数又超过该层次设置的阈值, 就认为标题是高质量的,否则就是不清晰的。当匹配的层次越小,说明标题 的语义就越清楚,因此为实词设置的阈值就可越小。

通过质量判断单元402处理后不能判定为高质量标题的,都是低质量标 题,也就是含义不清晰的标题。值得注意的是,对提问标题的质量判定,本 实施例同时采用问题模版匹配、疑问词匹配、疑问规则匹配和分类信息匹配 这四个处理逻辑及其处理顺序仅为示范性描述,在本发明的其他实施例中, 对这四个处理逻辑任意组合及安排处理顺序,都可实现提问标题质量判定。

请参考图6,图6为本发明实施例中提问引导装置的结构示意框图。如 图6所示,所述装置500包括:检索单元501、过滤单元502、相关度计算单 元503、展示单元504、语义分析单元505、抽取单元506。

其中检索单元501,用于对提问的标题进行检索,以获取候选标题,即 以用户提问的标题为关键字,在搜索引擎的数据库中进行检索,找到数据库 中包含该关键字的所有标题,以这些标题作为候选标题。

过滤单元502,用于对候选标题进行过滤,以得到候选引导标题。

对候选标题进行过滤,主要是为了过滤掉一些重复的标题以及低质量的 标题。由于数据库中的数据来自于不同用户,因此,有可能出现不同的用户 提交了相同的问题,这样就会出现一些重复数据,因此对这些重复的标题, 只要保留一个即可。对低质量的标题进行过滤,可采用前文所述的装置400 进行,除了装置400判定为高质量标题以外的其他标题,都是低质量标题, 将给予过滤。

相关度计算单元503,用于计算提问的标题与候选引导标题的相关度, 并根据相关度得到引导标题。

相关度包括两个方面的度量,称为第一相关度和第二相关度,其中第一 相关度指的是提问的标题与候选引导标题共同包含的词汇个数与提问的标题 单独包含的词汇个数之比,第二相关度指的是提问的标题与候选引导标题共 同包含的词汇个数与候选引导标题单独包含的词汇个数之比。

例如,提问的标题是“中国的四大是什么”,候选引导标题是“中国人 爱吃的四大菜系,是谁发明的”,这两个标题分词后分别为“中国、的、四、 大、是、什么”和“中国、人、爱吃、的、四、大、菜系、是、谁、发明、 的”,那么提问的标题和候选引导标题共同包含的词汇就是“中国、的、四、 大、是”,因此提问的标题和候选引导标题共同包含的词汇个数是5,提问 的标题单独包含的词汇个数是6,候选引导标题单独包含的词汇个数是11, 第一相关度就是5/6,第二相关度就是5/11。

当第一相关度与第二相关度均大于规定的阈值时,就认为提问的标题与 候选引导标题相关,从而将候选引导标题选择为引导标题。仍以上面的例子 说明,如果还有一个候选引导标题为“中国的四大发明是什么”,其包含的 词汇为“中国、的、四、大、发明、是、什么”,与提问的标题“中国的四 大是什么”包含的相同的词汇为“中国、的、四、大、是、什么”,那么第 一相关度为6/6,第二相关度为6/7,如果阈值设为0.8,那么对于候选引导 标题“中国的四大发明是什么”来说,其第一相关度与第二相关度都大于了 规定的阈值,因此会成为引导标题,但是对于候选引导标题“中国人爱吃的 四大菜系,是谁发明的”,虽然其第一相关度大于规定的阈值,但是其第二 相关度却小于规定的阈值,因此不会成为引导标题。

展示单元504,用于向用户展示引导标题,以对用户的提问进行引导。 也就是在用户交互的界面,将引导标题以一定的顺序排列后供用户选择,排 序的依据可以是相关度计算单元503中计算的相关度大小,也可以与其他策 略相结合。

语义分析单元505,用于当相关度计算单元503输出的引导标题的数量 为零时,对提问的标题进行语义分析以得到标题的主题。语义分析可采用现 有技术进行,在此不再赘述。

抽取单元506,用于利用分类信息目录对主题进行匹配验证,并从匹配 的目录层次的数据库中抽取预置数目的提问标题作为引导标题。

例如提问的标题为“我到峨眉山什么泉”,由于相关度计算单元503得 到的引导标题数目为零,那么通过语义分析单元505的分析,得到的主题为 四川,那么就从“旅游-四川”的目录层次的数据库中抽取一定数目的提问 标题作为引导标题。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在 本发明保护的范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号