首页> 中国专利> 一种获取与输入问题相对应的相关问题的方法与设备

一种获取与输入问题相对应的相关问题的方法与设备

摘要

本发明的目的是提供一种用于获取与输入问题相对应的相关问题的方法与设备;获取用户输入的输入问题;对所述输入问题进行分词处理,以确定待处理词组;根据所述待处理词组所对应的索引拉链及权重值,确定其中的归并词组;对所述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相关问题。与现有技术相比,本发明对输入问题进行分词处理,确定待处理的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了检索速度,提升了用户使用体验。

著录项

  • 公开/公告号CN104123320A

    专利类型发明专利

  • 公开/公告日2014-10-29

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310156783.8

  • 发明设计人 谢双宾;梁龙军;

    申请日2013-04-28

  • 分类号G06F17/30;G06F17/27;

  • 代理机构北京汉昊知识产权代理事务所(普通合伙);

  • 代理人罗朋

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2023-12-17 01:39:31

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-06-28

    授权

    授权

  • 2015-12-30

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130428

    实质审查的生效

  • 2014-10-29

    公开

    公开

说明书

技术领域

本发明涉及搜索技术领域,尤其涉及一种用于获取与输入问题相 对应的相关问题的技术。

背景技术

现有技术提供了这样一种供用户检索的方式,用户输入一个问 题,检索设备提供其相应的答案,并且,在呈现该答案的结果页面, 显示与该用户的输入问题相关的相关问题,以供用户进一步点击查 看。这种较为特殊的检索系统只关注问题标题间的相似度,对于问题 的内容本身或其他因素不作考虑。

现有的检索方案是采用传统的方法,通过遍历的方式进行逐个比 较,以确定和用户的输入问题相关的相关问题。然而,这种检索方式 效率低下,导致检索速度太慢,影响了用户的使用体验。

因此,如何准确、高效地确定与用户的输入问题相对应的相关问 题,成为本领域技术人员亟需解决的问题之一。

发明内容

本发明的目的是提供一种用于获取与输入问题相对应的相关问题 的方法与设备。

根据本发明的一个方面,提供了一种用于获取与输入问题相对应 的相关问题的方法,其中,该方法包括以下步骤:

a获取用户输入的输入问题;

b对所述输入问题进行分词处理,以确定待处理词组;

c根据所述待处理词组所对应的索引拉链及权重值,确定其中的归 并词组;

d对所述归并词组所对应的索引问题进行归并处理,确定与所述输 入问题相对应的相关问题。

根据本发明的另一方面,还提供了一种用于获取与输入问题相对 应的相关问题的检索设备,其中,该设备包括:

获取装置,用于获取用户输入的输入问题;

分词装置,用于对所述输入问题进行分词处理,以确定待处理词组;

归并确定装置,用于根据所述待处理词组所对应的索引拉链及权重 值,确定其中的归并词组;

归并处理装置,用于对所述归并词组所对应的索引问题进行归并处 理,确定与所述输入问题相对应的相关问题。

与现有技术相比,本发明对输入问题进行分词处理,确定待处理 的词组,并结合其对应的索引拉链和权重值,确定其中的归并词组, 进而,对该归并词组对应的索引问题进行归并处理,获得与用户输入 问题对应的相关问题,在保证问题的相关性的前提下同时极大提高了 检索速度,提升了用户使用体验。

进一步地,本发明采用哈希算法,基于位计算,准确、高效地确 定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进 一步提高了检索速度,提升了用户的使用体验。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本发明一个方面的用于获取与输入问题相对应的相 关问题的设备示意图;

图2示出根据本发明一个优选实施例的用于获取与输入问题相对 应的相关问题的设备示意图;

图3示出根据本发明另一个优选实施例的用于获取与输入问题相 对应的相关问题的示意图;

图4示出根据本发明另一个方面的用于获取与输入问题相对应的 相关问题的方法流程图;

图5示出根据本发明一个优选实施例的用于获取与输入问题相对 应的相关问题的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于获取与输入问题相对应的相 关问题的设备示意图。检索设备1包括获取装置101、分词装置102、 归并确定装置103和归并处理装置104。

其中,获取装置101获取用户输入的输入问题。具体地,用户通过 与用户设备的交互,例如通过在页面检索框内输入了输入问题,获取装 置101通过一次或多次调用该用户设备所提供的页面接口程序(API), 或者,通过调用诸如ASP、JSP或PHP等页面技术,或通过其他约定的 获取方式,获取了该用户输入的输入问题。

本领域技术人员应能理解上述获取输入问题的方式仅为举例,其 他现有的或今后可能出现的获取输入问题的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

分词装置102对所述输入问题进行分词处理,以确定待处理词组。 具体地,分词装置102根据获取装置101所获取的输入问题,对该输入 问题进行分词处理,例如,按照自然语言处理,将该输入问题切分成短 语或字词,将这些切词处理后获得的短语或字词作为待处理词组;进一 步地,该分词装置102还可对该切词处理后获得的短语或字词进一步处 理,如去除其中的无效词,将剩余的短语或字词作为待处理词组,或者, 按照该切词处理后获得的短语或字词的权重相关信息,对这些短语或字 词进行筛选处理,以确定待处理词组。

本领域技术人员应能理解上述确定待处理词组的方式仅为举例, 其他现有的或今后可能出现的确定待处理词组的方式如可适用于本发 明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

归并确定装置103根据所述待处理词组所对应的索引拉链及权重 值,确定其中的归并词组。具体地,归并确定装置103根据由分词装置 102所确定的待处理词组,通过在问题索引库中进行匹配查询等方式, 确定该待处理词组所对应的索引拉链,在此,索引拉链是按降序排列的 问题标识列表,每个索引问题唯一对应一个问题标识;并且,该归并确 定装置103通过匹配查询或直接计算等方式,确定该待处理词组的权重 值,进而,根据该待处理词组所对应的索引拉链及权重值,确定其中的 归并词组。

例如,该归并确定装置103将由分词装置102所确定的待处理词组 按照其权重相关信息由高到低排序,保留权重相关信息最高的8个待处 理词组,其余的词组则放弃,若总数没有8个,则全部保留;接着,该 归并确定装置103通过匹配查询或直接计算等方式,确定这些保留下来 的待处理词组的权重值,例如对保留下来的这些待处理词组的权重值进 行归一化,使得它们的权重值总和为1;再通过在问题索引库中进行匹 配查询等方式,确定该待处理词组所对应的索引拉链,接着,按顺序遍 历,将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置 结果数,例如检索所需的最大结果数,如2000为止,记录下此时的待 处理词组的编号u;随后,该归并确定装置103将待处理词组按照权重 值由低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于 该编号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的 待处理词组即为归并词组。

在此,该问题索引库中存储有问题标识与索引问题的映射关系,每 个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设 备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。

本领域技术人员应能理解上述确定归并词组的方式仅为举例,其 他现有的或今后可能出现的确定归并词组的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

归并处理装置104对所述归并词组所对应的索引问题进行归并处 理,确定与所述输入问题相对应的相关问题。具体地,由于归并词组对 应的索引问题数量庞大,且其中包括相互重复的问题,例如归并词组A 对应的索引问题可能也对应归并词组B,因此,需要对这些归并词组所 对应的索引问题进行归并处理,再从归并处理后的索引问题中确定与该 输入问题最相关的相关问题。在此,归并处理装置104根据归并确定装 置103所确定的归并词组,对该归并词组对应的索引问题进行归并处理, 该索引问题例如是索引拉链所对应的索引问题。该归并处理装置104例 如根据该归并词组的排列组合结果,建立权重桶,其中,该权重桶对应 该排列组合结果的权重值;将与该排列组合结果相对应的索引问题归并 入该权重桶,以确定与该输入问题相对应的相关问题;较佳地,该归并 处理装置104基于哈希算法,将与该排列组合结果相对应的索引问题归 并入该权重桶,以确定与该输入问题相对应的相关问题。

本领域技术人员应能理解上述对索引问题进行归并处理的方式仅 为举例,其他现有的或今后可能出现的对索引问题进行归并处理的方 式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引 用方式包含于此。

优选地,检索设备1的各个装置之间是持续不断工作的。具体地, 获取装置101获取用户输入的输入问题;分词装置102对所述输入问题 进行分词处理,以确定待处理词组;归并确定装置103根据所述待处理 词组所对应的索引拉链及权重值,确定其中的归并词组;归并处理装置 104对所述归并词组所对应的索引问题进行归并处理,确定与所述输入 问题相对应的相关问题。在此,本领域技术人员应理解“持续”是指 检索设备1的各装置分别按照设定的或实时调整的工作模式要求进行 输入问题的获取、分词处理、归并词组的确定、索引问题的归并处理, 直至该检索设备1在较长时间内停止获取用户输入的输入问题。

在此,检索设备1对输入问题进行分词处理,确定待处理的词组, 并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对 该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应 的相关问题,在保证问题的相关性的前提下同时极大提高了检索速 度,提升了用户使用体验。

优选地,所述分词装置102对所述输入问题进行分词处理,并结合 分词处理后获得的词组所对应的权重相关信息,确定所述待处理词组。 具体的,分词装置102对获取装置101所获取的输入问题进行分词处理, 获得分词处理后的词组,再按照该分词处理后获得的词组的权重相关信 息,取权重相关信息高于预定阈值的词组,作为待处理词组;或者,按 照该分词处理后获得的词组的权重相关信息,将该分词处理后的词组进 行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将权 重相关信息最高的8个词组作为待处理词组。

在此,权重相关信息例如IDF值,IDF为逆向文件频率(Inverse  Document Frequency),IDF的主要思想是,如果包含词组t的文档越少, 则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。

例如,分词装置102对获取装置101所获取的输入问题进行分词处 理,获得分词处理后的词组,接着,该分词装置102按照该分词处理后 获得的词组的IDF值,取IDF值高于预定阈值的词组,作为待处理词组; 或者,按照该分词处理后获得的词组的IDF值,将该分词处理后的词组 进行降序排列,再取排在前面的预定数量的词组作为待处理词组,如将 IDF值最高的8个词组作为待处理词组,或者,当该分词处理后的词组 数量不满8个,则全部予以保留,以作为待处理词组。

在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定 待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相 关性,提高了检索的效率。

更优选地,所述分词装置102对所述输入问题进行分词处理,以获 得分词处理后的词组;基于无效词库,对所述分词处理后的词组进行过 滤处理,以确定所述待处理词组。具体地,分词装置102根据获取装置 101所获取的输入问题,通过自然语言处理等方式,对该输入问题进行 分词处理,获得分词处理后的词组;接着,该分词装置102再基于无效 词库,对所述分词处理后的词组进行过滤处理,过滤掉其中无实际意义 的功能字词,如过滤掉该无效词库中所包括的“的、了、得、在”等字 词,并将经过滤处理后的词组作为待处理词组。

在此,该无效词库中存储有无实际意义的功能字词,可以是预设的 无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设 备1中,也可位于与该检索设备1具有网络连接的第三方设备中。

在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处 理,再确定待处理词组,进一步提升了待处理词组的准确性,保证了相 关问题的相关性,提高了检索的效率。

更优选地,分词装置102对获取装置101所获取的输入问题进行分 词处理,以获得分词处理后的词组;再基于无效词库,对该分词处理后 的词组进行过滤处理,以获得经过滤处理的词组;进而,再结合过滤处 理后所获得的词组对应的权重相关信息,确定待处理词组。

例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了 输入问题“国际金价大跌,现在我国的黄金价格如何?下降趋势如何? 请专家赐教”,获取装置101通过调用诸如ASP、JSP或PHP等页面技 术,获取了该输入问题;分词装置102通过自然语言处理或其他现有的 分词方式,对该输入问题进行分词处理,获得分词处理后的词组“国际”、 “金价”、“大跌”、“现在”、“我国”、“的”、“黄金”、“价 格”、“如何”、“下降”、“趋势”、“请”、“专家”、“赐教”, 接着,该分词装置102基于无效词库,对上述词组进行过滤处理,如过 滤掉“的”、“如何”、“请”、“专家”、“赐教”这些无实际意义 的功能字词,保留经过滤处理的词组“国际”、“金价”、“大跌”、 “现在”、“我国”、“黄金”、“价格”、“下降”、“趋势”;进 而,该分词装置102再结合这些过滤处理后所获得的词组对应的权重相 关信息,确定待处理词组,如保留IDF值最高的8个待处理词组“国际”、 “金价”、“大跌”、“我国”、“黄金”、“价格”、“下降”、“趋 势”,作为待处理词组。

本领域技术人员应能理解上述输入问题、分词处理、过滤处理等 仅为举例,其他现有的或今后可能出现的输入问题、分词处理或过滤 处理等如可适用于本发明,也应包含在本发明保护范围以内,并在此 以引用方式包含于此。

在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处 理,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理 词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性, 提高了检索的效率。

优选地,该检索设备1还包括权重确定装置(未示出),该权重确 定装置根据所述待处理词组所对应的权重相关信息,确定所述待处理词 组的权重值。具体地,权重确定装置根据分词装置102所确定的待处理 词组,通过匹配查询等方式,获取了这些待处理词组的权重相关信息, 如IDF值,进而,根据该输入问题中每个待处理词组的权重相关信息, 与该输入问题中所有待处理词组的权重相关信息的总和,确定其中每个 待处理词组的权重值。以IDF值为例,假设分词装置102对输入问题进 行分词处理,共获得了8个待处理词组,则权重确定装置通过匹配查询 等方式,获得了这8个待处理词组的IDF值,进而,将每个待处理词组 的IDF值分别除以所有8个待处理词组的IDF值的总和,分别得到这8 个待处理词组的权重值。

优选地,该检索设备1还包括匹配装置(未示出),该匹配装置根 据所述待处理词组,在问题索引库中进行匹配查询,以获得与所述待处 理词组对应的索引拉链。具体地,匹配装置根据分词装置102所确定的 待处理词组,分别根据这些待处理词组,在问题索引库中进行匹配查找, 获取这些待处理词组所分别对应的索引问题,在此,该索引问题中包含 该待处理词组,由于每个待处理词组所对应的索引问题不止一个,且在 问题索引库中每一索引问题都唯一对应有一个问题标识,因此,匹配装 置将每个待处理词组所对应的至少一个索引问题按照问题标识进行倒 序排列,所分别获得的索引问题列表即为每个待处理词组所分别对应的 索引拉链。

在此,该问题索引库中存储有问题标识与索引问题的映射关系,每 个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设 备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。

优选地,所述归并确定装置103根据所述待处理词组所对应的索引 拉链及权重值,并结合所述相关问题对应的预置结果数,确定其中的归 并词组。在此,引入预置结果数来确定归并词组,该预置结果数例如一 次检索所需要的检索结果的最大结果数,如2000,则当用户输入一输入 问题,检索设备1检索到的与该输入问题相关的相关问题的数量小于 2000,则全部提供给该用户,如按照预定规则排序后分页提供给该用户; 若检索设备1检索到的相关问题的数量大于2000,则按照预定规则从其 中筛选出2000个检索结果,再排序后分页提供给该用户。此处的预置 结果数可以是预设的、也可根据实际检索情况进行调整。

例如,对于具有索引拉链及权重值的待处理词组,如权重确定装置 已对待处理词组进行计算,确定了对应的权重值,而匹配装置已根据这 些待处理词组,匹配获得了其对应的索引拉链;则归并确定装置103将 这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历, 将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果 数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理 词组的编号u;随后,该归并确定装置103将待处理词组按照权重值由 低到高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编 号为u的待处理词组的权重值为止,当前的待处理词组及未遍历的待处 理词组即为归并词组。

优选地,所述归并处理装置104包括桶建立单元(未示出)和归并 处理单元(未示出)。其中,桶建立单元根据所述归并词组的排列组合 结果,建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值; 归并处理单元将与所述排列组合结果相对应的索引问题归并入所述权 重桶,以确定与所述输入问题相对应的相关问题。具体地,桶建立单元 根据归并确定装置103所确定的归并词组,对这些归并词组进行排列组 合,获得排列组合结果,进而,根据排列组合结果,建立权重桶,如根 据每一种排列组合结果建立一个权重桶,或者,将排列组合结果的权重 值相同的,建立一个权重桶。在此,该权重桶对应所述排列组合结果的 权重值。

例如,假设由归并确定装置103所确定的归并词组为A、B、C,其 中,归并词组A的权重值为0.5、B的权重值为0.3、C的权重值为0.2, 则该3个归并词组共有8种排列组合结果,这里将既不包括A也不包括 B也不包括C的情况也作为一种排列组合结果,即,排列组合结果有空、 A、B、C、AB、AC、BC、ABC,这些排列组合结果所对应的权重值分 别为0、0.5、0.3、0.2、0.8、0.7、0.5、1,在此,排列组合结果所对应 的权重值由其中包含的归并词组的权重值相加而得。假设将排列组合结 果的权重值相同的,建立一个权重桶,则桶建立单元根据这些归并词组 的排列组合结果,建立7个权重桶,每个权重桶对应一个权重值。较佳 地,桶建立单元还可按照权重值的大小,对该权重桶进行降序排列,如 图3所示,其中,每个归并词组对应位图中的其中一位。

接着,归并处理单元将与该排列组合结果相对应的索引问题归并入 所述权重桶,以确定与所述输入问题相对应的相关问题。例如,对于索 引问题x,其仅包含归并词组A,则将其归并入与A对应的权重桶中, 如图3中的3号权重桶;对于索引问题y,假设其既包含归并词组A也 包含归并词组B,则将其归并入与排列组合结果AB相对应的权重桶中, 如图3中的1号权重桶。这样,归并处理单元即可将对应的索引问题归 并入对应的权重桶中。例如,对于由匹配装置所匹配得到的归并词组的 索引拉链,归并处理单元将该索引拉链对应的索引问题归并入对应的权 重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含该归 并词组A,归并处理单元再判断该索引问题是否还包括其他归并词组, 以将其归并入准确的权重桶中。

在此,检索设备1通过建立权重桶的方式,进一步提升了对索引 问题进行归并处理的效率,进而提高了检索速度,提升了用户的使用 体验。

更优选地,所述归并处理单元基于哈希算法,将与所述排列组合结 果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应 的相关问题。较佳地,由于索引拉链的长度太大,归并处理单元可以采 用分段处理的方式,顺序处理每个分段,每段的长度为1<<14=16K,其 处理的问题标识的范围为[i*16K,(i+1)*16K)。归并处理单元通过字 典映射,将每一个问题标识(qid)映射到权重桶中,在此,字典是一个 用哈希表实现的数据结构,目的是建立键与值之间的映射关系。键在这 里就是qid&((1<<14)-1),而值是问题标识的命中位图。其中哈希表是根 据关键码值而直接进行访问的数据结构。也就是说,它通过把关键码值 映射到表中一个位置来访问记录,以加快查找的速度。具体地,归并处 理单元循环处理每个索引拉链,对当前索引拉链的问题标识,只需通过 问题标识找到哈希表中对应的命中位图,将当前归并词组对应的位置为 1即可。其中,映射过程如下:

1)计算:MASK=(1<<14)-1;

2)做与运算,相当于对2的14次方取模,得到key:Key=qid&MASK;

3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图: hash[key]|=flag,其中flag是当前词组对应的位。

在此,检索设备1采用哈希算法,基于位计算,准确、高效地确 定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进 一步提高了检索速度,提升了用户的使用体验。

优选地,该检索设备1还包括调权确定装置(未示出),该调权确 定装置根据所述归并词组,确定所述待处理词组中的调权词组;其中, 所述归并处理单元根据所述调权词组,将与所述排列组合结果相对应的 索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问 题。由于有些索引问题只命中了权重值很低的一些待处理词组,对于这 样的索引问题并不需要进行归并处理,因此,将待处理词组划分为归并 词组和调权词组,在此,调权词组为需要重新调整权重的词组。其中, 归并词组对应的索引问题需要进行全或归并处理,而调权词组对应的索 引问题则只用来调权,不加入归并。具体地,对于由分词装置102所确 定的待处理词组,归并确定装置103确定了其中的归并词组,则调权确 定装置将该待处理词组中除归并词组以外的词组,作为调权词组。

例如,对于由分词装置102所确定的待处理词组,归并确定装置103 将这些待处理词组按照其权重值由高到低进行排序,接着,按顺序遍历, 将各个待处理词组的索引拉链的长度相加,直到累加的和大于预置结果 数,例如检索所需的最大结果数,如2000为止,记录下此时的待处理 词组的编号u;随后,该调权确定装置将待处理词组按照权重值由低到 高遍历,顺序累加每个待处理词组的权重值,直到第一次大于该编号为 u的待处理词组的权重值为止,已遍历的待处理词组即为调权词组。

随后,归并处理单元根据所述调权词组,将与所述排列组合结果相 对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相 关问题。该调权词组的处理是在字典映射之后、结果统计输出之前,过 程如下:遍历每个调权词组的索引拉链,得到每一个问题标识,通过问 题标识找到哈希表中对应的命中位图,若其值为0则不作任何处理,否 则将调权词组对应的位置为1。

在此,检索设备1综合考虑待处理词组中的调权词组,进一步提 升了对索引问题进行归并处理的准确率与效率,进而提高了检索速 度,保证了相关问题的相关性,提升了用户的使用体验。

图2示出根据本发明一个优选实施例的用于获取与输入问题相对 应的相关问题的设备示意图。检索设备1还包括优先级确定装置205 和提供装置206。以下参照图2对该优选实施例进行描述:具体地,获 取装置201获取用户输入的输入问题;分词装置202对所述输入问题进 行分词处理,以确定待处理词组;归并确定装置203根据所述归并词组 的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结 果的权重值;将与所述排列组合结果相对应的索引问题归并入所述权重 桶,以确定与所述输入问题相对应的相关问题;归并处理装置204对所 述归并词组所对应的索引问题进行归并处理,确定与所述输入问题相对 应的相关问题;优先级确定装置205根据所述权重桶所对应的权重值, 确定所述权重桶的优先级;提供装置206按照所述优先级,自所述权重 桶中确定所述索引问题,以作为所述相关问题提供给所述用户。其中, 获取装置201、分词装置202、归并确定装置203和归并处理装置204 与图1所示对应装置相同或基本相同,故此处不再赘述,并通过引用的 方式包含于此。

其中,优先级确定装置205根据所述权重桶所对应的权重值,确定 所述权重桶的优先级。具体地,由于每个权重桶对应一定的权重值,优 先级确定装置205根据该权重桶所对应的权重值,确定其优先级,如对 应权重值越大的权重桶的优先级越高,即,若该权重桶所对应的排列组 合结果的权重值越大,则该权重桶的优先级越高。如图3中所示,0号 权重桶对应的权重值最大,其优先级最高;6号权重桶对应的权重值最 小,其优先级最低。

提供装置206按照所述优先级,自所述权重桶中确定所述索引问 题,以作为所述相关问题提供给所述用户。具体地,提供装置206按照 该权重桶的优先级,顺序自优先级最高的权重桶中读出其所包括的索 引问题,其中,每个权重桶中的索引问题按照问题标识降序排列,作 为相关问题提供给用户。例如如图3中所示,权重桶按照权重值由高到 低的顺序排列,提供装置206按照这些权重桶的优先级,顺序从0号权 重桶开始,读出其中的索引问题,作为与用户的输入问题相对应的相 关问题,进而,通过调用JSP、ASP或PHP等网页技术,或其他约定的 展现方式,提供给该用户。

在此,检索设备1根据权重桶的优先级,将其中的索引问题作为 相关问题提供给用户,提高了相关问题的相关性,提升了用户的使用 体验。

图4示出根据本发明另一个方面的用于获取与输入问题相对应的 相关问题的方法流程图。

在步骤S401中,检索设备1获取用户输入的输入问题。具体地, 用户通过与用户设备的交互,例如通过在页面检索框内输入了输入问 题,在步骤S401中,检索设备1通过一次或多次调用该用户设备所提 供的页面接口程序(API),或者,通过调用诸如ASP、JSP或PHP等 页面技术,或通过其他约定的获取方式,获取了该用户输入的输入问题。

本领域技术人员应能理解上述获取输入问题的方式仅为举例,其 他现有的或今后可能出现的获取输入问题的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

在步骤S402中,检索设备1对所述输入问题进行分词处理,以确 定待处理词组。具体地,在步骤S402中,检索设备1根据在步骤S401 中所获取的输入问题,对该输入问题进行分词处理,例如,按照自然语 言处理,将该输入问题切分成短语或字词,将这些切词处理后获得的短 语或字词作为待处理词组;进一步地,该检索设备1还可对该切词处理 后获得的短语或字词进一步处理,如去除其中的无效词,将剩余的短语 或字词作为待处理词组,或者,按照该切词处理后获得的短语或字词的 权重相关信息,对这些短语或字词进行筛选处理,以确定待处理词组。

本领域技术人员应能理解上述确定待处理词组的方式仅为举例, 其他现有的或今后可能出现的确定待处理词组的方式如可适用于本发 明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

在步骤S403中,检索设备1根据所述待处理词组所对应的索引拉 链及权重值,确定其中的归并词组。具体地,在步骤S403中,检索设 备1根据在步骤S402中所确定的待处理词组,通过在问题索引库中进 行匹配查询等方式,确定该待处理词组所对应的索引拉链,在此,索引 拉链是按降序排列的问题标识列表,每个索引问题唯一对应一个问题标 识;并且,在步骤S403中,检索设备1通过匹配查询或直接计算等方 式,确定该待处理词组的权重值,进而,根据该待处理词组所对应的索 引拉链及权重值,确定其中的归并词组。

例如,在步骤S403中,检索设备1将在步骤S402中所确定的待 处理词组按照其权重相关信息由高到低排序,保留权重相关信息最高的 8个待处理词组,其余的词组则放弃,若总数没有8个,则全部保留; 接着,在步骤S403中,检索设备1通过匹配查询或直接计算等方式, 确定这些保留下来的待处理词组的权重值,例如对保留下来的这些待处 理词组的权重值进行归一化,使得它们的权重值总和为1;再通过在问 题索引库中进行匹配查询等方式,确定该待处理词组所对应的索引拉 链,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加,直 到累加的和大于预置结果数,例如检索所需的最大结果数,如2000为 止,记录下此时的待处理词组的编号u;随后,在步骤S403中,检索 设备1将待处理词组按照权重值由低到高遍历,顺序累加每个待处理词 组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止, 当前的待处理词组及未遍历的待处理词组即为归并词组。

在此,该问题索引库中存储有问题标识与索引问题的映射关系,每 个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设 备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。

本领域技术人员应能理解上述确定归并词组的方式仅为举例,其 他现有的或今后可能出现的确定归并词组的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

在步骤S404中,检索设备1对所述归并词组所对应的索引问题进 行归并处理,确定与所述输入问题相对应的相关问题。具体地,由于归 并词组对应的索引问题数量庞大,且其中包括相互重复的问题,例如归 并词组A对应的索引问题可能也对应归并词组B,因此,需要对这些归 并词组所对应的索引问题进行归并处理,再从归并处理后的索引问题中 确定与该输入问题最相关的相关问题。在此,在步骤S404中,检索设 备1根据在步骤S403中所确定的归并词组,对该归并词组对应的索引 问题进行归并处理,该索引问题例如是索引拉链所对应的索引问题。在 步骤S404中,检索设备1例如根据该归并词组的排列组合结果,建立 权重桶,其中,该权重桶对应该排列组合结果的权重值;将与该排列组 合结果相对应的索引问题归并入该权重桶,以确定与该输入问题相对应 的相关问题;较佳地,在步骤S404中,检索设备1基于哈希算法,将 与该排列组合结果相对应的索引问题归并入该权重桶,以确定与该输入 问题相对应的相关问题。

本领域技术人员应能理解上述对索引问题进行归并处理的方式仅 为举例,其他现有的或今后可能出现的对索引问题进行归并处理的方 式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引 用方式包含于此。

优选地,检索设备1的各个步骤之间是持续不断工作的。具体地, 在步骤S401中,检索设备1获取用户输入的输入问题;在步骤S402 中,检索设备1对所述输入问题进行分词处理,以确定待处理词组;在 步骤S403中,检索设备1根据所述待处理词组所对应的索引拉链及权 重值,确定其中的归并词组;在步骤S404中,检索设备1对所述归并 词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相 关问题。在此,本领域技术人员应理解“持续”是指检索设备1的各 步骤分别按照设定的或实时调整的工作模式要求进行输入问题的获 取、分词处理、归并词组的确定、索引问题的归并处理,直至该检索 设备1在较长时间内停止获取用户输入的输入问题。

在此,检索设备1对输入问题进行分词处理,确定待处理的词组, 并结合其对应的索引拉链和权重值,确定其中的归并词组,进而,对 该归并词组对应的索引问题进行归并处理,获得与用户输入问题对应 的相关问题,在保证问题的相关性的前提下同时极大提高了检索速 度,提升了用户使用体验。

优选地,在步骤S402中,检索设备1对所述输入问题进行分词处 理,并结合分词处理后获得的词组所对应的权重相关信息,确定所述待 处理词组。具体的,在步骤S402中,检索设备1对在步骤S401中所 获取的输入问题进行分词处理,获得分词处理后的词组,再按照该分词 处理后获得的词组的权重相关信息,取权重相关信息高于预定阈值的词 组,作为待处理词组;或者,按照该分词处理后获得的词组的权重相关 信息,将该分词处理后的词组进行降序排列,再取排在前面的预定数量 的词组作为待处理词组,如将权重相关信息最高的8个词组作为待处理 词组。

在此,权重相关信息例如IDF值,IDF为逆向文件频率(Inverse  Document Frequency),IDF的主要思想是,如果包含词组t的文档越少, 则该词组t的IDF值越大,说明该词组t具有很好的类别区分能力。

例如,在步骤S402中,检索设备1对在步骤S401中所获取的输 入问题进行分词处理,获得分词处理后的词组,接着,在步骤S402中, 检索设备1按照该分词处理后获得的词组的IDF值,取IDF值高于预定 阈值的词组,作为待处理词组;或者,按照该分词处理后获得的词组的 IDF值,将该分词处理后的词组进行降序排列,再取排在前面的预定数 量的词组作为待处理词组,如将IDF值最高的8个词组作为待处理词组, 或者,当该分词处理后的词组数量不满8个,则全部予以保留,以作为 待处理词组。

在此,检索设备1结合词组对应的权重相关信息,如IDF值,确定 待处理词组,进一步提升了待处理词组的准确性,保证了相关问题的相 关性,提高了检索的效率。

更优选地,在步骤S402中,检索设备1对所述输入问题进行分词 处理,以获得分词处理后的词组;基于无效词库,对所述分词处理后的 词组进行过滤处理,以确定所述待处理词组。具体地,在步骤S402中, 检索设备1根据在步骤S401中所获取的输入问题,通过自然语言处理 等方式,对该输入问题进行分词处理,获得分词处理后的词组;接着, 在步骤S402中,检索设备1再基于无效词库,对所述分词处理后的词 组进行过滤处理,过滤掉其中无实际意义的功能字词,如过滤掉该无效 词库中所包括的“的、了、得、在”等字词,并将经过滤处理后的词组 作为待处理词组。

在此,该无效词库中存储有无实际意义的功能字词,可以是预设的 无效词库,也可通过用户反馈建立或更新,该无效词库可位于该检索设 备1中,也可位于与该检索设备1具有网络连接的第三方设备中。

在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处 理,再确定待处理词组,进一步提升了待处理词组的准确性,保证了相 关问题的相关性,提高了检索的效率。

更优选地,在步骤S402中,检索设备1对在步骤S401中所获取 的输入问题进行分词处理,以获得分词处理后的词组;再基于无效词库, 对该分词处理后的词组进行过滤处理,以获得经过滤处理的词组;进而, 再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理词 组。

例如,用户通过与用户设备的交互,在搜索引擎的检索框内输入了 输入问题“国际金价大跌,现在我国的黄金价格如何?下降趋势如何? 请专家赐教”,在步骤S401中,检索设备1通过调用诸如ASP、JSP 或PHP等页面技术,获取了该输入问题;在步骤S402中,检索设备1 通过自然语言处理或其他现有的分词方式,对该输入问题进行分词处 理,获得分词处理后的词组“国际”、“金价”、“大跌”、“现在”、 “我国”、“的”、“黄金”、“价格”、“如何”、“下降”、“趋 势”、“请”、“专家”、“赐教”,接着,在步骤S402中,检索设 备1基于无效词库,对上述词组进行过滤处理,如过滤掉“的”、“如 何”、“请”、“专家”、“赐教”这些无实际意义的功能字词,保留 经过滤处理的词组“国际”、“金价”、“大跌”、“现在”、“我国”、 “黄金”、“价格”、“下降”、“趋势”;进而,在步骤S402中, 检索设备1再结合这些过滤处理后所获得的词组对应的权重相关信息, 确定待处理词组,如保留IDF值最高的8个待处理词组“国际”、“金 价”、“大跌”、“我国”、“黄金”、“价格”、“下降”、“趋势”, 作为待处理词组。

本领域技术人员应能理解上述输入问题、分词处理、过滤处理等 仅为举例,其他现有的或今后可能出现的输入问题、分词处理或过滤 处理等如可适用于本发明,也应包含在本发明保护范围以内,并在此 以引用方式包含于此。

在此,检索设备1基于无效词库,对分词处理后的词组进行过滤处 理,再结合过滤处理后所获得的词组对应的权重相关信息,确定待处理 词组,进一步提升了待处理词组的准确性,保证了相关问题的相关性, 提高了检索的效率。

优选地,该方法还包括步骤S407(未示出),该在步骤S407中, 检索设备1根据所述待处理词组所对应的权重相关信息,确定所述待处 理词组的权重值。具体地,在步骤S407中,检索设备1根据在步骤 S402中所确定的待处理词组,通过匹配查询等方式,获取了这些待处理 词组的权重相关信息,如IDF值,进而,根据该输入问题中每个待处理 词组的权重相关信息,与该输入问题中所有待处理词组的权重相关信息 的总和,确定其中每个待处理词组的权重值。以IDF值为例,假设在步 骤S402中,检索设备1对输入问题进行分词处理,共获得了8个待处 理词组,则在步骤S407中,检索设备1通过匹配查询等方式,获得了 这8个待处理词组的IDF值,进而,将每个待处理词组的IDF值分别除 以所有8个待处理词组的IDF值的总和,分别得到这8个待处理词组的 权重值。

优选地,该方法还包括步骤S408(未示出),在步骤S408中,检 索设备1根据所述待处理词组,在问题索引库中进行匹配查询,以获得 与所述待处理词组对应的索引拉链。具体地,在步骤S408中,检索设 备1根据在步骤S402中所确定的待处理词组,分别根据这些待处理词 组,在问题索引库中进行匹配查找,获取这些待处理词组所分别对应的 索引问题,在此,该索引问题中包含该待处理词组,由于每个待处理词 组所对应的索引问题不止一个,且在问题索引库中每一索引问题都唯一 对应有一个问题标识,因此,在步骤S408中,检索设备1将每个待处 理词组所对应的至少一个索引问题按照问题标识进行倒序排列,所分别 获得的索引问题列表即为每个待处理词组所分别对应的索引拉链。

在此,该问题索引库中存储有问题标识与索引问题的映射关系,每 个索引问题唯一对应一个问题标识,该问题索引库既可以位于该检索设 备1中,也可以位于与该检索设备1通过网络相连接的第三方设备中。

优选地,在步骤S403中,检索设备1根据所述待处理词组所对应 的索引拉链及权重值,并结合所述相关问题对应的预置结果数,确定其 中的归并词组。在此,引入预置结果数来确定归并词组,该预置结果数 例如一次检索所需要的检索结果的最大结果数,如2000,则当用户输入 一输入问题,检索设备1检索到的与该输入问题相关的相关问题的数量 小于2000,则全部提供给该用户,如按照预定规则排序后分页提供给该 用户;若检索设备1检索到的相关问题的数量大于2000,则按照预定规 则从其中筛选出2000个检索结果,再排序后分页提供给该用户。此处 的预置结果数可以是预设的、也可根据实际检索情况进行调整。

例如,对于具有索引拉链及权重值的待处理词组,如在步骤S407 中,检索设备1已对待处理词组进行计算,确定了对应的权重值,而在 步骤S408中,检索设备1已根据这些待处理词组,匹配获得了其对应 的索引拉链;则在步骤S403中,检索设备1将这些待处理词组按照其 权重值由高到低进行排序,接着,按顺序遍历,将各个待处理词组的索 引拉链的长度相加,直到累加的和大于预置结果数,例如检索所需的最 大结果数,如2000为止,记录下此时的待处理词组的编号u;随后,在 步骤S403中,检索设备1将待处理词组按照权重值由低到高遍历,顺 序累加每个待处理词组的权重值,直到第一次大于该编号为u的待处理 词组的权重值为止,当前的待处理词组及未遍历的待处理词组即为归并 词组。

优选地,所述步骤S404包括子步骤S404a(未示出)和子步骤S404b (未示出)。其中,在子步骤S404a中,检索设备1根据所述归并词组 的排列组合结果,建立权重桶,其中,所述权重桶对应所述排列组合结 果的权重值;在子步骤S404b中,检索设备1将与所述排列组合结果相 对应的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相 关问题。具体地,在子步骤S404a中,检索设备1根据在步骤S403中 所确定的归并词组,对这些归并词组进行排列组合,获得排列组合结果, 进而,根据排列组合结果,建立权重桶,如根据每一种排列组合结果建 立一个权重桶,或者,将排列组合结果的权重值相同的,建立一个权重 桶。在此,该权重桶对应所述排列组合结果的权重值。

例如,假设在步骤S403中,检索设备1所确定的归并词组为A、 B、C,其中,归并词组A的权重值为0.5、B的权重值为0.3、C的权重 值为0.2,则该3个归并词组共有8种排列组合结果,这里将既不包括A 也不包括B也不包括C的情况也作为一种排列组合结果,即,排列组合 结果有空、A、B、C、AB、AC、BC、ABC,这些排列组合结果所对应 的权重值分别为0、0.5、0.3、0.2、0.8、0.7、0.5、1,在此,排列组合 结果所对应的权重值由其中包含的归并词组的权重值相加而得。假设将 排列组合结果的权重值相同的,建立一个权重桶,则在子步骤S404a中, 检索设备1根据这些归并词组的排列组合结果,建立7个权重桶,每个 权重桶对应一个权重值。较佳地,在子步骤S404a中,检索设备1还可 按照权重值的大小,对该权重桶进行降序排列,如图3所示,其中,每 个归并词组对应位图中的其中一位。

接着,在子步骤S404b中,检索设备1将与该排列组合结果相对应 的索引问题归并入所述权重桶,以确定与所述输入问题相对应的相关问 题。例如,对于索引问题x,其仅包含归并词组A,则将其归并入与A 对应的权重桶中,如图3中的3号权重桶;对于索引问题y,假设其既 包含归并词组A也包含归并词组B,则将其归并入与排列组合结果AB 相对应的权重桶中,如图3中的1号权重桶。这样,在子步骤S404b中, 检索设备1即可将对应的索引问题归并入对应的权重桶中。例如,对于 在步骤S408中,检索设备1所匹配得到的归并词组的索引拉链,在子 步骤S404b中,检索设备1将该索引拉链对应的索引问题归并入对应的 权重桶中,如对于归并词组A的索引拉链,其中的索引问题必然包含该 归并词组A,在子步骤S404b中,检索设备1再判断该索引问题是否还 包括其他归并词组,以将其归并入准确的权重桶中。

在此,检索设备1通过建立权重桶的方式,进一步提升了对索引 问题进行归并处理的效率,进而提高了检索速度,提升了用户的使用 体验。

更优选地,在子步骤S404b中,检索设备1基于哈希算法,将与所 述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输 入问题相对应的相关问题。较佳地,由于索引拉链的长度太大,在子步 骤S404b中,检索设备1可以采用分段处理的方式,顺序处理每个分段, 每段的长度为1<<14=16K,其处理的问题标识的范围为[i*16K, (i+1)*16K)。在子步骤S404b中,检索设备1通过字典映射,将每一 个问题标识(qid)映射到权重桶中,在此,字典是一个用哈希表实现的 数据结构,目的是建立键与值之间的映射关系。键在这里就是 qid&((1<<14)-1),而值是问题标识的命中位图。其中哈希表是根据关键 码值而直接进行访问的数据结构。也就是说,它通过把关键码值映射到 表中一个位置来访问记录,以加快查找的速度。具体地,在子步骤S404b 中,检索设备1循环处理每个索引拉链,对当前索引拉链的问题标识, 只需通过问题标识找到哈希表中对应的命中位图,将当前归并词组对应 的位置为1即可。其中,映射过程如下:

1)计算:MASK=(1<<14)-1;

2)做与运算,相当于对2的14次方取模,得到key:Key=qid&MASK;

3)通过key更新哈希表(哈希表在这里是一个数组)中对应的位图: hash[key]|=flag,其中flag是当前词组对应的位。

在此,检索设备1采用哈希算法,基于位计算,准确、高效地确 定与用户的输入问题相对应的相关问题,同时保证问题的相关性,进 一步提高了检索速度,提升了用户的使用体验。

优选地,该方法还包括步骤S409(未示出),在步骤S409中,检 索设备1根据所述归并词组,确定所述待处理词组中的调权词组;其中, 在子步骤S404b中,检索设备1根据所述调权词组,将与所述排列组合 结果相对应的索引问题归并入所述权重桶,以确定与所述输入问题相对 应的相关问题。由于有些索引问题只命中了权重值很低的一些待处理词 组,对于这样的索引问题并不需要进行归并处理,因此,将待处理词组 划分为归并词组和调权词组,在此,调权词组为需要重新调整权重的词 组。其中,归并词组对应的索引问题需要进行全或归并处理,而调权词 组对应的索引问题则只用来调权,不加入归并。具体地,对于在步骤S402 中所确定的待处理词组,在步骤S403中,检索设备1确定了其中的归 并词组,则在步骤S409中,检索设备1将该待处理词组中除归并词组 以外的词组,作为调权词组。

例如,对于在步骤S402中,检索设备1所确定的待处理词组,在 步骤S403中,检索设备1将这些待处理词组按照其权重值由高到低进 行排序,接着,按顺序遍历,将各个待处理词组的索引拉链的长度相加, 直到累加的和大于预置结果数,例如检索所需的最大结果数,如2000 为止,记录下此时的待处理词组的编号u;随后,在步骤S409中,检 索设备1将待处理词组按照权重值由低到高遍历,顺序累加每个待处理 词组的权重值,直到第一次大于该编号为u的待处理词组的权重值为止, 已遍历的待处理词组即为调权词组。

随后,在子步骤S404b中,检索设备1根据所述调权词组,将与所 述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述输 入问题相对应的相关问题。该调权词组的处理是在字典映射之后、结果 统计输出之前,过程如下:遍历每个调权词组的索引拉链,得到每一个 问题标识,通过问题标识找到哈希表中对应的命中位图,若其值为0则 不作任何处理,否则将调权词组对应的位置为1。

在此,检索设备1综合考虑待处理词组中的调权词组,进一步提 升了对索引问题进行归并处理的准确率与效率,进而提高了检索速 度,保证了相关问题的相关性,提升了用户的使用体验。

图5示出根据本发明一个优选实施例的用于获取与输入问题相对 应的相关问题的方法流程图。以下参照图5对该优选实施例进行描述: 具体地,在步骤S501中,检索设备1获取用户输入的输入问题;在步 骤S502中,检索设备1对所述输入问题进行分词处理,以确定待处理 词组;在步骤S503中,检索设备1根据所述归并词组的排列组合结果, 建立权重桶,其中,所述权重桶对应所述排列组合结果的权重值;将与 所述排列组合结果相对应的索引问题归并入所述权重桶,以确定与所述 输入问题相对应的相关问题;在步骤S504中,检索设备1对所述归并 词组所对应的索引问题进行归并处理,确定与所述输入问题相对应的相 关问题;在步骤S505中,检索设备1根据所述权重桶所对应的权重值, 确定所述权重桶的优先级;在步骤S506中,检索设备1按照所述优先 级,自所述权重桶中确定所述索引问题,以作为所述相关问题提供给所 述用户。其中,步骤S501-S504与图4所示对应步骤相同或基本相同, 故此处不再赘述,并通过引用的方式包含于此。

其中,在步骤S505中,检索设备1根据所述权重桶所对应的权重 值,确定所述权重桶的优先级。具体地,由于每个权重桶对应一定的权 重值,在步骤S505中,检索设备1根据该权重桶所对应的权重值,确 定其优先级,如对应权重值越大的权重桶的优先级越高,即,若该权重 桶所对应的排列组合结果的权重值越大,则该权重桶的优先级越高。如 图3中所示,0号权重桶对应的权重值最大,其优先级最高;6号权重 桶对应的权重值最小,其优先级最低。

在步骤S506中,检索设备1按照所述优先级,自所述权重桶中确 定所述索引问题,以作为所述相关问题提供给所述用户。具体地,在 步骤S506中,检索设备1按照该权重桶的优先级,顺序自优先级最高 的权重桶中读出其所包括的索引问题,其中,每个权重桶中的索引问 题按照问题标识降序排列,作为相关问题提供给用户。例如如图3中所 示,权重桶按照权重值由高到低的顺序排列,在步骤S506中,检索设 备1按照这些权重桶的优先级,顺序从0号权重桶开始,读出其中的索 引问题,作为与用户的输入问题相对应的相关问题,进而,通过调用 JSP、ASP或PHP等网页技术,或其他约定的展现方式,提供给该用户。

在此,检索设备1根据权重桶的优先级,将其中的索引问题作为 相关问题提供给用户,提高了相关问题的相关性,提升了用户的使用 体验。

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被 实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何 其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可 以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的 软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质 中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另 外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处 理器配合从而执行各个步骤或功能的电路。

另外,本发明的一部分可被应用为计算机程序产品,例如计算 机程序指令,当其被计算机执行时,通过该计算机的操作,可以调 用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的 程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过 广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据 所述程序指令运行的计算机设备的工作存储器中。在此,根据本发 明的一个实施例包括一个装置,该装置包括用于存储计算机程序指 令的存储器和用于执行程序指令的处理器,其中,当该计算机程序 指令被该处理器执行时,触发该装置运行基于前述根据本发明的多 个实施例的方法和/或技术方案。

对于本领域技术人员而言,显然本发明不限于上述示范性实施 例的细节,而且在不背离本发明的精神或基本特征的情况下,能够 以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将 实施例看作是示范性的,而且是非限制性的,本发明的范围由所附 权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要 件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中 的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一 词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述 的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实 现。第一,第二等词语用来表示名称,而并不表示任何特定的顺 序。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号