首页> 中国专利> 搜索候选词的推荐方法及搜索引擎

搜索候选词的推荐方法及搜索引擎

摘要

本发明提出一种搜索候选词的推荐方法及搜索引擎,其中所述方法包括:搜索引擎服务器接收用户输入的输入信息,并获得输入信息的前缀信息;将前缀信息作为索引获得多个搜索候选词以及每个搜索候选词的权重;判断多个搜索候选词中是否存在至少两个搜索候选词属于同一主题;如果判断存在至少两个搜索候选词属于同一主题,则保留至少两个搜索候选词中的一个搜索候选词的权重不变,对至少两个搜索候选词中的其他搜索候选词的权重进行降权处理;以及根据多个搜索候选词的权重进行排序,将排序之后的搜索候选词提供至用户。根据本发明实施例的方法,提高了搜索候选词的多样性和准确性,能够满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。

著录项

  • 公开/公告号CN103258023A

    专利类型发明专利

  • 公开/公告日2013-08-21

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201310165048.3

  • 发明设计人 连茂泉;

    申请日2013-05-07

  • 分类号G06F17/30(20060101);

  • 代理机构北京清亦华知识产权代理事务所(普通合伙);

  • 代理人宋合成

  • 地址 100085 北京市海淀区上地十街10号百度大厦三层

  • 入库时间 2024-02-19 19:46:08

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-31

    授权

    授权

  • 2013-09-18

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20130507

    实质审查的生效

  • 2013-08-21

    公开

    公开

说明书

技术领域

本发明涉及计算机技术领域,特别涉及一种搜索候选词的推荐方法及搜 索引擎。

背景技术

搜索引擎主要采用前缀匹配的方式为用户提供搜索候选词,具体地,对 于某一前缀,搜索引擎主要根据搜索候选词的热度,也就是检索频次,来决 定提供哪些搜索候选词及其排序。

但是如果用户需要搜索的内容与某个热点词汇具有相同的前缀,很可能 会使与热点词汇相关的内容由于具有较高的热度而都具有较高的排序权值 而排在前面,而用户想要搜索的内容却无法列入候选词中,虽然可以通过基 于主题类聚等方式来对搜索候选词进行重排,但是基于主题类聚的方式计算 成本发哦,并存在潜在的转义风险,从而难以满足用户检索的需求。

发明内容

本发明的旨在至少解决上述技术缺陷之一。

为此,本发明第一个目的在于提出一种搜索候选词的推荐方法,提高了 搜索候选词的多样性和准确性,能够满足用户的搜索需求,并且算法简单, 易于实施,提升用户体验。

本发明第二个目的在于提出一种搜索引擎。

为实现上述目的,根据本发明第一方面的实施例的搜索候选词的推荐方 法包括以下步骤:搜索引擎服务器接收用户输入的输入信息,并获得所述输 入信息的前缀信息;将所述前缀信息作为索引获得多个搜索候选词以及每个 搜索候选词的权重;判断所述多个搜索候选词中是否存在至少两个搜索候选 词属于同一主题;如果判断所述存在至少两个搜索候选词属于同一主题,则 保留所述至少两个搜索候选词中的一个搜索候选词的权重不变,对所述至少 两个搜索候选词中的其他搜索候选词的权重进行降权处理;以及根据所述多 个搜索候选词的权重进行排序,将排序之后的搜索候选词提供至所述用户。

根据本发明实施例的搜索候选词的推荐方法,通过保持同一主题中的一 个搜索候选词的权重不变,对同一主题中的其他搜索候选词进行降权处理, 进而提高其他主题的候选词的权重排名,使得根据权重排名提供给用户的搜 索候选词能够具有不同的主题,提高了搜索候选词的多样性和准确性,能够 满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。

为实现上述目的,根据本发明第二方面的实施例的搜索引擎,包括:接 收模块,用于接收用户输入的输入信息,并获得所述输入信息的前缀信息; 搜索词确定模块,用于将所述前缀信息作为索引获得多个搜索候选词以及每 个搜索候选词的权重;判断模块,用于判断所述多个搜索候选词中是否存在 至少两个搜索候选词属于同一主题;权重调整模块,用于在判断所述存在至 少两个搜索候选词属于同一主题时,保留所述至少两个搜索候选词中的一个 搜索候选词的权重不变,对所述至少两个搜索候选词中的其他搜索候选词的 权重进行降权处理;排序模块,用于根据所述多个搜索候选词的权重进行排 序;以及提供模块,用于将排序之后的搜索候选词提供至所述用户。

根据本发明实施例的搜索引擎,通过权重调整模块可以在保持同一主题 中的一个搜索候选词的权重不变,而对同一主题中的其他搜索候选词进行降 权处理,进而提高其他主题的候选词的权重排名,使得根据权重排名提供给 用户的搜索候选词能够具有不同的主题,提高了搜索候选词的多样性和准确 性,能够满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的 描述中变得明显,或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述 中将变得明显和容易理解,其中:

图1为根据本发明一个实施例的搜索候选词的推荐方法的流程图;

图2为根据本发明另一个实施例的搜索候选词的推荐方法的流程图;

图3为根据本发明一个实施例的搜索引擎的结构框图;

图4为根据本发明另一个实施例的搜索引擎的结构框图;

图5为根据本发明一个实施例的搜索候选词展示框的示意图。

具体实施方式

下面详细描述本发明的实施例,实施例的示例在附图中示出,其中自始 至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不 能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求 书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语 “相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连 接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连, 也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体 情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非 另有说明,“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为, 表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令 的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的 实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同 时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领 域的技术人员所理解。

下面参考附图描述根据本发明实施例的搜索候选词的推荐方法。

一种搜索候选词的推荐方法,包括以下步骤:搜索引擎服务器接收用户 输入的输入信息,并获得输入信息的前缀信息;将前缀信息作为索引获得多 个搜索候选词以及每个搜索候选词的权重;判断多个搜索候选词中是否存在 至少两个搜索候选词属于同一主题;如果判断存在至少两个搜索候选词属于 同一主题,则保留至少两个搜索候选词中的一个搜索候选词的权重不变,对 至少两个搜索候选词中的其他搜索候选词的权重进行降权处理;以及根据多 个搜索候选词的权重进行排序,将排序之后的搜索候选词提供至用户。

图1为根据本发明一个实施例的搜索候选词的推荐方法的流程图。

如图1所示,根据本发明实施例的搜索候选词的推荐方法包括下述步 骤。

S101,搜索引擎服务器接收用户输入的输入信息,并获得输入信息的前 缀信息。

具体地,当搜索引擎服务器在接收用户输入的输入信息时,可将用户输 入的输入信息作为前缀信息,以便根据用户输入的前缀信息为用户提供丰富 的并且与用户输入信息匹配的搜索候选词。

S102,将前缀信息作为索引获得多个搜索候选词以及每个搜索候选词的 权重。

在本发明的一个实施例中,搜索引擎将前缀信息作为索引获取多个前缀 与前缀信息相同的搜索候选词,并获取每个候选词的权重,其中每个候选词 的权重可以由该候选词的热度(即搜索频率)、以及拼写正确与否等因素决 定,例如由于《普罗米修斯》的热映可能导致以“普罗米修斯”的热度提升, 进而提升了普罗米修斯”的权重,因此,对于前缀信息“普”来说,包含“普 罗米修斯”的候选词就会因具有较高的权重而排在前面。

在本发明的一个实施例中,可根据获得的多个搜索候选词对应的权重将 多个搜索候选词中的一部分加入至索引拉链之中,以便进一步对索引拉链中 的搜索候选词进行排序以提供给用户。

S103,判断多个搜索候选词中是否存在至少两个搜索候选词属于同一主 题。

具体的,可首先分析多个搜索候选词中任两个搜索候选词之间除了前缀 信息内容部分连续重复的文字或字符的字面长度,如果文字或字符的字面长 度大于预设阈值,则判断大于预设阈值的两个搜索候选词是否属于同一主 题,如,果不大于预设阈值,则不属于同一主题,如初始预定阈值可设置为 6个字符,也就是3个汉字或6个英文字母,其中预设阈值可以由搜索引擎 默认设置,并在工作过程中通过评估结果、机器学习以及用户反馈等方法进 行修正。

S104,如果判断存在至少两个搜索候选词属于同一主题,则保留至少两 个搜索候选词中的一个搜索候选词的权重不变,对至少两个搜索候选词中的 其他搜索候选词的权重进行降权处理。

如果判断不存在至少两个搜索候选词属于同一主题,则执行步骤S105。

其中,惩罚系数为0到1之间的数值,由此,可通过将至少两个搜索候 选词中的其他搜索候选词的权重乘以惩罚系数来降低需要降权的的搜索候 选词的权重,使得其他主题的搜索候选词的权重排名能够提前,提高搜索候 选词的多样性,并且惩罚系数可根据评估结果、机器学习或用户在线反馈进 行调整。

例如,对于前缀信息“普”对应的多个搜索候选词,可将关于“普罗米 修斯”主题的4个搜索候选词中的其中3个进行降权处理,被降权处理后的 搜索候选词的权重排名可能会下降,可使其他主题的搜索候选词,如“普洱 茶”等的权重排名提前。

S105,根据多个搜索候选词的权重进行排序,将排序之后的搜索候选词 提供至用户。

根据本发明实施例的搜索候选词的推荐方法,通过保持同一主题中的一 个搜索候选词的权重不变,对同一主题中的其他搜索候选词进行降权处理, 进而提高其他主题的候选词的权重排名,使得根据权重排名提供给用户的搜 索候选词能够具有不同的主题,提高了搜索候选词的多样性和准确性,能够 满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。

图2为根据本发明另一个实施例的搜索候选词的推荐方法的流程图。

如图2所示,根据本发明实施例的搜索候选词的推荐方法包括下述步 骤。

S201,搜索引擎服务器接收用户输入的输入信息,并获得输入信息的前 缀信息。

具体地,当搜索引擎服务器在接收用户输入的输入信息时,可将用户输 入的输入信息作为前缀信息,以便根据用户输入的前缀信息为用户提供丰富 的并且与用户输入信息匹配的搜索候选词。

S202,将前缀信息作为索引获得多个搜索候选词以及每个搜索候选词的 权重。

具体地,搜索引擎将前缀信息作为索引获取多个前缀与前缀信息相同的 搜索候选词,并获取每个候选词的权重,其中每个候选词的权重可以由该候 选词的热度(即搜索频率)、以及拼写正确与否等因素决定,例如由于《普 罗米修斯》的热映可能导致以“普罗米修斯”的热度提升,进而提升了普罗 米修斯”的权重,因此,对于前缀信息“普”来说,包含“普罗米修斯”的 候选词就会因具有较高的权重而排在前面。

在本发明的一个实施例中,可根据获得的多个搜索候选词对应的权重将 多个搜索候选词中的一部分加入至索引拉链之中,以便进一步对索引拉链中 的搜索候选词进行排序以提供给用户。

S203,判断多个搜索候选词中是否存在至少两个搜索候选词属于同一主 题。

具体的,可首先分析多个搜索候选词中任两个搜索候选词之间除了前缀 信息内容部分连续重复的文字或字符的字面长度,如果文字或字符的字面长 度大于预设阈值,则判断大于预设阈值的两个搜索候选词是否属于同一主 题,如,果不大于预设阈值,则不属于同一主题,如初始预定阈值可设置为 6个字符,也就是3个汉字或6个英文字母,其中预设阈值可以由搜索引擎 默认设置,并在工作过程中通过评估结果、机器学习以及用户反馈等方法进 行修正。

S204,如果判断存在至少两个搜索候选词属于同一主题,则保留至少两 个搜索候选词中的一个搜索候选词的权重不变,对至少两个搜索候选词中的 其他搜索候选词的权重进行降权处理。

其中,惩罚系数为0到1之间的数值,由此,可通过将至少两个搜索候 选词中的其他搜索候选词的权重乘以惩罚系数来降低需要降权的的搜索候 选词的权重,使得其他主题的搜索候选词的权重排名能够提前,提高搜索候 选词的多样性,并且惩罚系数可根据评估结果、机器学习或用户在线反馈进 行调整。

例如,对于前缀信息“普”对应的多个搜索候选词,可将关于“普罗米 修斯”主题的4个搜索候选词中的其中3个进行降权处理,被降权处理后的 搜索候选词的权重排名可能会下降,可使其他主题的搜索候选词,如“普洱 茶”等的权重排名提前。

S205,根据多个搜索候选词的权重进行排序,将排序之后的搜索候选词 提供至用户。

S206,在搜索候选词展示框中展示权重排名大于预设位置的多个搜索候 选词。

具体地,预设位置的值为搜索候选词展示框中可显示的搜索候选词的个 数,可将搜索拉链中权重排名大于预设位置的多个搜索候选词在搜索候选词 展示框中展示,如图5所示,如果预设位置为6时,对于前缀信息“普”对 应的多个搜索候选词展示结果。

S207,在搜索候选词展示框中针对展示框中的每个搜索候选词提供对应 的选择按键。

举例来说,如图5所示,可以在搜索候选词展示框中的每个搜索候选词 之后添加一个与之相对应的选择按键,如果用户希望对某个搜索候选词进一 步检索,可以点击这个选择按键,就可将选择的搜索候选词添加到搜索编辑 框中。

S208,当选择按键被触发时,以被触发的选择按键对应的搜索候选词作 为前缀进一步进行候选词检索。

具体地,当用户触发了选择按键时,被触发的选择按键对应的搜索候选 词将被添加到搜索编辑框中,并作为前缀信息继续执行步骤S202-S207,直 到搜索到用户需要的信息。

根据本发明实施例的搜索候选词的推荐方法,通过为搜索候选词添加选 择按键,可将用户需要的搜索候选词作为前缀进一步进行候选词二次检索, 使得检索结果更能满足用户的需求,并且可以自动添加,无需用户输入,操 作简单,进一步提升了用户体验。

为了实现上述实例,本发明还提出一种搜索引擎。

一种搜索引擎,包括:接收模块,用于接收用户输入的输入信息,并获 得输入信息的前缀信息;搜索词确定模块,用于将前缀信息作为索引获得多 个搜索候选词以及每个搜索候选词的权重;判断模块,用于判断多个搜索候 选词中是否存在至少两个搜索候选词属于同一主题;权重调整模块,用于在 判断存在至少两个搜索候选词属于同一主题时,保留至少两个搜索候选词中 的一个搜索候选词的权重不变,对至少两个搜索候选词中的其他搜索候选词 的权重进行降权处理;排序模块,用于根据多个搜索候选词的权重进行排序; 以及提供模块,用于将排序之后的搜索候选词提供至用户。

图3为根据本发明一个实施例的搜索引擎的结构框图。

如图3所示,根据本发明实施例的搜索引擎包括:接收模块100、搜索 词确定模块200、判断模块300、权重调整模块400、排序模块500以及提 供模块600。

具体地,接收模块100用于接收用户输入的输入信息,并获得输入信息 的前缀信息。更具体地,当接收模块100在接收用户输入的输入信息时,可 将用户输入的输入信息作为前缀信息,以便于搜索词确定模块200根据用户 输入的前缀信息为用户提供丰富的并且与用户输入信息匹配的搜索候选词。

搜索词确定模块200用于将前缀信息作为索引获得多个搜索候选词以 及每个搜索候选词的权重。更具体地,搜索词确定模块200将前缀信息作为 索引获取多个前缀与前缀信息相同的搜索候选词,并获取每个候选词的权 重,其中每个候选词的权重可以由该候选词的热度(即搜索频率)、以及拼 写正确与否等因素决定,例如由于《普罗米修斯》的热映可能导致以“普罗 米修斯”的热度提升,进而提升了普罗米修斯”的权重,因此,对于前缀信 息“普”来说,包含“普罗米修斯”的候选词就会因具有较高的权重而排在 前面。

判断模块300用于判断多个搜索候选词中是否存在至少两个搜索候选 词属于同一主题。更具体地,判断模块300可首先分析多个搜索候选词中任 两个搜索候选词之间除了前缀信息内容部分连续重复的文字或字符的字面 长度,并在文字或字符的字面长度大于预设阈值时,判断大于预设阈值的两 个搜索候选词是否属于同一主题,如果不大于预设阈值,则不属于同一主题, 如,初始预定阈值可设置为6个字符,也就是3个汉字或6个英文字母,其 中预设阈值可以由搜索引擎默认设置,并在工作过程中通过评估结果、机器 学习以及用户反馈等方法进行修正。

权重调整模块400用于在判断存在至少两个搜索候选词属于同一主题 时,保留至少两个搜索候选词中的一个搜索候选词的权重不变,对至少两个 搜索候选词中的其他搜索候选词的权重进行降权处理。其中,惩罚系数为0 到1之间的数值,由此,权重调整模块400可通过将至少两个搜索候选词中 的其他搜索候选词的权重乘以惩罚系数来降低需要降权的的搜索候选词的 权重,使得其他主题的搜索候选词的权重排名能够提前,提高搜索候选词的 多样性,并且惩罚系数可根据评估结果、机器学习或用户在线反馈进行调整。

例如,对于前缀信息“普”对应的多个搜索候选词,权重调整模块400 可将关于“普罗米修斯”主题的4个搜索候选词中的其中3个进行降权处理, 被降权处理后的搜索候选词的权重排名可能会下降,可使其他主题的搜索候 选词,如“普洱茶”等的权重排名提前。

排序模块500用于根据多个搜索候选词的权重进行排序。

提供模块600用于将排序之后的搜索候选词提供至用户。在本发明的一 个实施例中,提供模块600可根据获得的多个搜索候选词对应的权重将多个 搜索候选词中的一部分加入至索引拉链之中,并根据排序模块500的排序结 果按照权重排名将搜索候选词提供给用户。

根据本发明实施例的搜索引擎,通过权重调整模块可以在保持同一主题 中的一个搜索候选词的权重不变,而对同一主题中的其他搜索候选词进行降 权处理,进而提高其他主题的候选词的权重排名,使得根据权重排名提供给 用户的搜索候选词能够具有不同的主题,提高了搜索候选词的多样性和准确 性,能够满足用户的搜索需求,并且算法简单,易于实施,提升用户体验。

图4为根据本发明一个实施例的搜索引擎的结构框图。

如图4所示,根据本发明实施例的搜索引擎在图3所示的基础上还包括: 二次检索模块700。

具体地,提供模块600还用于在搜索候选词展示框中展示权重排名大于 预设位置的多个搜索候选词。更具体地,预设位置的值为搜索候选词展示框 中可显示的搜索候选词的个数,可将搜索拉链中权重排名大于预设位置的多 个搜索候选词在搜索候选词展示框中展示,如图5所示,如果预设位置为6 时,对于前缀信息“普”对应的多个搜索候选词展示结果。

二次检索模块700用于在搜索候选词展示框中针对展示框中的每个搜 索候选词提供对应的选择按键,并在选择按键被触发时,以被触发的选择按 键对应的搜索候选词作为前缀进一步进行候选词检索。举例来说,如图5 所示,可以在搜索候选词展示框中的每个搜索候选词之后添加一个与之相对 应的选择按键,如果用户希望对某个搜索候选词进一步检索,可以点击这个 选择按键,当用户触发了选择按键时,被触发的选择按键对应的搜索候选词 将被添加到搜索编辑框中,并作为前缀信息进一步检索,直到搜索到用户需 要的信息。

根据本发明实施例的搜索引擎,通过二次检索模块可为搜索候选词添加 选择按键,可将用户需要的搜索候选词作为前缀进一步进行二次检索,使得 检索结果更能满足用户的需求,并且可以自动添加,无需用户输入,操作简 单,进一步提升了用户体验。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示 例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描 述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例 中。在本说明书中,对所述术语的示意性表述不一定指的是相同的实施例或 示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多 个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行 多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号