首页> 中国专利> 确定目标关键词所对应的搜索相关性类别的方法和设备

确定目标关键词所对应的搜索相关性类别的方法和设备

摘要

本发明的目的是提供一种用于确定目标关键词所对应的搜索相关性类别的方法和设备。具体地,根据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。与现有技术相比,本发明通过确定目标关键词所属的目标关键词聚类,进而所述目标关键词所对应的搜索相关性类别,以用于后续处理,从而实现了有效地确定关键词所对应的搜索相关性类别,及对批量关键词数据的自动化测试,不仅为优化搜索引擎搜索排序提供参考,而且提高了对搜索引擎相关性的测试效率。

著录项

  • 公开/公告号CN103902597A

    专利类型发明专利

  • 公开/公告日2014-07-02

    原文格式PDF

  • 申请/专利权人 百度在线网络技术(北京)有限公司;

    申请/专利号CN201210581476.X

  • 发明设计人 孙宇;谭广明;韩彦俊;

    申请日2012-12-27

  • 分类号G06F17/30(20060101);

  • 代理机构北京汉昊知识产权代理事务所(普通合伙);

  • 代理人罗朋;周建华

  • 地址 100085 北京市海淀区上地十街10号百度大厦

  • 入库时间 2024-02-20 00:20:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-08

    授权

    授权

  • 2016-01-13

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20121227

    实质审查的生效

  • 2014-07-02

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,尤其涉及一种用于确定目标关键词 所对应的搜索相关性类别的技术。

背景技术

当前,随着互联网技术的发展及互联网应用对用户学习、工作与 生活的渗透,人们越来越多地通过网络获取信息,如通过搜索引擎输 入关键词,搜索引擎通过采取一定搜索排序方式确定返回给用户与关 键词相匹配的搜索结果,然而搜索引擎返回的搜索结果与用户输入的 查询序列的匹配度在很大程度上影响了用户获取信息的准确度。相应 地,若能提高搜索引擎返回的搜索结果与用户输入的查询序列的匹配 度,将能够大幅提高用户获取信息的效率。因此,需要对搜索引擎的 相关性进行有效的评估测试,如按照关键词与搜索结果的匹配程度对关 键词进行分类,确定关键词所对应的搜索相关性类别,有效地确定关键 词所对应的搜索相关性类别,并提高搜索引擎相关性的测试效率。

发明内容

本发明的目的是提供一种用于确定目标关键词所对应的搜索相关 性类别的方法与设备。

根据本发明的一个方面,提供了一种用于确定目标关键词所对应 的搜索相关性类别的方法,其中,该方法包括以下步骤:

a根据目标关键词的搜索排序路径信息,从一个或多个关键词聚 类中确定所述目标关键词所属的目标关键词聚类;

b根据所述目标关键词聚类,确定所述目标关键词所对应的搜索 相关性类别,以用于后续处理。

根据本发明的另一个方面,还提供了一种用于确定目标关键词所 对应的搜索相关性类别的类别确定设备,其中,该类别确定设备包括:

聚类确定装置,用于根据目标关键词的搜索排序路径信息,从一 个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚类;

类别确定装置,用于根据所述目标关键词聚类,确定所述目标关 键词所对应的搜索相关性类别,以用于后续处理。

根据本发明的再一个方面,还提供了一种计算机设备,其中,该 计算机设备包括如前述根据本发明另一个方面的用于确定目标关键 词所对应的搜索相关性类别的类别确定设备。

根据本发明的再一个方面,还提供了一种用于确定目标关键词所 对应的搜索相关性类别的搜索引擎,其中,该搜索引擎包括如前述根 据本发明另一个方面的用于确定目标关键词所对应的搜索相关性类 别的类别确定设备。

根据本发明的再一个方面,还提供了一种用于确定目标关键词所 对应的搜索相关性类别的搜索引擎插件,其中,该搜索引擎插件包括 如前述根据本发明另一个方面的用于确定目标关键词所对应的搜索 相关性类别的类别确定设备。

与现有技术相比,本发明通过确定目标关键词所属的目标关键词 聚类,进而所述目标关键词所对应的搜索相关性类别,以用于后续处 理,从而实现了有效地确定关键词所对应的搜索相关性类别,及对批量 关键词数据的自动化测试,不仅为优化搜索引擎搜索排序提供参考,而 且提高了对搜索引擎相关性的测试效率。而且,本发明还可确定目标关 键词所对应的优选搜索排序路径信息,以调整所述目标关键词的搜索 排序路径信息,从而进一步实现了优化搜索引擎搜索排序,提高用户 信息获取效率。进一步地,本发明还可确定待优化关键词集合,确定所 述一个或多个待优化关键词的优化搜索排序路径信息,以用于调整所 述一个或多个待优化关键词的搜索排序路径信息,从而进一步地实现 了优化搜索引擎搜索排序,提高用户信息获取效率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述, 本发明的其它特征、目的和优点将会变得更明显:

图1示出根据本发明一个方面的用于确定目标关键词所对应的搜 索相关性类别的设备示意图;

图2示出根据本发明一个优选实施例的用于确定目标关键词所对 应的搜索相关性类别的设备示意图;

图3示出根据本发明另一个方面的用于确定目标关键词所对应的 搜索相关性类别的方法流程图;

图4示出根据本发明一个优选实施例的用于确定目标关键词所对 应的搜索相关性类别的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

下面结合附图对本发明作进一步详细描述。

图1示出根据本发明一个方面的用于确定目标关键词所对应的搜索 相关性类别的类别确定设备1,其中,类别确定设备1包括聚类确定装 置11和类别确定装置12。具体地,聚类确定装置11根据目标关键词的 搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所 属的目标关键词聚类;类别确定装置12根据所述目标关键词聚类,确 定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此, 所述搜索相关性的含义是指关键词与搜索结果的匹配程度。在此,类别 确定设备1包括但不限于网络设备、用户设备或网络设备与用户设备 通过网络相集成所构成的设备。其中,所述网络设备包括但不限于网 络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。 在此,云由基于云计算(Cloud Computing)的大量主机或网络服务器 构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机 集组成的一个超级虚拟计算机。所述用户设备其包括但不限于任何一 种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的 电子产品,例如计算机、智能手机、PDA或IPTV等。所述网络包括 但不限于互联网、广域网、城域网、局域网、VPN网络、无线自组织 网络(Ad Hoc网络)等。本领域技术人员应能理解上述类别确定设备 1仅为举例,其他现有的或今后可能出现的网络设备或用户设备如可 适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式 包含于此。

具体地,聚类确定装置11首先根据预定规则,对多个样本关键词 进行聚类处理,以获得一个或多个关键词聚类;再根据目标关键词的搜 索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属 的目标关键词聚类。在此,所述搜索排序的含义是指搜索引擎对用户输 入关键词的理解和需求进行分析,运用一定算法,在预定提取的网页数 据库中挑选出与用户输入关键词相匹配的网页,并将其提供给用户,其 包括但不限于如主题匹配度结果选取排序、好结果提权排序、作弊点击 打压、飘红词选取排序、题目/摘要组装排序等,其中,所述结果提权排 序可包括诸多子排序,如:网页站点权威性提权、官网提权、页面丰富 度提权、点击提权等。在此,所述搜索引擎包括但不限于如Google公 司的Google搜索引擎、百度公司的baidu搜索引擎等,以及如Google 公司的Google ToolBar、百度公司的百度搜霸、微软公司的 MSN ToolBar等搜索引擎插件。在此,所述搜索排序路径信息用于表 明搜索引擎在确定候选搜索结果排序信息过程中所经过的排序算法 代码路径信息,可运用搜索排序路径标识(Strategy Identifier,SID) 和分支标识(Branch Identifier,BID)来表示,其中,分支标识从属 于搜索排序路径标识,在对搜索排序进行细粒度的标识时可被运用。 本领域技术人员应能理解上述搜索排序、搜索引擎和搜索排序路径信 息仅为举例,其他现有的或今后可能出现的搜索排序或搜索引擎或搜 索排序路径信息如可适用于本发明,也应包含在本发明保护范围以内, 并在此以引用方式包含于此。

具体地,聚类确定装置11首先根据预定规则,对多个样本关键词 进行聚类处理,如采用k-means、ISODATA、链状方法等非监督学习方 法,以获得所述一个或多个关键词聚类。其中,所述预定规则包括但不 限于以下至少任一项:

-根据所述多个样本关键词各自对应的搜索排序路径信息,对所 述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚 类;

-根据所述多个样本关键词各自对应的搜索用户的历史搜索记 录信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多 个关键词聚类;

-根据所述多个样本关键词各自在满足预定质量度阈值的页面 内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获 得所述一个或多个关键词聚类。

例如,当所述预定规则包括根据所述多个样本关键词各自对应的 搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所 述一个或多个关键词聚类时,假设多个样本关键词如样本关键词I至 VI,其各自对应的搜索排序路径信息如下表1所示,其中,S_*表示关 键词搜索请求处理经过的搜索排序路径的搜索排序路径标识或分支标 识:

样本关键词 搜索排序路径信息 I S_A→S_C→S_D→S_B→S_E→S_G II S_A→S_E→S_G→S_C→S_D→S_B III S_A→S_F→S_C→S_D→S_E→S_G IV S_A→S_C→S_D→S_F→S_E→S_G V S_A→S_E→S_G→S_C→S_B→S_D VI S_M→S_N→S_C→S_B→S_G→S_D

表1

则聚类确定装置11根据样本关键词I至VI各自对应的搜索排序路径信 息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本关 键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关 键词聚类cluster1,如将样本关键词I、III和VI归为一类;②.第二关键 词聚类cluster2,如将关键词II和V归为一类;③.第三关键词聚类 cluster3,如将样本关键词VI归为一类;再如,当所述预定规则包括根据 所述多个样本关键词各自在满足预定质量度阈值的页面内容信息中 的统计信息,对所述多个样本关键词进行聚类处理,以获得所述一个 或多个关键词聚类时,则聚类确定装置11根据样本关键词I至VI各自 在满足预定质量度阈值的页面内容信息中的统计信息,如样本关键词 I至VI各自在满足预定质量度阈值的页面内容信息如属于高度可信 任站点页面如http://www.sina.com.cn/中出现的频次信息,采用 k-means、ISODATA、链状方法等非监督学习方法,对样本关键词I至 VI进行聚类处理,得到一个或多个关键词聚类如:①.第一关键词聚类 cluster1,如将样本关键词I、II和III归为一类;②.第二关键词聚类 cluster2,如将样本关键词IV和VI归为一类;③.第三关键词聚类cluster3, 如将样本关键词V归为一类。

本领域技术人员应能理解上述对所述多个样本关键词进行聚类 处理的方式仅为举例,其他现有的或今后可能出现的对所述多个样本 关键词进行聚类处理的方式如可适用于本发明,也应包含在本发明保 护范围以内,并在此以引用方式包含于此。

接着,聚类确定装置11再根据目标关键词的搜索排序路径信息, 从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚 类。具体地,聚类确定装置11首先通过诸如搜索引擎、浏览器、提供 目标关键词设备等第三方设备的应用程序接口(API),获取目标关键 词,或者,通过ASP、JSP等动态网页技术,获取用户通过用户设备输 入的目标关键词;然后,聚类确定装置11再根据目标关键词的搜索排 序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目 标关键词聚类。

例如,假设测试员A在评估搜索引擎相关性测试过程中,在测试平 台关键词输入栏输入目标关键词goal-query,则聚类确定装置11通过 ASP、JSP等动态网页技术,便可获取到测试员A通过用户设备输入的 目标关键词goal-query。

本领域技术人员应能理解上述获取目标关键词的方式仅为举例, 其他现有的或今后可能出现的获取目标关键词的方式如可适用于本 发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

最后,聚类确定装置11再根据目标关键词的搜索排序路径信息, 从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚 类。在此,聚类确定装置11确定所述目标关键词聚类的方法包括但不 限于以下至少任一项:

1)将所述目标关键词的搜索排序路径信息与所述关键词聚类的类 搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键 词聚类。例如,假设聚类确定装置11对如表1所示的样本关键词I至 VI进行聚类处理后,得到的每一关键词聚类及表征所述关键词聚类的类 搜索排序路径信息如下表2所示:

关键词聚类 类搜索排序路径信息 cluster1 S_A→S_C→S_D→S_E→S_G→S_F cluster2 S_A→S_E→S_G→S_C→S_D→S_B cluster3 S_M→S_N→S_C→S_B→S_G→S_D

表2

假设聚类确定装置11获取的目标关键词goal-query的搜索排序路径信息 为S_A→S_C→S_D→S_B→S_E→S_G,其与第一关键词聚类cluster1的 类搜索排序路径信息中顺序及搜索排序路径标识均相同的路径信息 最多,则聚类确定装置11确定目标关键词goal-query所属的目标关键词 聚类为第一关键词聚类cluster1。

2)将所述目标关键词的搜索排序路径信息与所述关键词聚类中包 括的参考关键词的搜索排序路径信息进行比较,以确定所述目标关键词 所属的目标关键词聚类。例如,假设聚类确定装置11获取的目标关键 词goal-query的搜索排序路径信息为 S_A→S_C→S_D→S_B→S_E→S_G,与第一关键词聚类cluster1中的关 键词I的搜索排序路径信息相同,则聚类确定装置11确定目标关键词 goal-query所属的目标关键词聚类为第一关键词聚类cluster1。

本领域技术人员应能理解上述确定所述目标关键词所属的目标关 键词聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目 标关键词所属的目标关键词聚类的方式如可适用于本发明,也应包含 在本发明保护范围以内,并在此以引用方式包含于此。

类别确定装置12可首先统计所述目标关键词聚类所包括的各个参 考关键词所对应的搜索相关性描述信息,确定目标关键词聚类所对应 的搜索相关性类别;然后,再根据所述目标关键词聚类所对应的搜索相 关性类别,确定所述目标关键词所对应的搜索相关性类别,以用于后续 处理。在此,所述搜索相关性类别包括但不限于如较高相关性类别、较 低相关性类别、不相关类别、作弊关键词类别等。在此,所述后续处理 包括但不限于如:1)对目标关键词进行筛选处理,如是否作为测试数 据等;2)优化目标关键词的搜索排序信息。本领域技术人员应能理解 上述搜索相关性类别和后续处理方式仅为举例,其他现有的或今后可 能出现的搜索相关性类别或后续处理方式如可适用于本发明,也应包 含在本发明保护范围以内,并在此以引用方式包含于此。

例如,假设聚类确定装置11确定目标关键词goal-query所属的目 标关键词聚类为第一关键词聚类cluster1,而关键词聚类cluster1所包括 的样本关键词I、II和III的所对应的搜索相关性描述信息分别为相关 性高、相关性高、相关性低,由于相关性高的相关性描述信息占相关 性描述信息总数量的比值满足大于阈值如0.65,则类别确定装置12 确定目标关键词goal-query所对应的搜索相关性类别为相关性高类别。 再如,假设聚类确定装置11确定目标关键词goal-query所属的目标关 键词聚类为第一关键词聚类cluster2,而关键词聚类cluster2所包括的样 本关键词IV和VI的所对应的搜索相关性描述信息分别为相关性低、相 关性低,由于相关性低的相关性描述信息占相关性描述信息总数量的 比值满足大于阈值如0.65,则类别确定装置12确定目标关键词 goal-query所对应的搜索相关性类别为相关性低类别。

本领域技术人员应能理解上述确定所述目标关键词所对应的搜索 相关性类别的方式仅为举例,其他现有的或今后可能出现的确定所述 目标关键词所对应的搜索相关性类别的方式如可适用于本发明,也应 包含在本发明保护范围以内,并在此以引用方式包含于此。

类别确定设备1的各个装置之间是持续不断工作的。具体地,聚 类确定装置11持续根据目标关键词的搜索排序路径信息,从一个或多 个关键词聚类中确定所述目标关键词所属的目标关键词聚类;类别确定 装置12持续根据所述目标关键词聚类,确定所述目标关键词所对应的 搜索相关性类别,以用于后续处理。在此,本领域技术人员应当理解 “持续”是指类别确定设备1的各个装置分别不断地进行目标关键词 聚类的确定及搜索相关性类别的确定,直至类别确定设备1在较长时 间内停止目标关键词聚类的确定。

优选地,所述关键词聚类包含用于表征所述关键词聚类的类搜索排 序路径信息,聚类确定装置11包括比较单元(未示出)、相似度确定单 元(未示出)和聚类确定单元(未示出)。以下参考图1对该优选实施 例进行描述:比较单元将所述目标关键词的搜索排序路径信息与所述一 个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确 定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的 最小编辑距离;相似度确定单元根据所述最小编辑距离,确定所述目标 关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路径相 似度;聚类确定单元根据所述排序路径相似度,确定所述目标关键词聚 类。

具体地,比较单元首先根据预定规则,对多个样本关键词进行聚类 处理,如采用k-means、ISODATA、链状方法等非监督学习方法,以获 得所述一个或多个关键词聚类确定所述一个或多个关键词聚类。在此, 比较单元获得所述一个或多个关键词聚类的方式与聚类确定装置11获 得所述一个或多个关键词聚类的方式相同或相似,为简明起见,故在此 不再赘述,并以引用的方式包含与此。

然后,比较单元将所述目标关键词的搜索排序路径信息与所述一个 或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以确定 所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息的最 小编辑距离。例如,假设比较单元获取的目标关键词goal-query的搜索 排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,而比较单元确定 所述一个或多个关键词聚类如上述表2所示,则比较单元将目标关键词 goal-query的搜索排序路径信息S_A→S_C→S_D→S_B→S_E→S_G进 行序列化得到字符串goal-string=“ACDBEG”,同样将关键词聚类cluster1 至cluster3所对应的所述类搜索排序路径信息进行序列化得到对应字符 串如cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”, cluster3-string=“MNCBGD”,然后,比较单元通过诸如动态规划、矩阵 法等最小编辑距离算法,分别计算目标关键词goal-query的搜索排序路 径信息所对应的字符串goal-string=“ACDBEG”与关键词聚类cluster1 至cluster3各自对应的所述类搜索排序路径信息所对应的字符串如 cluster1-string=“ACDEGF”,cluster2-string=“AEGSDB”,cluster3-string= “MNCBGD”的最小编辑距离,如得到目标关键词goal-query与关键词 聚类cluster1至cluster3所对的最小编辑距离分别为:2、6和6。

本领域技术人员应能理解上述确定所述最小编辑距离的方式仅为 举例,其他现有的或今后可能出现的确定所述最小编辑距离的方式如 可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方 式包含于此。

相似度确定单元根据所述最小编辑距离,确定所述目标关键词的搜 索排序路径信息与所述类搜索排序路径信息的排序路径相似度。例如, 接上例,相似度确定单元根据比较单元确定的所述最小编辑距离,通过 以下公式(1)来确定所述排序路径相似度:

r=1d+1---(1)

其中,d为最小编辑距离,则相似度确定单元根据上述公式(1)确定目 标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至 cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1/3、 1/7和1/7。

优选地,相似度确定单元根据比较单元确定的所述最小编辑距离, 通过以下公式(2)来确定所述排序路径相似度:

r=α×ld+1---(2)

其中,α为归一化系数,为类搜索排序路径信息所对应字符串的平均字 符串长度,d为最小编辑距离,其中,归一化系数α可通过如下公式(3) 进行计算:

α=x-xminxmax-xmin---(3)

其中,x表示类搜索排序路径信息所对应字符串在测试过程中的统计长 度,若α=0.5,而关键词聚类cluster1至cluster3各自对应的类搜索排序 路径信息所对应字符串的平均字符串长度为6,则相似度确定单元根据 上述公式(2)可确定目标关键词goal-query的搜索排序路径信息分别与 关键词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路 径相似度分别为:1、3/7和3/7。

本领域技术人员应能理解上述确定所述排序路径相似度的方式仅 为举例,其他现有的或今后可能出现的确定所述排序路径相似度的方 式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引 用方式包含于此。

聚类确定单元根据所述排序路径相似度,确定所述目标关键词聚 类,如确定所述目标关键词所属的所述目标关键词聚类为所述排序路径 相似度满足预定阈值如0.8所对应的关键词聚类。例如,接上例,相似 度确定单元确定目标关键词goal-query的搜索排序路径信息分别与关键 词聚类cluster1至cluster3各自的所述类搜索排序路径信息的排序路径相 似度分别为:1、3/7和3/7,则聚类确定单元确定目标关键词goal-query 所属的所述目标关键词聚类为cluster1。

优选地,聚类确定装置11还可首先获取待处理的一个或多个待 测关键词,以作为所述目标关键词;然后,根据所述目标关键词的搜 索排序路径信息,从一个或多个关键词聚类中确定所述目标关键词所 属的目标关键词聚类;类别确定装置12还可首先根据所述目标关键 词聚类,确定所述目标关键词所对应的搜索相关性类别;然后,根据 所述搜索相关性类别,对所述目标关键词进行筛选处理。

具体地,聚类确定装置11还可首先通过诸如搜索引擎、浏览器、 提供待测关键词设备等第三方设备的应用程序接口(API),获取待处 理的一个或多个待测关键词,以作为所述目标关键词;然后,根据所 述目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定 所述目标关键词所属的目标关键词聚类。在此,聚类确定装置11确 定所述目标关键词所属的目标关键词聚类的方式与前述聚类确定装 置11定所述目标关键词所属的目标关键词聚类的方式相同或相似, 为简明起见,故在此不再赘述,并以引用的方式包含与此。

接着,类别确定装置12还可首先根据所述目标关键词聚类,确 定所述目标关键词所对应的搜索相关性类别。在此,类别确定装置12 确定所述目标关键词所对应的搜索相关性类别的方式与前述类别确 定装置12确定所述目标关键词所对应的搜索相关性类别的方式相同 或相似,为简明起见,故在此不再赘述,并以引用的方式包含与此。

然后,类别确定装置12根据所述搜索相关性类别,对所述目标 关键词进行筛选处理。例如,假设聚类确定装置11获取的所述目标 关键词包括如query1、query2、query3和query4,而类别确定装置12 确定该目标关键词query1、query2、query3和query4对应的所述搜索 相关性类别分别为相关性高、相关性中、相关性低、相关性高,则类 别确定装置12根据目标关键词query1、query2、query3和query4各 自对应的所述搜索相关性类别,对其进行筛选处理,如将属于相关性 低类别的关键词query3从待测关键词集合中筛选出来,以对其进行后 期搜索排序信息优化。

优选地,类别确定设备1还包括集合确定装置(未示出)和优化 路径确定装置(未示出)。具体地,集合确定装置确定所述关键词聚 类所对应的待优化关键词集合;优化路径确定装置根据所述待优化关 键词集合包括的一个或多个待优化关键词所对应的公共搜索排序路 径信息,确定所述一个或多个待优化关键词的优化搜索排序路径信 息,以用于调整所述一个或多个待优化关键词的搜索排序路径信息。

具体地,集合确定装置可根据关键词聚类包括的所有关键词的搜 索相关性描述信息,如搜索相关性高、搜索相关性低等,找出搜索相关 性低的类别,以作为所述关键词聚类所对应的待优化关键词集合。在 此,所述待优化关键词集合对应于属于搜索相关性低类别的关键词。 例如,假设关键词聚类cluster1中属于搜索相关性低类别的关键词为样 本关键词III,关键词聚类cluster2中属于搜索相关性低类别的关键词为 样本关键词IV和VI,关键词聚类cluster3中没有属于搜索相关性低类别 的关键词,则集合确定装置可将关键词聚类cluster1至cluster3中包括的 所有属于搜索相关性低类别的关键词作为所述待优化关键词集合,如包 括样本关键词III、IV和VI。

优选地,集合确定装置还可将所述关键词聚类所包括的所有关键 词的实际搜索结果相关信息与系统指标信息进行比较,从所述所有关 键词中确定所述待优化关键词集合。在此,所述实际搜索结果相关信 息包括但不限于如返回搜索结果数量、获得点击量、返回站点的权威 性、返回站点的页面内容的质量度等。在此,所述系统指标信息包括 如返回搜索结果数量、返回站点的权威性等。例如,集合确定装置可将 聚类确定装置11确定的所述关键词聚类cluster1至cluster3所包括的所 有关键词即样本关键词I至VI的实际搜索结果相关信息与系统指标 信息进行比较,从所述所有关键词中确定所述待优化关键词集合,如 将样本关键词I至VI的实际搜索结果相关信息不满足系统指标信息的 关键词,作为所述待优化关键词集合。

本领域技术人员应能理解上述确定所述待优化关键词集合的方 式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集 合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在 此以引用方式包含于此。

接着,优化路径确定装置根据所述待优化关键词集合包括的一个 或多个待优化关键词所对应的公共搜索排序路径信息,确定所述一个 或多个待优化关键词的优化搜索排序路径信息,以用于调整所述一个 或多个待优化关键词的搜索排序路径信息。例如,接上例,集合确定 装置确定的所述待优化关键词集合包括样本关键词III、IV和VI,则优 化路径确定装置可根据样本关键词III、IV和VI所对应的公共搜索排序 路径信息如S_C→S_D→S-G,作为所述优化搜索排序路径信息,以 用于调整所述一个或多个待优化关键词的搜索排序路径信息,如删除 样本关键词III、IV和VI的搜索排序路径信息中包括的该优化搜索排序 路径信息,或者,将样本关键词III、IV和VI的搜索排序路径信息中包 括的该优化搜索排序路径信息被其他搜索排序路径信息如搜索相关 性高类别的关键词所对应的公共搜索排序路径信息代替。

优选地,可将上述用于确定目标关键词所对应的搜索相关性类别 的类别确定设备1,与现有搜索引擎相结合,构成一种新的搜索引擎, 现有的搜索引擎包括但不限于如Google公司的Google搜索引擎、百 度公司的baidu搜索引擎等。

优选地,可将上述用于确定目标关键词所对应的搜索相关性类别 的类别确定设备1,与现有搜索引擎插件相结合,构成一种新的搜索引 擎插件,现有的包括但不限于如Google公司的Google ToolBar、百度 公司的百度搜霸、微软公司的MSN ToolBar等搜索引擎插件。

图2示出根据本发明一个优选实施例的用于确定目标关键词所对 应的搜索相关性类别的设备示意图,其中,类别确定设备1包括聚类 确定装置11’、类别确定装置12’、优选路径确定装置13’、调整装置14’ 和提供装置15’。具体地,聚类确定装置11’根据目标关键词的搜索排序 路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目标 关键词聚类;类别确定装置12’根据所述目标关键词聚类,确定所述目 标关键词所对应的搜索相关性类别,以用于后续处理;优选路径确定装 置13’确定所述目标关键词所对应的优选搜索排序路径信息;调整装 置14’根据所述优选搜索排序路径信息,调整所述目标关键词的搜索 排序路径信息;若查询序列与所述目标关键词相匹配,提供装置15’ 按照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列 所对应的搜索结果提供给所述查询序列所对应的用户。在此,聚类确 定装置11’、类别确定装置12’分别与图1所示对应装置相同或相似, 故此处不再赘述,并通过引用的方式包含于此。

具体地,优选路径确定装置13’确定所述目标关键词所对应的优 选搜索排序路径信息。在此,优选路径确定装置13’确定所述优选搜 索排序路径信息的方式包括但不限于以下至少任一项:

1)将所述目标关键词聚类所包括的各个参考关键词所对应的公 共搜索排序路径信息,作为所述优选搜索排序路径信息。例如,假设 聚类确定装置11’确定目标关键词goal-query所属的目标关键词聚类为 关键词聚类cluster1,则优选路径确定装置13’可将cluster1所包括的各 个参考关键词即样本关键词I、III和VI所对应的公共搜索排序路径信 息如S_A→S_C→S_D→S_E→S_G,作为所述优选搜索排序路径信息。

2)对所述目标关键词聚类所包括的各个参考关键词所对应的搜 索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信 息,如统计得出关键词走过的搜索排序路径频次信息,将频次满足预定 阈值的路径,或者将高频搜索排序路径作为所述优选搜索排序路径信 息。例如,接上例,优选路径确定装置13’可将cluster1所包括的各个 参考关键词即样本关键词I、III和VI所对应的搜索排序路径信息进行 统计分析处理,将频次满足预定阈值如出现频次满足2的搜索排序路径 如S_A→S_C→S_D→S_E→S_G→S_F,作为所述优选搜索排序路径信 息。

本领域技术人员应能理解上述确定所述优选搜索排序路径信息 的方式仅为举例,其他现有的或今后可能出现的确定所述优选搜索排 序路径信息的方式如可适用于本发明,也应包含在本发明保护范围以 内,并在此以引用方式包含于此。

调整装置14’根据所述优选搜索排序路径信息,调整所述目标关 键词的搜索排序路径信息。例如,假设优选路径确定装置13’确定的 所述优选搜索排序路径信息为S_A→S_C→S_D→S_E→S_G,则调整 装置14’根据该优选搜索排序路径信息,通过诸如调整算法或者机器 学习模型如SVM模型,调整目标关键词goal-query的搜索排序路径信 息,如将目标关键词goal-query的搜索排序路径信息调整为优先执行所 述优选搜索排序路径信息S_A→S_C→S_D→S_E→S_G。

本领域技术人员应能理解上述确定所述待优化关键词集合的方 式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集 合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在 此以引用方式包含于此。

若查询序列与所述目标关键词相匹配,提供装置15’按照调整后 的所述目标关键词的搜索排序路径信息,将所述查询序列所对应的搜 索结果提供给所述查询序列所对应的用户。具体地,提供装置15’首 先获取查询序列;然后,判断所述查询序列与所述目标关键词是否相 匹配,若匹配,提供装置15’按照调整后的所述目标关键词的搜索排 序路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列 所对应的用户。在此,所述匹配的含义包括查询序列与所述目标关键 词完全一致、查询序列包含于所述目标关键词。

具体地,提供装置15’首先通过ASP、JSP等动态网页技术,或 者通过搜索引擎提供的应用程序接口(API),获取用户通过用户设备 输入的查询序列。例如,若搜索用户B通过其PC设备在搜索引擎搜 索栏中输入关键词“鲜花”,按Enter键,提供装置15’通过诸如ASP、 JSP或PHP等动态网页技术,便可获取到搜索用户B输入的关键词“鲜 花”。本领域技术人员应理解上述获取查询序列的方式仅为举例,其 他现有的或今后可能出现的获取查询序列的方式如可适用于本发明, 也应包含在本发明保护范围以内,并在此以引用方式包含于此。

然后,提供装置15’根据聚类确定装置11’获取的所述目标关键 词,通过文本比较的方式,判断所述查询序列与所述目标关键词是否 相匹配。

若匹配,提供装置15’按照调整后的所述目标关键词的搜索排序 路径信息,将所述查询序列所对应的搜索结果提供给所述查询序列所 对应的用户。例如,接上例,假设聚类确定装置11’获取的所述目标 关键词如“鲜花”、“鲜花速递”等,则提供装置15’判断查询序列“鲜 花”与目标关键词如“鲜花”、“鲜花速递”相匹配,然后,提供装置 15’将搜索引擎按照调整后的该目标关键词的搜索排序路径信息所对 应的搜索结果如“鲜花吧百度贴吧”、“鲜花图片素材天下网”,作为 查询序列“鲜花”所对应的搜索结果,并通过诸如ASP、JSP或PHP 等动态网页技术,或者其他约定的通信方式,如http或https等通信 协议,提供给所述查询序列所对应的用户即用户B,如该用户的用户 设备,供用户浏览。

图3示出根据本发明另一个方面的用于确定目标关键词所对应的 搜索相关性类别的方法流程图。

具体地,在步骤S1中,类别确定设备1根据目标关键词的搜索排 序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目 标关键词聚类;在步骤S2中,类别确定设备1根据所述目标关键词聚 类,确定所述目标关键词所对应的搜索相关性类别,以用于后续处理。 在此,所述搜索相关性的含义是指关键词与搜索结果的匹配程度。在此, 类别确定设备1包括但不限于网络设备、用户设备或网络设备与用户 设备通过网络相集成所构成的设备。其中,所述网络设备包括但不限 于网络主机、单个网络服务器、多个网络服务器集或多个服务器构成 的云。在此,云由基于云计算(Cloud Computing)的大量主机或网络 服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的 计算机集组成的一个超级虚拟计算机。所述用户设备其包括但不限于 任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机 交互的电子产品,例如计算机、智能手机、PDA或IPTV等。所述网 络包括但不限于互联网、广域网、城域网、局域网、VPN网络、无线 自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述类别确 定设备1仅为举例,其他现有的或今后可能出现的网络设备或用户设 备如可适用于本发明,也应包含在本发明保护范围以内,并在此以引 用方式包含于此。

具体地,在步骤S1中,类别确定设备1首先根据预定规则,对多 个样本关键词进行聚类处理,以获得一个或多个关键词聚类;再根据目 标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目 标关键词所属的目标关键词聚类。在此,所述搜索排序的含义是指搜索 引擎对用户输入关键词的理解和需求进行分析,运用一定算法,在预定 提取的网页数据库中挑选出与用户输入关键词相匹配的网页,并将其提 供给用户,其包括但不限于如主题匹配度结果选取排序、好结果提权排 序、作弊点击打压、飘红词选取排序、题目/摘要组装排序等,其中,所 述结果提权排序可包括诸多子排序,如:网页站点权威性提权、官网提 权、页面丰富度提权、点击提权等。在此,所述搜索引擎包括但不限于 如Google公司的Google搜索引擎、百度公司的baidu搜索引擎等, 以及如Google公司的Google ToolBar、百度公司的百度搜霸、微软 公司的MSN ToolBar等搜索引擎插件。在此,所述搜索排序路径信息 用于表明搜索引擎在确定候选搜索结果排序信息过程中所经过的排 序算法代码路径信息,可运用搜索排序路径标识(Strategy Identifier, SID)和分支标识(Branch Identifier,BID)来表示,其中,分支标识 从属于搜索排序路径标识,在对搜索排序进行细粒度的标识时可被运 用。本领域技术人员应能理解上述搜索排序、搜索引擎和搜索排序路 径信息仅为举例,其他现有的或今后可能出现的搜索排序或搜索引擎 或搜索排序路径信息如可适用于本发明,也应包含在本发明保护范围 以内,并在此以引用方式包含于此。

具体地,在步骤S1中,类别确定设备1首先根据预定规则,对多 个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等 非监督学习方法,以获得所述一个或多个关键词聚类。其中,所述预定 规则包括但不限于以下至少任一项:

-根据所述多个样本关键词各自对应的搜索排序路径信息,对所 述多个样本关键词进行聚类处理,以获得所述一个或多个关键词聚 类;

-根据所述多个样本关键词各自对应的搜索用户的历史搜索记 录信息,对所述多个样本关键词进行聚类处理,以获得所述一个或多 个关键词聚类;

-根据所述多个样本关键词各自在满足预定质量度阈值的页面 内容信息中的统计信息,对所述多个样本关键词进行聚类处理,以获 得所述一个或多个关键词聚类。

例如,当所述预定规则包括根据所述多个样本关键词各自对应的 搜索排序路径信息,对所述多个样本关键词进行聚类处理,以获得所 述一个或多个关键词聚类时,假设多个样本关键词如样本关键词I至 VI,其各自对应的搜索排序路径信息如下表3所示,其中,S_*表示关 键词搜索请求处理经过的搜索排序路径的搜索排序路径标识或分支标 识:

样本关键词 搜索排序路径信息 I S_A→S_C→S_D→S_B→S_E→S_G II S_A→S_E→S_G→S_C→S_D→S_B III S_A→S_F→S_C→S_D→S_E→S_G IV S_A→S_C→S_D→S_F→S_E→S_G V S_A→S_E→S_G→S_C→S_B→S_D VI S_M→S_N→S_C→S_B→S_G→S_D

表3

则在步骤S1中,类别确定设备1根据样本关键词I至VI各自对应的搜 索排序路径信息,采用k-means、ISODATA、链状方法等非监督学习方 法,对样本关键词I至VI进行聚类处理,得到一个或多个关键词聚类如: ①.第一关键词聚类cluster1,如将样本关键词I、III和VI归为一类;②. 第二关键词聚类cluster2,如将关键词II和V归为一类;③.第三关键词 聚类cluster3,如将样本关键词VI归为一类;再如,当所述预定规则包括 根据所述多个样本关键词各自在满足预定质量度阈值的页面内容信 息中的统计信息,对所述多个样本关键词进行聚类处理,以获得所述 一个或多个关键词聚类时,则在步骤S1中,类别确定设备1根据样本 关键词I至VI各自在满足预定质量度阈值的页面内容信息中的统计信 息,如样本关键词I至VI各自在满足预定质量度阈值的页面内容信息 如属于高度可信任站点页面如http://www.sina.com.cn/中出现的频次 信息,采用k-means、ISODATA、链状方法等非监督学习方法,对样本 关键词I至VI进行聚类处理,得到一个或多个关键词聚类如:①.第一 关键词聚类cluster1,如将样本关键词I、II和III归为一类;②.第二关 键词聚类cluster2,如将样本关键词IV和VI归为一类;③.第三关键词聚 类cluster3,如将样本关键词V归为一类。

本领域技术人员应能理解上述对所述多个样本关键词进行聚类 处理的方式仅为举例,其他现有的或今后可能出现的对所述多个样本 关键词进行聚类处理的方式如可适用于本发明,也应包含在本发明保 护范围以内,并在此以引用方式包含于此。

接着,在步骤S1中,类别确定设备1再根据目标关键词的搜索排 序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目 标关键词聚类。具体地,在步骤S1中,类别确定设备1首先通过诸如 搜索引擎、浏览器、提供目标关键词设备等第三方设备的应用程序接口 (API),获取目标关键词,或者,通过ASP、JSP等动态网页技术,获 取用户通过用户设备输入的目标关键词;然后,聚类确定装置11再根 据目标关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所 述目标关键词所属的目标关键词聚类。

例如,假设测试员A在评估搜索引擎相关性测试过程中,在测试平 台关键词输入栏输入目标关键词goal-query,则在步骤S1中,类别确定 设备1通过ASP、JSP等动态网页技术,便可获取到测试员A通过用户 设备输入的目标关键词goal-query。

本领域技术人员应能理解上述获取目标关键词的方式仅为举例, 其他现有的或今后可能出现的获取目标关键词的方式如可适用于本 发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

最后,在步骤S1中,类别确定设备1再根据目标关键词的搜索排 序路径信息,从一个或多个关键词聚类中确定所述目标关键词所属的目 标关键词聚类。在此,在步骤S1中,类别确定设备1确定所述目标关 键词聚类的方法包括但不限于以下至少任一项:

1)将所述目标关键词的搜索排序路径信息与所述关键词聚类的类 搜索排序路径信息进行比较,以确定所述目标关键词所属的目标关键 词聚类。例如,假设在步骤S1中,类别确定设备1对如表3所示的样 本关键词I至VI进行聚类处理后,得到的每一关键词聚类及表征所述关 键词聚类的类搜索排序路径信息如下表4所示:

关键词聚类 类搜索排序路径信息 cluster1 S_A→S_C→S_D→S_E→S_G→S_F cluster2 S_A→S_E→S_G→S_C→S_D→S_B cluster3 S_M→S_N→S_C→S_B→S_G→S_D

表4

假设在步骤S1中,类别确定设备1获取的目标关键词goal-query的搜索 排序路径信息为S_A→S_C→S_D→S_B→S_E→S_G,其与第一关键词 聚类cluster1的类搜索排序路径信息中顺序及搜索排序路径标识均相 同的路径信息最多,则在步骤S1中,类别确定设备1确定目标关键词 goal-query所属的目标关键词聚类为第一关键词聚类cluster1。

2)将所述目标关键词的搜索排序路径信息与所述关键词聚类中包 括的参考关键词的搜索排序路径信息进行比较,以确定所述目标关键词 所属的目标关键词聚类。例如,假设在步骤S1中,类别确定设备1获 取的目标关键词goal-query的搜索排序路径信息为 S_A→S_C→S_D→S_B→S_E→S_G,与第一关键词聚类cluster1中的关 键词I的搜索排序路径信息相同,则在步骤S1中,类别确定设备1确 定目标关键词goal-query所属的目标关键词聚类为第一关键词聚类 cluster1。

本领域技术人员应能理解上述确定所述目标关键词所属的目标关 键词聚类的方式仅为举例,其他现有的或今后可能出现的确定所述目 标关键词所属的目标关键词聚类的方式如可适用于本发明,也应包含 在本发明保护范围以内,并在此以引用方式包含于此。

在步骤S2中,类别确定设备1可首先统计所述目标关键词聚类所 包括的各个参考关键词所对应的搜索相关性描述信息,确定目标关键 词聚类所对应的搜索相关性类别;然后,再根据所述目标关键词聚类所 对应的搜索相关性类别,确定所述目标关键词所对应的搜索相关性类 别,以用于后续处理。在此,所述搜索相关性类别包括但不限于如较高 相关性类别、较低相关性类别、不相关类别、作弊关键词类别等。在此, 所述后续处理包括但不限于如:1)对目标关键词进行筛选处理,如是 否作为测试数据等;2)优化目标关键词的搜索排序信息。本领域技术 人员应能理解上述搜索相关性类别和后续处理方式仅为举例,其他现 有的或今后可能出现的搜索相关性类别或后续处理方式如可适用于本 发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。

例如,假设在步骤S1中,类别确定设备1确定目标关键词 goal-query所属的目标关键词聚类为第一关键词聚类cluster1,而关键词 聚类cluster1所包括的样本关键词I、II和III的所对应的搜索相关性描 述信息分别为相关性高、相关性高、相关性低,由于相关性高的相关 性描述信息占相关性描述信息总数量的比值满足大于阈值如0.65,则 在步骤S2中,类别确定设备1确定目标关键词goal-query所对应的搜 索相关性类别为相关性高类别。再如,假设在步骤S1中,类别确定设 备1确定目标关键词goal-query所属的目标关键词聚类为第一关键词聚 类cluster2,而关键词聚类cluster2所包括的样本关键词IV和VI的所对应 的搜索相关性描述信息分别为相关性低、相关性低,由于相关性低的 相关性描述信息占相关性描述信息总数量的比值满足大于阈值如 0.65,则在步骤S2中,类别确定设备1确定目标关键词goal-query所 对应的搜索相关性类别为相关性低类别。

本领域技术人员应能理解上述确定所述目标关键词所对应的搜索 相关性类别的方式仅为举例,其他现有的或今后可能出现的确定所述 目标关键词所对应的搜索相关性类别的方式如可适用于本发明,也应 包含在本发明保护范围以内,并在此以引用方式包含于此。

类别确定设备1的各个步骤之间是持续不断工作的。具体地,在 步骤S1中,类别确定设备1持续根据目标关键词的搜索排序路径信息, 从一个或多个关键词聚类中确定所述目标关键词所属的目标关键词聚 类;在步骤S2中,类别确定设备1持续根据所述目标关键词聚类,确 定所述目标关键词所对应的搜索相关性类别,以用于后续处理。在此, 本领域技术人员应当理解“持续”是指类别确定设备1的各个步骤分 别不断地进行目标关键词聚类的确定及搜索相关性类别的确定,直至 类别确定设备1在较长时间内停止目标关键词聚类的确定。

优选地,所述关键词聚类包含用于表征所述关键词聚类的类搜索排 序路径信息,步骤S1包括步骤S11(未示出)、步骤S12(未示出)和 步骤S13(未示出)。以下参考图3对该优选实施例进行描述:在步骤 S11中,类别确定设备1将所述目标关键词的搜索排序路径信息与所述 一个或多个关键词聚类所对应的所述类搜索排序路径信息进行比较,以 确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信息 的最小编辑距离;在步骤S12中,类别确定设备1根据所述最小编辑距 离,确定所述目标关键词的搜索排序路径信息与所述类搜索排序路径信 息的排序路径相似度;在步骤S13中,类别确定设备1根据所述排序路 径相似度,确定所述目标关键词聚类。

具体地,在步骤S11中,类别确定设备1首先根据预定规则,对多 个样本关键词进行聚类处理,如采用k-means、ISODATA、链状方法等 非监督学习方法,以获得所述一个或多个关键词聚类确定所述一个或多 个关键词聚类。在此,在步骤S11中,类别确定设备1获得所述一个或 多个关键词聚类的方式与在步骤S1中,类别确定设备1获得所述一个 或多个关键词聚类的方式相同或相似,为简明起见,故在此不再赘述, 并以引用的方式包含与此。

然后,在步骤S11中,类别确定设备1将所述目标关键词的搜索排 序路径信息与所述一个或多个关键词聚类所对应的所述类搜索排序路 径信息进行比较,以确定所述目标关键词的搜索排序路径信息与所述类 搜索排序路径信息的最小编辑距离。例如,假设在步骤S11中,类别确 定设备1获取的目标关键词goal-query的搜索排序路径信息为S_A→S_C →S_D→S_B→S_E→S_G,而在步骤S11中,类别确定设备1确定所述 一个或多个关键词聚类如上述表2所示,则在步骤S11中,类别确定设 备1将目标关键词goal-query的搜索排序路径信息S_A→S_C→S_D→ S_B→S_E→S_G进行序列化得到字符串goal-string=“ACDBEG”,同样 将关键词聚类cluster1至cluster3所对应的所述类搜索排序路径信息进行 序列化得到对应字符串如cluster1-string=“ACDEGF”,cluster2-string= “AEGSDB”,cluster3-string=“MNCBGD”,然后,在步骤S11中,类 别确定设备1通过诸如动态规划、矩阵法等最小编辑距离算法,分别计 算目标关键词goal-query的搜索排序路径信息所对应的字符串 goal-string=“ACDBEG”与关键词聚类cluster1至cluster3各自对应的所 述类搜索排序路径信息所对应的字符串如cluster1-string=“ACDEGF”, cluster2-string=“AEGSDB”,cluster3-string=“MNCBGD”的最小编辑 距离,如得到目标关键词goal-query与关键词聚类cluster1至cluster3所 对的最小编辑距离分别为:2、6和6。

本领域技术人员应能理解上述确定所述最小编辑距离的方式仅为 举例,其他现有的或今后可能出现的确定所述最小编辑距离的方式如 可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方 式包含于此。

在步骤S12中,类别确定设备1根据所述最小编辑距离,确定所述 目标关键词的搜索排序路径信息与所述类搜索排序路径信息的排序路 径相似度。例如,接上例,在步骤S12中,类别确定设备1根据比较单 元确定的所述最小编辑距离,通过以下公式(4)来确定所述排序路径 相似度:

r=1d+1---(4)

其中,d为最小编辑距离,则相似度确定单元根据上述公式(4)确定目 标关键词goal-query的搜索排序路径信息分别与关键词聚类cluster1至 cluster3各自的所述类搜索排序路径信息的排序路径相似度分别为:1/3、 1/7和1/7。

优选地,在步骤S12中,类别确定设备1根据比较单元确定的所述 最小编辑距离,通过以下公式(5)来确定所述排序路径相似度:

r=α×ld+1---(5)

其中,α为归一化系数,为类搜索排序路径信息所对应字符串的平均字 符串长度,d为最小编辑距离,其中,归一化系数α可通过如下公式(6) 进行计算:

α=x-xminxmax-xmin---(6)

其中,x表示类搜索排序路径信息所对应字符串在测试过程中的统计长 度,若α=0.5,而关键词聚类cluster1至cluster3各自对应的类搜索排序 路径信息所对应字符串的平均字符串长度为6,则在步骤S12中,类别 确定设备1根据上述公式(5)可确定目标关键词goal-query的搜索排序 路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜索排序路 径信息的排序路径相似度分别为:1、3/7和3/7。

本领域技术人员应能理解上述确定所述排序路径相似度的方式仅 为举例,其他现有的或今后可能出现的确定所述排序路径相似度的方 式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引 用方式包含于此。

在步骤S13中,类别确定设备1根据所述排序路径相似度,确定所 述目标关键词聚类,如确定所述目标关键词所属的所述目标关键词聚类 为所述排序路径相似度满足预定阈值如0.8所对应的关键词聚类。例如, 接上例,在步骤S12中,类别确定设备1确定目标关键词goal-query的 搜索排序路径信息分别与关键词聚类cluster1至cluster3各自的所述类搜 索排序路径信息的排序路径相似度分别为:1、3/7和3/7,则在步骤S13 中,类别确定设备1确定目标关键词goal-query所属的所述目标关键词 聚类为cluster1。

优选地,在步骤S1中,类别确定设备1还可首先获取待处理的一 个或多个待测关键词,以作为所述目标关键词;然后,根据所述目标 关键词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目 标关键词所属的目标关键词聚类;在步骤S2中,类别确定设备1还可 首先根据所述目标关键词聚类,确定所述目标关键词所对应的搜索相 关性类别;然后,根据所述搜索相关性类别,对所述目标关键词进行 筛选处理。

具体地,在步骤S1中,类别确定设备1还可首先通过诸如搜索引 擎、浏览器、提供待测关键词设备等第三方设备的应用程序接口 (API),获取待处理的一个或多个待测关键词,以作为所述目标关键 词;然后,根据所述目标关键词的搜索排序路径信息,从一个或多个 关键词聚类中确定所述目标关键词所属的目标关键词聚类。在此,在 步骤S1中,类别确定设备1确定所述目标关键词所属的目标关键词聚 类的方式与前述在步骤S1中,类别确定设备1定所述目标关键词所属 的目标关键词聚类的方式相同或相似,为简明起见,故在此不再赘述, 并以引用的方式包含与此。

接着,在步骤S2中,类别确定设备1还可首先根据所述目标关键 词聚类,确定所述目标关键词所对应的搜索相关性类别。在此,在步 骤S2中,类别确定设备1确定所述目标关键词所对应的搜索相关性类 别的方式与前述在步骤S2中,类别确定设备1确定所述目标关键词所 对应的搜索相关性类别的方式相同或相似,为简明起见,故在此不再 赘述,并以引用的方式包含与此。

然后,在步骤S2中,类别确定设备1根据所述搜索相关性类别, 对所述目标关键词进行筛选处理。例如,假设在步骤S 1中,类别确定 设备1获取的所述目标关键词包括如query1、query2、query3和query4, 而在步骤S2中,类别确定设备1确定该目标关键词query1、query2、 query3和query4对应的所述搜索相关性类别分别为相关性高、相关 性中、相关性低、相关性高,则在步骤S2中,类别确定设备1根据目 标关键词query1、query2、query3和query4各自对应的所述搜索相关 性类别,对其进行筛选处理,如将属于相关性低类别的关键词query3 从待测关键词集合中筛选出来,以对其进行后期搜索排序信息优化。

优选地,类别确定设备1还包括步骤S6(未示出)和步骤S7(未 示出)。具体地,在步骤S6中,类别确定设备1确定所述关键词聚类 所对应的待优化关键词集合;在步骤S7中,类别确定设备1根据所述 待优化关键词集合包括的一个或多个待优化关键词所对应的公共搜 索排序路径信息,确定所述一个或多个待优化关键词的优化搜索排序 路径信息,以用于调整所述一个或多个待优化关键词的搜索排序路径 信息。

具体地,在步骤S6中,类别确定设备1可根据关键词聚类包括的 所有关键词的搜索相关性描述信息,如搜索相关性高、搜索相关性低等, 找出搜索相关性低的类别,以作为所述关键词聚类所对应的待优化关 键词集合。在此,所述待优化关键词集合对应于属于搜索相关性低类 别的关键词。例如,假设关键词聚类cluster1中属于搜索相关性低类别 的关键词为样本关键词III,关键词聚类cluster2中属于搜索相关性低类 别的关键词为样本关键词IV和VI,关键词聚类cluster3中没有属于搜索 相关性低类别的关键词,则在步骤S6中,类别确定设备1可将关键词 聚类cluster1至cluster3中包括的所有属于搜索相关性低类别的关键词作 为所述待优化关键词集合,如包括样本关键词III、IV和VI。

优选地,在步骤S6中,类别确定设备1还可将所述关键词聚类所 包括的所有关键词的实际搜索结果相关信息与系统指标信息进行比 较,从所述所有关键词中确定所述待优化关键词集合。在此,所述实 际搜索结果相关信息包括但不限于如返回搜索结果数量、获得点击 量、返回站点的权威性、返回站点的页面内容的质量度等。在此,所 述系统指标信息包括如返回搜索结果数量、返回站点的权威性等。例如, 在步骤S6中,类别确定设备1可将其在步骤S1中确定的所述关键词聚 类cluster1至cluster3所包括的所有关键词即样本关键词I至VI的实际 搜索结果相关信息与系统指标信息进行比较,从所述所有关键词中确 定所述待优化关键词集合,如将样本关键词I至VI的实际搜索结果相 关信息不满足系统指标信息的关键词,作为所述待优化关键词集合。

本领域技术人员应能理解上述确定所述待优化关键词集合的方 式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集 合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在 此以引用方式包含于此。

接着,在步骤S7中,类别确定设备1根据所述待优化关键词集合 包括的一个或多个待优化关键词所对应的公共搜索排序路径信息,确 定所述一个或多个待优化关键词的优化搜索排序路径信息,以用于调 整所述一个或多个待优化关键词的搜索排序路径信息。例如,接上例, 在步骤S6中,类别确定设备1确定的所述待优化关键词集合包括样本 关键词III、IV和VI,则在步骤S7中,类别确定设备1可根据样本关键 词III、IV和VI所对应的公共搜索排序路径信息如S_C→S_D→S-G,作 为所述优化搜索排序路径信息,以用于调整所述一个或多个待优化关 键词的搜索排序路径信息,如删除样本关键词III、IV和VI的搜索排序 路径信息中包括的该优化搜索排序路径信息,或者,将样本关键词III、 IV和VI的搜索排序路径信息中包括的该优化搜索排序路径信息被其 他搜索排序路径信息如搜索相关性高类别的关键词所对应的公共搜 索排序路径信息代替。

图4示出根据本发明一个优选实施例的用于确定目标关键词所对 应的搜索相关性类别的方法流程图。

其中,类别确定设备1包括步骤S1’、步骤S2’、步骤S3’、步骤 S4’和步骤S5’。具体地,在步骤S1’中,类别确定设备1根据目标关键 词的搜索排序路径信息,从一个或多个关键词聚类中确定所述目标关键 词所属的目标关键词聚类;在步骤S2’中,类别确定设备1根据所述目 标关键词聚类,确定所述目标关键词所对应的搜索相关性类别,以用于 后续处理;在步骤S3’中,类别确定设备1确定所述目标关键词所对应 的优选搜索排序路径信息;在步骤S4’中,类别确定设备1根据所述优 选搜索排序路径信息,调整所述目标关键词的搜索排序路径信息;若 查询序列与所述目标关键词相匹配,在步骤S5’中,类别确定设备1按 照调整后的所述目标关键词的搜索排序路径信息,将所述查询序列所 对应的搜索结果提供给所述查询序列所对应的用户。在此,步骤S1’ 和步骤S2’分别与图3所示对应步骤相同或相似,故此处不再赘述,并 通过引用的方式包含于此。

具体地,在步骤S3’中,类别确定设备1确定所述目标关键词所对 应的优选搜索排序路径信息。在此,在步骤S3’中,类别确定设备1所 述优选搜索排序路径信息的方式包括但不限于以下至少任一项:

1)将所述目标关键词聚类所包括的各个参考关键词所对应的公 共搜索排序路径信息,作为所述优选搜索排序路径信息。例如,假设 在步骤S1’中,类别确定设备1确定目标关键词goal-query所属的目标 关键词聚类为关键词聚类cluster1,则在步骤S3’中,类别确定设备1可 将cluster1所包括的各个参考关键词即样本关键词I、III和VI所对应的 公共搜索排序路径信息如S_A→S_C→S_D→S_E→S_G,作为所述优 选搜索排序路径信息。

2)对所述目标关键词聚类所包括的各个参考关键词所对应的搜 索排序路径信息进行统计分析处理,以确定所述优选搜索排序路径信 息,如统计得出关键词走过的搜索排序路径频次信息,将频次满足预定 阈值的搜索排序路径,或者将高频搜索排序路径作为所述优选搜索排序 路径信息。例如,接上例,在步骤S3’中,类别确定设备1可将cluster1 所包括的各个参考关键词即样本关键词I、III和VI所对应的搜索排序 路径信息进行统计分析处理,将频次满足预定阈值如出现频次满足2 的搜索排序路径如S_A→S_C→S_D→S_E→S_G→S_F,作为所述优选 搜索排序路径信息。

本领域技术人员应能理解上述确定所述优选搜索排序路径信息 的方式仅为举例,其他现有的或今后可能出现的确定所述优选搜索排 序路径信息的方式如可适用于本发明,也应包含在本发明保护范围以 内,并在此以引用方式包含于此。

在步骤S4’中,类别确定设备1根据所述优选搜索排序路径信息, 调整所述目标关键词的搜索排序路径信息。例如,假设在步骤S3’中, 类别确定设备1确定的所述优选搜索排序路径信息为 S_A→S_C→S_D→S_E→S_G,则在步骤S4’中,类别确定设备1根据该 优选搜索排序路径信息,通过诸如调整算法或者机器学习模型如SVM 模型,调整目标关键词goal-query的搜索排序路径信息,如将目标关 键词goal-query的搜索排序路径信息调整为优先执行所述优选搜索排序 路径信息S_A→S_C→S_D→S_E→S_G。

本领域技术人员应能理解上述确定所述待优化关键词集合的方 式仅为举例,其他现有的或今后可能出现的确定所述待优化关键词集 合的方式如可适用于本发明,也应包含在本发明保护范围以内,并在 此以引用方式包含于此。

若查询序列与所述目标关键词相匹配,在步骤S5’中,类别确定设 备1按照调整后的所述目标关键词的搜索排序路径信息,将所述查询 序列所对应的搜索结果提供给所述查询序列所对应的用户。具体地, 在步骤S5’中,类别确定设备1首先获取查询序列;然后,判断所述查 询序列与所述目标关键词是否相匹配,若匹配,在步骤S5’中,类别确 定设备1按照调整后的所述目标关键词的搜索排序路径信息,将所述 查询序列所对应的搜索结果提供给所述查询序列所对应的用户。在 此,所述匹配的含义包括查询序列与所述目标关键词完全一致、查询 序列包含于所述目标关键词。

具体地,在步骤S5’中,类别确定设备1首先通过ASP、JSP等动 态网页技术,或者通过搜索引擎提供的应用程序接口(API),获取用 户通过用户设备输入的查询序列。例如,若搜索用户B通过其PC设 备在搜索引擎搜索栏中输入关键词“鲜花”,按Enter键,在步骤S5’ 中,类别确定设备1通过诸如ASP、JSP或PHP等动态网页技术,便 可获取到搜索用户B输入的关键词“鲜花”。本领域技术人员应理解上 述获取查询序列的方式仅为举例,其他现有的或今后可能出现的获取 查询序列的方式如可适用于本发明,也应包含在本发明保护范围以 内,并在此以引用方式包含于此。

然后,在步骤S5’中,类别确定设备1根据其在步骤S 1’中获取的 所述目标关键词,通过文本比较的方式,判断所述查询序列与所述目 标关键词是否相匹配。

若匹配,在步骤S5’中,类别确定设备1按照调整后的所述目标关 键词的搜索排序路径信息,将所述查询序列所对应的搜索结果提供给 所述查询序列所对应的用户。例如,接上例,假设在步骤S 1’中,类 别确定设备1获取的所述目标关键词如“鲜花”、“鲜花速递”等,则 在步骤S5’中,类别确定设备1判断查询序列“鲜花”与目标关键词如 “鲜花”、“鲜花速递”相匹配,然后,在步骤S5’中,类别确定设备1 将搜索引擎按照调整后的该目标关键词的搜索排序路径信息所对应 的搜索结果如“鲜花吧百度贴吧”、“鲜花图片素材天下网”,作为查 询序列“鲜花”所对应的搜索结果,并通过诸如ASP、JSP或PHP等 动态网页技术,或者其他约定的通信方式,如http或https等通信协 议,提供给所述查询序列所对应的用户即用户B,如该用户的用户设 备,供用户浏览。

需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实 施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其 他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通 过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程 序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例 如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发 明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从 而执行各个步骤或功能的电路。

另外,本发明的一部分可被应用为计算机程序产品,例如计算机 程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或 提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指 令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其 他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指 令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施 例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用 于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执 行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/ 或技术方案。

对于本领域技术人员而言,显然本发明不限于上述示范性实施例 的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其 他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例 看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求 而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和 范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标 记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单 元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置 也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词 语用来表示名称,而并不表示任何特定的顺序。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号