首页> 中国专利> 一种网页搜索方法及网页搜索系统

一种网页搜索方法及网页搜索系统

摘要

本发明公开了一种网页搜索方法及网页搜索系统,该方法包括:当网页搜索系统接收到客户端发送的携带有搜索关键词和用户身份信息的搜索请求后,根据用户身份信息获取客户端所属用户群组的用户群组标识,并根据搜索关键词查询倒排索引表,得到对应的网页URL集合;在网页URL集合中,根据用户群组标识对应的网页排序权值,对网页URL进行排序,并根据排序结果向客户端返回网页搜索结果;当网页搜索系统接收到客户端发送的网页访问请求时,根据客户端所属用户群组的用户群组标识,更新倒排索引表中所请求访问的网页URL对应的用户群组标识的网页排序权值;其中,网页访问请求是客户端根据网页搜索结果页面提供的网页URL链接发送的。

著录项

  • 公开/公告号CN103390000A

    专利类型发明专利

  • 公开/公告日2013-11-13

    原文格式PDF

  • 申请/专利权人 中国移动通信集团公司;

    申请/专利号CN201210146160.8

  • 发明设计人 刘琨;

    申请日2012-05-09

  • 分类号G06F17/30(20060101);

  • 代理机构11297 北京鑫媛睿博知识产权代理有限公司;

  • 代理人龚家骅

  • 地址 100032 北京市西城区金融大街29号

  • 入库时间 2024-02-19 20:48:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-07-06

    授权

    授权

  • 2013-12-04

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120509

    实质审查的生效

  • 2013-11-13

    公开

    公开

说明书

技术领域

本发明涉及通信技术领域,特别是涉及一种网页搜索方法及网页搜索系 统。

背景技术

随着互联网技术的迅速发展,人们越来越依赖网页搜索从互联网上获取需 要的信息,由于互联网上的信息量及其庞大,如何在检索结果中迅速准确找到 需要的信息是用户最为关心的。搜索算法在完成对用户输入关键词的检索后, 需要对搜索结果进行排序,从而将匹配度高的网页尽可能靠前地展现给用户, 从而让用户能够更快地找到自己希望的内容。

目前的网页排序算法多采用网页优先级排序算法,网页优先级排序算法认 为被引用和链接次数多的网页的内容往往具有相对更多的价值,更可能匹配用 户的需求,从而被赋予更高的优先级。网页优先级排序算法依据网页的重要性, 即所谓价值,进行网页搜索结果排序,而价值通常体现在网页的发布者(即: 网页的属主)、网页被引用和链接的次数或是用户的评价等等。

但是,网页优先级排序算法显得过于泛化,无法考虑到用户的背景差异, 同一个关键词在不同的领域往往具有完全不同的含义,例如:pilot这个关键词, 在公共场合,往往代表飞行、驾驶这类含义,而在通信领域,pilot则表示用于 传送公共控制信息的信道。

因此,如何针对用户的背景,提供定制化的网页搜索结果排序算法,是网 页搜索需要解决的一个重要课题。

发明内容

本发明实施例提供了一种网页搜索方法及网页搜索系统,用以解决现有网 页搜索方法带来的无法为用户提供贴近其需求的搜索结果的问题,实现了网页 搜索结果排序的个性化呈现。

本发明实施例提供的一种网页搜索方法,应用于网页搜索系统,该系统中 的倒排索引表中对应于网页统一资源定位符URL记录有用户群组标识,以及 对应于各用户群组标识分别记录有网页排序权值,所述方法包括:

当网页搜索系统接收到客户端发送的携带有搜索关键词和用户身份信息 的搜索请求后,根据所述用户身份信息获取所述客户端所属用户群组的用户群 组标识,并根据所述搜索关键词查询所述倒排索引表,得到对应的网页URL 集合;在该网页URL集合中,根据所述用户群组标识对应的网页排序权值, 对各网页URL进行排序,并根据网页URL排序结果向所述客户端返回网页搜 索结果;

当网页搜索系统接收到客户端发送的网页访问请求时,根据所述客户端所 属用户群组的用户群组标识,更新所述倒排索引表中所请求访问的网页URL 对应的用户群组标识的网页排序权值;其中,所述网页访问请求是客户端根据 网页搜索结果页面提供的网页URL链接发送的。

本发明实施例提供还提供一种网页搜索系统,包括:存储模块、接收模块、 获取模块、查询模块、排序模块、发送模块和权值更新模块,其中,

所述存储模块,用于存储倒排索引表,其中,所述倒排索引表中对应于网 页统一资源定位符URL记录有用户群组标识,以及对应于各用户群组标识分 别记录有网页排序权值;

所述接收模块,用于接收客户端发送的携带有搜索关键词和用户身份信息 的搜索请求;

所述获取模块,用于根据所述接收模块接收到的搜索请求获取所述用户身 份信息和搜索关键词,并根据所述用户身份信息获取所述客户端所属用户群组 的用户群组标识;

所述查询模块,用于根据所述获取模块获得的搜索关键词查询所述倒排索 引表,得到对应的网页URL集合;

所述排序模块,用于在所述查询模块获得的网页URL集合中,根据所述 用户群组标识对应的网页排序权值,对各网页URL进行排序;

所述发送模块,用于根据所述排序模块获得的网页URL排序结果,向所 述客户端返回网页搜索结果;

所述权值更新模块,用于当接收到客户端发送的网页访问请求后,根据所 述客户端所属用户群组的用户群组标识,更新所述倒排索引表中所请求访问的 网页URL对应的用户群组标识的网页排序权值;其中,所述网页访问请求是 客户端根据网页搜索结果页面提供的网页URL链接发送的。

与现有技术相比,本发明的上述实施例具有以下有益技术效果:

本发明实施例通过网页搜索系统从容户端发送的搜索请求中获取搜索关 键词和客户端所属的用户群组,根据搜索关键词在倒排索引表中查询对应的网 页URL集合,并在该网页URL集合中,根据该用户群组标识对应的网页排序 权值,对各网页URL进行排序,并返回搜索结果给客户端,解决了现有技术 中无法为用户提供贴近其需求的搜索结果的问题;当客户端根据网页搜索结果 页面提供的网页URL链接访问网页时,网页搜索系统根据客户端所属的用户 群组,更新倒排索引表中所请求访问的网页URL对应的用户群组标识的网页 排序权值,利用社会化网络所蕴含的社交关系,对网页的社会化属性进行标注 及更改,实现了为不同人群提供个性化的网页搜索呈现结果。

附图说明

图1为本发明实施例提供的网页搜索方法流程示意图;

图2为本发明实施例提供的网页搜索系统的结构示意图;

具体实施方式

针对现有的网页搜索系统无法为用户提供贴近其需求的搜索服务,本发明 实施例通过对网页的社会化属性进行标注,记录具有相同兴趣的人群与特定网 页之间的关联性,并利用网页的社会化属性对网页搜索结果进行排序,从而实 现了为不同人群提供个性化的网页搜索呈现结果。

下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整的描 述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。 基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下 所获得的所有其他实施例,都属于本发明保护的范围。

社会化网络(Social Network Service,SNS),又称社交网络服务或社会性 网络服务,是指根据六度分割理论,创立的面向社会性网络的互联网服务,通 过“熟人的熟人”来进行网络社交拓展。基于社会网络关系系统思想的网站就是 社会性网络网站(SNS网站),目前许多WEB2.0网站都属于SNS网站,如网络 聊天(IM)、交友、视频分享、博客、播客、网络社区、音乐共享等。

社会化网络能够使每个人按照自己的兴趣、爱好、工作领域等因素形成自 己的用户群组,加入相同用户群组的用户,往往具有更相近的背景(例如相同 的职业背景、教育背景以及专业知识等),或者在某些方面具有共性(例如相 同的兴趣爱好)。

本发明实施例利用社会化网络所带来的信息,充分挖掘社会化关系所蕴含 的用户个人信息。社交网站建立有众多的用户群组,处于相同用户群组的用户 往往具有更加相近的兴趣,工作领域,或者关注点,因此,通过将用户群组信 息作为网页搜索结果排序的依据,即对相同用户群组里其他用户的搜索行为进 行跟踪就可能找出这个用户群组成员的共同兴趣和关注点,从而找出贴近用户 需求的网页搜索结果,以提升搜索结果的满意度。

本发明实施例提供的网页搜索方法,应用于C/S(客户端/服务器)或B/S (浏览器/服务器)的网络架构中,客户端用于向服务器发送搜索请求,服务器 端为网页搜索系统,用于根据客户端发送的搜索请求进行网页搜索,并将搜索 结果依据网页的社会化属性进行排序,呈现给客户端,从而呈现个性化的网页 搜索结果。

在网页搜索系统中存储有倒排索引表,倒排索引表用于根据关键字索引查 找网页,实现快速高效的搜索。倒排索引表存储关键字、关键字对应的网页 URL(统一资源定位符),在本发明实施例中,倒排索引表中还存储有对应于 网页URL的用户群组标识,以及对应于各用户群组标识的网页排序权值。

倒排索引表的建立依据现有技术实现,具体流程如下:网页搜索系统释放 出网络爬虫,获取网页,网页搜索系统对获取到的网页进行分词,形成以关键 词为索引的倒排索引表。倒排索引表的结构可如表1所示:

表1

  关键字   网页URL   用户群组标识   网页排序权值   Key1   Page1   00001   10   Page1   00002   12   Page2   00001   15   Key2   Page2   00003   12   Page3   00005   18   …    …    …    …

其中,用户群组标识字段用于记录访问网页URL的用户所属的用户群组 的群组ID,可以反映出网页访问者的兴趣、工作领域或者关注点等信息。网页 排序权值字段反映了网页对于某个用户群组的重要性和价值,例如,网页排序 权值越高,则说明该网页对于该用户群组越有价值。

由于倒排索引表中记录的用户群组标识是网页搜索系统定义的用户群组 标识,而各社交网站具有自己用户群组分类,不同的社交网站中性质及内容相 同的用户群组,对应的用户群组标识可能不同,因此,在网页搜索系统中还存 储有各社交网站的URL和各社交网站所定义的用户群组标识,以及各社交网 站所定义的用户群组标识和网页搜索系统定义的用户群组标识的对应关系,可 以将不同社交网站的性质相同的用户群组信息进行统一,从而确定客户端的用 户群组。

例如,在网站1中,音乐用户群组的标识为A,在网站2中,MUSIC用 户群组的标识为B,而音乐用户群组和MUSIC用户群组性质相同,在网页搜 索系统中,网站1的音乐用户群组和网站2的MUSIC用户群组对应相同的用 户群组标识。

以下结合图1详细说明本发明实施例提供的网页搜索流程,如图所示,该 流程可包括以下步骤:

步骤11,客户端向网页搜索系统发送搜索请求。

Cookies信息用于记录用户标识,密码、浏览过的网页、在网页停留的时 间等信息,由服务器端生成并发送给客户端,客户端会将Cookies的key/value 保存到某个目录下的文本文件内,下次请求同一网站时就发送该Cookies给服 务器,服务器可以通过Cookies信息辨别用户身份、进行会话跟踪。

客户端获取Cookies中记录的用户身份信息,该用户身份信息连同搜索关 键字被携带于搜索请求中发送给网页搜索系统,其中,用户身份信息包括客户 端所注册的社交网站的URL,以及该客户端在该社交网站中所属用户群组的用 户群组标识。

步骤12,网页搜索系统从搜索请求中获取搜索关键词和用户身份信息,并 根据该用户身份信息获取客户端所属用户群组的用户群组标识。

具体的,网页搜索系统从搜索请求中携带的用户身份信息中,提取客户端 所注册的社交网站的URL以及在该社交网站中所属用户群组的用户群组标识。 网页搜索系统根据客户端在社交网站中所属用户群组的用户群组标识,通过查 询网页搜索系统中存储的各社交网站所定义的用户群组标识和所述网页搜索 系统定义的用户群组标识的对应关系,获得对应的网页搜索系统定义的用户群 组标识。

步骤13,网页搜索系统根据搜索关键词查询倒排索引表,得到对应的网页 URL集合。

步骤14,网页搜索系统在该网页URL集合中,根据用户群组标识对应的 网页排序权值,对各网页URL进行排序。

优选的,网页搜索系统按照网页排序权值从大到小的顺序,对相应网页 URL进行排序。根据网页排序权值从大到小对搜索到的网页URL进行排序, 可以将对于该用户来说更为重要的网页URL(即对于该客户端的用户群组标识 来说权值较大的网页URL)排在搜索结果中较前的位置,更有利于用户快速、 便捷的找到其真正需要的网页URL。

步骤15,网页搜索系统将网页搜索结果发送给客户端。具体的,网页搜索 结果通过HTTP(超文本传输协议)应答展现给用户。

网页搜索系统将网页搜索结果返回给客户端后,若客户端根据网页搜索结 果页面提供的网页URL链接发送网页访问请求,比如通过点击网页搜索结果 中的网页URL链接来发送网页访问请求,则该流程还包括以下步骤:

步骤16,当网页搜索系统接收到客户端发送的网页访问请求时,根据客户 端所属用户群组的用户群组标识,更新倒排索引表中所请求访问的网页URL 对应的用户群组标识的网页排序权值,其中,该网页访问请求是客户端根据网 页搜索结果页面提供的网页URL链接发送的。

具体的,网页搜索系统可以根据该客户端的网页访问请求(点击网页URL 的动作)获知该客户端所属的用户群组。然后,判断倒排索引表中对应于所请 求访问的网页URL是否已记录有该客户端所属的用户群组标识,若已记录, 说明该网页URL曾经被该客户端所属的用户群组成员访问过,则递增该网页 URL对应的该用户群组标识的网页排序权值。若倒排索引表中对应于所请求访 问的网页URL未记录有该客户端所属的用户群组标识,说明该网页URL未曾 被该客户端所属的用户群组成员访问过,则在倒排索引表中对应于该网页URL 记录该客户端所属的用户群组标识,并设置初始网页排序权值。

当客户端点击网页搜索结果中的某个网页URL时,网页搜索系统对倒排 索引表中的对应于该客户端用户群组标识的网页排序权值进行更改,通过记录 客户端访问网页URL的行为,为向该用户群组标识其他成员提供个性化网页 搜索结果提供了依据。

通过上述描述可以看出,本发明实施例通过网页搜索系统从客户端发送的 搜索请求中获取搜索关键词和客户端所属的用户群组,根据搜索关键词在倒排 索引表中查询对应的网页URL集合,并在该网页URL集合中,根据该用户群 组标识对应的网页排序权值,对各网页URL进行排序,并返回搜索结果给客 户端,解决了现有技术中无法为用户提供贴近其需求的搜索结果的问题;当客 户端根据网页搜索结果页面提供的网页URL链接访问网页时,网页搜索系统 根据客户端所属的用户群组,更新倒排索引表中所请求访问的网页URL对应 的用户群组标识的网页排序权值,利用社会化网络所蕴含的社交关系,对网页 的社会化属性进行标注及更改,实现了为不同人群提供个性化的网页搜索呈现 结果。

基于相同的技术构思,本发明实施例还提供了一种网页搜索系统。

参见图2,为本发明实施例提供的网页搜索系统的结构示意图,如图所示, 该网页搜索系统可包括:存储模块21、接收模块22、获取模块23、查询模块 24、排序模块25、发送模块26和权值更新模块27,其中,

存储模块21,用于存储倒排索引表,其中,倒排索引表中对应于网页URL 记录有用户群组标识,以及对应于各用户群组标识分别记录有网页排序权值。

接收模块22,用于接收客户端发送的携带有搜索关键词和用户身份信息的 搜索请求。

获取模块23,用于根据接收模块22接收到的搜索请求获取所述用户身份 信息和搜索关键词,并根据该用户身份信息获取该客户端所属用户群组的用户 群组标识。

查询模块24,用于根据获取模块23获得的搜索关键词查询倒排索引表, 得到对应的网页URL集合。

排序模块25,用于在查询模块24获得的网页URL集合中,根据该用户群 组标识对应的网页排序权值,对各网页URL进行排序。

发送模块26,用于根据排序模块25获得的网页URL排序结果,向该客户 端返回网页搜索结果。

权值更新模块27,用于当接收到客户端发送的网页访问请求后,根据该客 户端所属用户群组的用户群组标识,更新倒排索引表中所请求访问的网页URL 对应的用户群组标识的网页排序权值。其中,该网页访问请求是客户端根据网 页搜索结果页面提供的网页URL链接发送的。

具体的,权值更新模块27,具体用于判断倒排索引表中对应于所请求访问 的网页URL是否已记录有所述客户端所属的用户群组标识,若已记录,则递 增该网页URL对应的该用户群组标识的网页排序权值;否则,对应于该网页 URL记录该客户端所属的用户群组标识,并设置初始网页排序权值。

倒排索引表中记录的用户群组标识为网页搜索系统定义的用户群组标识。 存储模块21,还用于存储有各社交网站的URL和各社交网站所定义的用户群 组标识,以及各社交网站所定义的用户群组标识和网页搜索系统定义的用户群 组标识的对应关系。

具体的,获取模块23,具体用于从搜索请求中携带的用户身份信息中,提 取客户端所注册的社交网站的URL以及在该社交网站中所属用户群组的用户 群组标识;以及根据客户端在所述社交网站中所属用户群组的用户群组标识, 通过查询所述对应关系,获得对应的网页搜索系统定义的用户群组标识。

具体的,排序模块25,具体用于按照网页排序权值从大到小的顺序,对相 应网页URL进行排序。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述 进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个 或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成 多个子模块。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明 可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很 多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上 或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机 软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以 是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述 的方法。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通 技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰, 这些改进和润饰也应视本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号