首页> 中国专利> 用于利用浏览器历史进行动作建议的方法和系统

用于利用浏览器历史进行动作建议的方法和系统

摘要

本发明公开了一种用于显示与域相关联的一个或多个动作的方法和系统。服务器计算机通过网络从在计算设备上执行的客户端模块接收到与用户经由在计算设备上执行的浏览器导航到的web页面相关联的统一资源定位符(URL)。服务器计算机确定该web页面是用户在给定的时间段内已超过预定次数地导航到的域的一部分。服务器计算机确定与该web页面相关联的类别,并确定与所述域相关联的一个或多个动作。服务器计算机向计算设备发送用于在浏览器中显示的链接,该链接表示与所述域和所述与web页面相关联的类别相关联的动作。

著录项

  • 公开/公告号CN102822815A

    专利类型发明专利

  • 公开/公告日2012-12-12

    原文格式PDF

  • 申请/专利权人 雅虎公司;

    申请/专利号CN201180017232.2

  • 发明设计人 保罗·布罗曼;

    申请日2011-04-04

  • 分类号G06F17/00(20060101);G06F17/30(20060101);G06F15/16(20060101);G06F3/14(20060101);

  • 代理机构11258 北京东方亿思知识产权代理有限责任公司;

  • 代理人宋鹤

  • 地址 美国加利福尼亚州

  • 入库时间 2023-12-18 07:41:11

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-03-15

    未缴年费专利权终止 IPC(主分类):G06F17/00 专利号:ZL2011800172322 申请日:20110404 授权公告日:20160316

    专利权的终止

  • 2016-08-17

    专利权的转移 IPC(主分类):G06F17/00 登记生效日:20160729 变更前: 变更后: 申请日:20110404

    专利申请权、专利权的转移

  • 2016-03-16

    授权

    授权

  • 2013-01-30

    实质审查的生效 IPC(主分类):G06F17/00 申请日:20110404

    实质审查的生效

  • 2012-12-12

    公开

    公开

说明书

技术领域

本公开涉及web页面,并且更具体地涉及用于利用浏览器历史进行动 作建议的方法和系统。

背景技术

万维网的结构基于web页面和与那些web页面相关联的域名。每个 web页面用其统一资源定位符(URL)来标识。当用户保存书签时,用户 保存与用户可能想要回到的web页面相关联的URL。当用户注册了真正简 易聚合内容(RSS)馈送时,用户得到来自单一web页面源的信息。此 外,典型web浏览器的每个实例被设置为显示单一web页面。

发明内容

尽管web的结构是基于各个web页面的,但是web用户的目的通常不 是基于特定web页面本身,而是基于感兴趣的概念或话题。

一方面,服务器计算机通过网络从在计算设备上执行的客户端模块接 收到与用户经由在计算设备上执行的浏览器导航到的web页面相关联的统 一资源定位符(URL)。服务器计算机确定该web页面是用户在给定的时 间段内已超过预定次数地导航到的域的一部分。服务器计算机确定与该 web页面相关联的类别,并确定与所述域相关联的一个或多个动作。服务 器计算机向计算设备发送用于在浏览器中显示的链接,该链接表示与所述 域和所述与web页面相关联的类别相关联的动作。

在一个实施例中,与web页面相关联的一组话题由服务器计算机确 定。在一个实施例中,服务器计算机确定针对每个类别的预定数目的被支 持web页面。在一个实施例中,服务器计算机确定完成类别内预定数目的 web页面中的每个web页面的动作所需要执行的步骤。在一个实施例中, 所确定的步骤被存储在存储介质中。在一个实施例中,发送表示动作的链 接还包括发送在被选择时使数据以web的形式被输入的链接。

另一方面,计算设备确定在计算设备上执行的浏览器的用户所导航到 的web页面是用户已在给定的时间段内超过预定次数地导航到的域的一部 分。计算设备确定与web页面相关联的类别。然后,浏览器显示与所述域 以及与web页面相关联的类别相关联的一个或多个动作。

在一个实施例中,计算设备确定与web页面相关联的一组话题。在一 个实施例中,计算设备确定在域中的与类别相关联的预定数目的被支持 web页面。在一个实施例中,计算设备确定完成针对与类别相关联的预定 数目的web页面中的每个web页面的动作所需要执行的步骤。

通过参考以下详细描述和附图,本领域技术人员将明白这些和其它方 面以及实施例。

附图说明

在不考虑尺寸且相似的标号表示若干视图中的相似元件的附图中:

图1是根据本公开实施例的通过网络与服务器计算机通信的计算设备 的客户端模块的框图;

图2是图示了根据本公开实施例的图1的计算设备所执行的步骤的流 程图;

图3是图示了根据本公开实施例的图1的计算设备所执行的步骤的流 程图;

图4是根据本公开实施例的图1的服务器计算机所执行的步骤的流程 图;

图5是根据本公开实施例的在图1的服务器计算机和图1的计算设备 上执行的模块和应用程序接口(API)的框图;

图6是根据本公开实施例的图1的计算设备为了提供话题详细视图所 执行的步骤的流程图;

图7是根据本公开实施例的在浏览器的第二内容区域中被显示的侧边 栏的屏幕截图;

图8是根据本公开实施例的显示计算设备导航到关于Nintendo控 制台的评论的web页面时的第一内容区域和示出话题信息的第二内容区域 的浏览器的屏幕截图;

图9是根据本公开实施例的显示用户导航到评论Nintendo的web 页面之后侧边栏中的详细视图的浏览器的屏幕截图;

图10是根据本公开实施例的显示其中新闻标签已被用户选择的侧边栏 的浏览器的屏幕截图;

图11是根据本公开实施例的显示包含运动员详细视图的侧边栏的浏览 器的屏幕截图;

图12是根据本公开实施例的已导航到描述电影“District 9(第9区)” 的web页面的浏览器的屏幕截图;

图13是图示了根据本公开实施例的客户端模块为了确定基于话题的浏 览器历史而执行的步骤的流程图;

图14是图示了根据本公开实施例的客户端模块为了收集基于话题的浏 览器历史而执行的步骤的流程图;

图15图示了根据本公开实施例的被用于将基于话题的浏览器历史存储 在话题历史数据库中的数据库架构;

图16是图示了根据本公开实施例的图1的服务器计算机为了客户端模 块向用户建议一个或多个动作而执行的步骤的流程图;

图17是图示了根据本公开实施例的为了填充域历史数据库而由客户端 模块执行的步骤的流程图;

图18是图示了根据本公开实施例的为了利用浏览器历史建议与用户最 常访问的web站点相关联的动作而由客户端模块执行的步骤的流程图;

图19图示了根据本公开实施例的被用于将动作记录存储在动作数据库 中的数据库架构;

图20是根据本公开实施例的具有训练模块、索引模块和运行模块的图 1的服务器计算机的实施例的框图;

图21是图示了根据本公开实施例的图20的服务器计算机的模块所执 行的步骤的流程图;

图22是根据本公开实施例的图21的训练模块的框图;

图23是根据本公开实施例的图22的训练模块所执行的步骤的流程 图;

图24是根据本公开实施例的图20的索引模块的框图;

图25是根据本公开实施例的图24的索引模块所执行的步骤的流程 图;

图26是根据本公开实施例的消歧示例的屏幕截图;

图27A是根据本公开实施例的消歧示例的屏幕截图;

图27B是根据本公开实施例的图27A的消歧示例的输出窗口的示例;

图28A是根据本公开实施例的选择示例的屏幕截图;

图28B是根据本公开实施例的根据图28A的选择示例排名的话题的顺 序图;

图28C是根据本公开实施例的图28A的选择示例的输出窗口的示例;

图29是根据本公开实施例的用户已导航到的web页面和侧边栏的屏 幕截图;以及

图30是图示了根据本公开实施例的诸如图1的服务器和/或计算设备 之类的计算设备的示例的内部体系结构的框图。

具体实施方式

现参考本申请的附图更详细地对实施例进行论述。在附图中,类似和/ 或相对应的元件用类似的标号来表示。

各种实施例在这里被公开;但是应当理解所公开的实施例仅仅是为了 说明可以用各种形式来实现的本发明。此外,结合各个实施例给出的每个 示例都意图为说明性的,而非限制性的。此外,附图不需要是按实际大小 的,一些特征可以被放大以显示特定组件的细节(并且图中所显示的任何 尺寸、材料和类似细节都意图为说明性的而非限制性的)。因此,这里所 公开的特定结构和功能细节不能被解释为限制性的,而仅仅作为用来教导 本领域技术人员以各种方式实现所公开的实施例的代表性基础。

图1是通过诸如互联网之类的网络115与服务器110通信的计算设备 105的实施例的框图。图2是图示了图1的计算设备105所执行的步骤的 实施例的流程图。计算设备105的用户利用在计算设备105上运行的web 浏览器118来例如导航到与服务提供商(例如,Sunnyval,California的 Yahoo!Inc.)相关联的web页面(例如,Yahoo!的主页)。在一个实施例 中,用户登录(或创建)服务提供商的用户账号。在一个实施例中,服务 器计算机110接收到用户登录账号的请求,并且如果登录信息正确则将用 户登录到用户账号中。

在一个实施例中,计算设备105发送从服务器计算机110下载客户端 模块125的请求。客户端模块125可以出现在浏览器的任何区域中(例 如,浏览器118的左侧、浏览器118的右侧、浏览器118的顶部和/或浏览 器118的底部)。在一个实施例中,客户端模块125是侧边栏。在另一实 施例中,客户端模块125是工具栏。在一个实施例中,客户端模块125修 改web页面地址栏(例如,在web页面地址栏下面)显示的内容。在一个 实施例中,客户端模块125被计算设备105下载(步骤205),并且一旦 客户端模块125被下载,当浏览器118导航到(与服务提供商相关联或不 相关联的)web页面时,与客户端模块125相关联的图形用户接口(UI) 被显示。在一个实施例中,如果用户选择显示UI,则图形UI被显示。在 一个实施例中,客户端模块125(例如侧边栏或工具栏)可以是基于web 的,因为二级内容呈现框架是基于web的。这意味着其可以经由域链接被 共享,并且接收方可以在不需要下载的情况下得到侧边栏/工具栏的体验。

例如,在下载客户端模块125之后,用户可以利用web浏览器118导 航到特定的web页面(步骤210)。在一个实施例中,web浏览器118将 web页面显示在浏览器118的第一内容区域130中,并将与客户端模块 125相关联的内容显示在浏览器118的第二内容区域135中。第一内容区 域130的尺寸可以大于或小于第二内容区域135的尺寸。在一个实施例 中,任一或这两个内容区域的尺寸是用户可调节的。在一个实施例中,当 计算设备105的用户输入特定的web页面域名时,客户端模块125通过浏 览器被访问。

在一个实施例中,计算设备105发送对与浏览器118导航到的web页 面相关联的话题的请求140(步骤215)。对话题的请求140可以是发送 计算设备105导航到的web页面的URL。对话题的请求140也可以是向服 务器计算机110发送用户导航到的web页面的内容的拷贝。

在一个实施例中,服务器计算机110包括话题及类别确定模块145。 在一个实施例中,话题及类别确定模块145之前已分析了用户已导航到的 web页面,并已将其分析的结果存储在服务器存储装置155(例如数据 库)中。然后,服务器计算机110(话题及类别确定模块145)可以利用 所述之前的分析快速地确定与web页面相关联的一个或多个话题。或者, 话题及类别确定模块145在接收到请求140之后分析web页面以确定与 web页面相关联的一组话题。与web页面相关联的一组话题在这里被定义 为与web页面相关联的一个或多个话题。话题可以是或不是web页面的标 题、URL、图形等的一部分,并且通常通过分析web页面的文本的至少一 部分被确定。

在一个实施例中,话题及类别确定模块145还根据服务器存储装置 155中所存储的数据或者根据对web页面的分析确定与web页面相关联的 一组类别。与话题相比,类别是更高级别的抽象。例如,如果web页面正 在讨论Nikon数码相机,则该web页面的话题可以是数码相机,而该web 页面的类别可以是可购买产品。与web页面相关联的一组类别在这里被定 义为与web页面相关联的一个或多个类别。

服务器计算机110将与web页面相关联的一组话题和类别150发送给 计算设备105。在一个实施例中,这组话题和类别150已根据它们与web 页面本身的相关性被排序或排名。例如,与关于Nikon数码相机的web页 面相关联的一组话题可以被列为

1.数码相机

2.照相机

3.摄影机

在一个实施例中,与关于Nikon数码相机的web页面相关联的一组类 别可以被列为

1.可购买产品

2.消费品

在一个实施例中,服务器计算机110(例如,话题及类别确定模块 145)将整个一组话题和整个一组类别150发送给计算设备105。在另一实 施例中,服务器计算机110发送所确定的话题和类别中的预定数目的话题 和类别(例如每一组中的第一个话题和第一个类别)。计算设备105接收 话题和类别150(步骤220)。在一个实施例中,计算机设备105将话题 和类别150存储在存储设备157(例如存储器或数据库)中。计算设备 105将web页面显示在web浏览器118的第一内容区域130中(步骤 225)并将话题和/或类别中的一个或多个显示在web浏览器118的第二内 容区域135中(步骤230)。在一个实施例中,计算设备105根据所接收 到的类别配置web浏览器118的第二内容区域135(步骤235)。例如, 如果与web页面相关联的类别是“体育”,则在一个实施例中,计算设备 105除了接收到的话题以外还将与体育相关的广告显示在第二内容区域 135中。作为另一示例,计算设备105除所接收到的话题以外还可以将与 体育相关的图形显示在第二内容区域135中。此外,在一个实施例中,不 同的用户接口基于特定话题的类别被显示。

图3是图示了计算设备105所执行的步骤的实施例的流程图。在一个 实施例中,服务器计算机110将与话题相关联的一个或多个实体160发送 给计算设备105。如这里所使用的,实体(这里也被称为条目)是与根据 web页面确定的话题相关联的文本、图形、图标、视频、链接、结构化信 息、文章、馈送点等。在一个实施例中,计算设备105接收实体(步骤 310)并将实体160显示在浏览器118的第二内容区域135中(例如在用户 正在查看浏览器118的第一内容区域130中的web页面的同时)(步骤 315)。在一个实施例中,计算设备105根据(与话题一起被接收或者与 实体一起被接收的)所接收到的类别配置第二内容区域135(步骤 320)。

为了本公开的目的(并且如下面针对图20更详细描述的),诸如计 算设备105和/或服务器110之类的计算机或计算设备包括用于存储和执行 程序代码、数据和软件的处理器和存储器,作为非限制性示例,所述程序 代码、数据和软件也可以被有形地存储或者从诸如磁盘或光盘或RAM盘 或磁带之类的任意类型或种类的公知计算机可读存储介质中被读取。计算 机可以被提供有操作系统,允许执行软件应用以对数据进行操作。个人计 算机、个人数字助理(PDA)、无线设备、蜂窝电话、互联网装置、媒体 播放器、家庭影院系统、服务器和媒体中心是计算设备的几个非限制性示 例。在一个实施例中,计算设备105和服务器110还可以包括诸如屏幕或 监视器之类的显示器。此外,服务器和/或计算设备可以包括一个或多个计 算机。

计算设备105所执行的用于检测话题的伪代码的实施例为:

Begin

客户端模块被通知有新的web页面通过浏览器载入

客户端模块接收来自服务器计算机的一组话题

If服务器计算机没有返回错误代码

将被返回的话题添加到话题历史数据库中(下面参考图14进 行更详细的描述)

If侧边栏是打开的

在客户端模块用户接口中显示话题通知

Else

在侧边栏上显示话题计数

End if

End if

End

服务器计算机110所执行的用于检测话题的伪代码的实施例为:

Begin

If URL在缓存中

从缓存中的URL条目获取话题

Else

从实体检测系统获取话题

将得到的话题添加到缓存中

End if

IfURL是“坏的”(不可扫描的、成人的、垃圾邮件)

返回错误代码

Else

If话题被找到

返回话题

Else

返回空集

End if

End if

End

在一个实施例中,服务器计算机110接收对与搜索查询相关联的话题 的请求,所述搜索查询已被输入到由浏览器118在第一内容区域130中显 示的搜索输入区域中。服务器计算机110向浏览器118发送用于显示在浏 览器118的第二内容区域135中的与搜索查询相关联的话题。在一个实施 例中,与搜索查询相关联的每个话题与类别相对应。

图4是服务器计算机110所执行的步骤的实施例的流程图。图5是在 服务器计算机110和客户端模块125上执行的模块和应用程序接口 (API)的实施例的框图。在一个实施例中,服务器计算机110接收计算 设备105已导航到的web页面的URL(步骤405)。服务器计算机110确 定针对web页面的一组话题和一组类别(步骤410)。然后,服务器计算 机110针对每个话题(步骤412)确定步骤410中所确定的每个类别是否 是通用的(即,不是服务器计算机110所存储的预定的一组类别中的一 个)(步骤415)。如下面针对图7的更详细的描述,如果类别是通用 的,则服务器计算机110将通用数据(例如,从存储一个或多个知识收集 网站数据文件(例如数据文件)的数据库502获取的数据)发 送给计算设备105(步骤418)。

如果类别不是通用的,服务器计算机110选择适当的类别专用应用程 序接(API)以用于获得要发送给计算设备105的数据(步骤420)。服 务器计算机110可以包括用于不同类别的单独的API。例如,服务器计算 机110可以包括体育API 505、购物API 510、电影API 515和代表用于任 何其它类别的API的“任意其它类别API”520。在一个实施例中,服务器计 算机110利用专用API 505,510,515,520来获取将作为与web页面相关联 的被发送实体160的一部分的数据。在一个实施例中并且如下面更详细地 描述的,服务器计算机110确定针对特定类别的域动作(步骤425)。服 务器计算机110可以从动作数据库525中获取与类别相关联的域动作。然 后,服务器计算机110利用数据发送模块530将类别专用数据532(例如 与类别相关联的实体和/或动作条目)发送给计算机设备105(步骤 430)。

图6是为了提供话题详细视图计算设备105所执行的步骤的实施例的 流程图。计算设备105从服务器计算机110接收与web页面相关联的一个 或多个话题和类别(步骤605)。在一个实施例中,在步骤610中,计算 设备105针对每个话题(步骤608)确定类别是否是通用的。如果类别是 通用的,则计算设备105利用通用呈现器535将通用数据显示(步骤 615)在web浏览器118的第二内容区域135中。如果类别不是通用的, 则计算设备105基于类别选择适当的类别专用呈现模块(步骤620)。例 如,计算设备105可以包括运动员呈现器540(例如针对体育类别)、产 品呈现器545(例如针对购物类别)、电影呈现器550(例如针对电影类 别)以及任意其它类别呈现器555(例如针对其它类别)。类别专用呈现 器540,545,550,555将类别专用内容(步骤625)呈现在浏览器118的第 二内容区域135中。这些呈现器中的一个或多个可以由服务提供商提供或 者可以由一个或多个第三方提供。

在一个实施例中以及如下面针对图15进行的更详细描述,计算设备 105确定针对类别的一个或多个域动作(步骤630)。计算设备105利用 动作呈现器560呈现动作(步骤635)。与类别相关联的动作可以包括例 如到Blockbuster的web页面的链接(如果类别是电影),所述链接使得 用户可以在线租影片。在另一实施例中,动作可以包括在web页面上填写 Blockbuster的web表格,使得用户可以在线租影片。这些动作可以例如通 过用户选择链接、用户选择复选框等被呈现。

计算设备105所执行的用于在详细视图中显示话题的伪代码的实施例 为:

Begin

从服务器计算机中取出话题数据

If话题类别不是“通用的”

创建标签集(针对“at a glance”和“新闻”)

End if

Switch(基于类别)

Case通用-使用通用呈现器

Case运动员-使用运动员呈现器

Case产品-使用产品呈现器

Case电影-使用电影呈现器

Case任意其它类别-使用任意其它类别呈现器

End Switch

利用所选择的呈现器程序情境专用内容

基于类别找到专用动作

Loop针对每个动作

If动作域不在基于域的历史中

去除动作

Else

基于访问次数递增动作权重

End if

End Loop

基于动作权重对第三方动作进行排序

呈现第三方动作

End

服务器计算机110所执行的用于在详细视图中显示话题的伪代码的实 施例为:

Begin

If针对该话题的数据在缓存中

返回该数据

Else

If话题类别是“通用的”

从本地Wikipedia数据堆中获取通用数据

Else

Switch(基于类别)

Case运动员-使用体育API

Case产品-使用购物API

Case电影-使用电影API

Case任意其它类别-使用任意其它类别API

End Switch

Ping所选择的API以获取数据

If数据获取成功

将数据添加到话题缓存中

返回该数据

Else

返回错误

End if

End if

End if

End

图7是被显示在浏览器118的第二内容区域135中的侧边栏705的屏 幕截图。侧边栏705是当话题不能被归类到特定的预定类别中时所显示的 通用视图(参见以上图4的步骤418和图6的步骤615)。侧边栏705的 通用视图包括通用信息,例如到体育信息的链接710、到商务页面的链接 715和到新闻的链接720。

图8是显示当计算设备105导航到web页面812时的第一内容区域 810和示出话题信息的第二内容区域815的浏览器805的屏幕截图。在一 个实施例中,第二内容区域815包括允许用户查看话题信息的话题标签 820。在一个实施例中,话题标签在被用户选择时显示保存的或之前关注 的话题830。如下面更详细描述的,这被称为用户的话题历史并且指用户 已保存的(例如在计算设备105本地或在与计算设备105相关联的存储设 备157上的)话题。

在一个实施例中,话题标签820还包括近期话题部分840。近期话题 部分840包括近期查看的话题(即,在用户被告知话题之后计算设备105 的用户近期选择的话题)。在一个实施例中,近期话题部分840中所列出 的话题还显示用户查看话题的日期。在一个实施例中,话题标签820还包 括话题建议850,该话题建议是当前流行的话题(例如,通常经由一个或 多个搜索引擎搜索到的)。在一个实施例中,当用户选择显示在话题标签 820中的话题中的一个时,用户被引至详细视图。在一个实施例中(并且 如图8中所示),web页面812是关于Nintendo控制台的评论。

在图8中,二级内容不与当前web页面相关联。我的兴趣(My  Interests)用户接口是显示用户正在关注的话题、近期查看过的话题和被建 议的话题的用户信息板。在一个实施例中,用户在浏览会话期间的任意时 间经由二级内容区域中的总按钮(也可能从浏览器chrome)访问所述用户 接口。

图9是示出了用户导航到评论Nintendo控制台的web页面812 之后的侧边栏910中的详细视图的浏览器905的实施例的屏幕截图。在一 个实施例中,该详细视图包括与web页面相关的实体915。在一个实施例 中,实体915包括文本(Nintendo)、图形(Nitendo图形)、 价格范围($199.99-$299.99)以及评分(5星中的4星)。

在一个实施例中,侧边栏910的详细实体提供相关话题920,该相关 话题920是与web页面相关的其它话题(在该示例中是Nintendo控 制台)。在一个实施例中,如果用户选择相关话题920,则用户(在侧边 栏910中)导航到针对所选择话题的详细视图。侧边栏910中所示的详细 视图还包括“At a Glance”标签925。当被选择时,“At a Glance”标签925显 示针对被找到的话题的上下文专用视图。在该示例中,“Nintendo Wii”已被 归类为产品。因此,At a Glance标签925显示购物信息930(例如价格信 息、到在线店铺的链接、到eBay的链接、到Craigslist的链接等等)。侧 边栏910还包括新闻(News)标签940。

用户可以从我的兴趣用户接口导航到web页面812,所述我的兴趣用 户接口是其中内容被显示在第二内容区域910中的个人化搜索使用实例和/ 或其中相关的话题被显示在第二内容区域910中并且来自共享链接的浏览 使用实例。

图10是显示其中新闻标签1020已被用户选择的侧边栏1010的浏览器 1005的屏幕截图。在一个实施例中,新闻标签1020可以显示与跟web页 面812相关联的话题1025相对应的文章、照片和/或视频。文章 (Articles)按钮1040已在新闻标签1020中被选择。在一个实施例中,文 章按钮1040被选择时所显示的文章按提供者被分组并且基于考虑以下各 项中的一项或多项的计算被排序:1)从所述提供者那找到的文章的数 目,2)那些文章的相关性,3)用户已对结果中出现的文章的访问次数, 4)用户已对域的访问次数以及/或者5)域是否已被用户标记为“最喜欢 的”。

计算设备105用于显示针对话题的文章的伪代码的实施例如下:

Begin

从服务器计算机中取出针对话题的文章数据

Loop针对文章结果

基于用户对该文章的访问增加文章的“排序权重”

基于其是否是浏览器书签增加文章的“排序权重”

将文章放入适当的“域桶”中

将该文章的权重加到桶的权重上

End Loop

Loop针对域“桶”

If域在(存储在客户端上的)针对该类别类型的黑名单上 移除域“桶”

Else

根据来自基于域的历史的访问次数增加域权重

如果是(存储在计算设备上的)“最喜欢的”域则增加 权重

End if

End Loop

根据排序权重对域“桶”进行排序

从最高权重开始对域进行呈现,直到到达截止符

End

应当注意以上在伪代码中提到的“文章”可以用照片、视频等替换。

服务器计算机110用于显示针对话题的文章的伪代码的实施例如下:

Begin

If针对该话题的文章数据在缓存中

返回被缓存的文章

Else

从最受欢迎的文章源中取出100篇文章

将所得到的文章添加到适当的缓存中

返回所得到的文章

End if

End

应当注意以上伪代码中所引用的“文章”可以用照片、视频等代替。

图11是显示包含运动员详细视图的侧边栏1110的浏览器1105的屏幕 截图。在运动员详细视图中,在“At a Glance”标签1120下可得到不同的内 容。当用户从图8的被关注话题830中选择“Kobe Bryant”时,所述视图被 得到。Kobe Bryant是所述详细视图中的话题1130。话题1130包括Kobe Bryant的图片和关于Kobe Bryant的信息,例如他的位置(得分后卫)、 他的球队(洛杉矶湖人)和他的统计信息(例如,场均26.8分)。在第一 内容区域,浏览器118仍在显示关于Nintendo控制台评论的web页 面812。显示在“At a Glance”标签1120下的信息与图8-10中显示的信息不 同。具体而言,当话题1130是运动员并且类别是体育时,在一个实施例 中,关于运动员(例如Kobe Bryant)的信息被显示,并且到体育网站(例 如Sports Illustrated、ESPN等)的链接被显示。在一个实施例中,用户可 以利用图8中显示的“我的兴趣”视图上拉近期或“最喜欢的”话题,因此用 户不需要在其中话题被找到的web页面上以利用用户接口得到关于之前查 看的话题的信息。这就是仍然在Nintendo Wii页面812上查看图11中的 Kobe Bryant的原因。

图12是已导航到描述电影“District 9”的web页面1210的浏览器1205 的屏幕截图。针对web页面1210的实体1215被确定并显示在侧边栏1220 中。实体1215包括针对web页面1210的话题(“District 9”)、电影的图 片和一些评论。侧边栏包括例如片花1230,1240、到Netflix的链接1250 和电影评论1260。

在一个实施例中,与浏览器118相关联的浏览器历史与话题相关联。 因而,在一个实施例中,基于它们的标题不能立即看出相关联的两个web 页面可能实际被发现基于web页面的主要话题相关联。基于话题的浏览器 历史可以基于用户当前正在浏览的话题被显示。因而,当用户访问关于用 户正在关注的或者与用户当前已导航到的web页面相关的话题时,浏览器 历史将被访问,以使得来自用户的历史的关于被请求话题的web页面将被 显示。

图13是图示了客户端模块125为确定基于话题的浏览器历史所执行的 步骤的实施例的流程图。用户利用浏览器118导航到特定的web页面(步 骤1305)。在一个实施例中,客户端模块125得到与用户导航到的web页 面相关联的一组话题(步骤1310)。这组话题可以从存储设备157中被获 取或者可以从服务器计算机110中接收得到。然后,客户端模块125确定 与web页面所关联的这组话题相关的其它话题(步骤1315)。然后,客户 端模块125确定浏览器118在预定时间量内(例如,在设定的小时数内、 在设定的天数内等)导航到的与其它话题相关联的web页面(步骤 1320)。浏览器118将web页面显示在第一内容区域130中(步骤1325) 并且将与所述一组话题相关的其它话题和到与其它话题相关联的web页面 的一个或多个链接显示在第二内容区域135中(步骤1330)。

在一个实施例中,客户端模块125将web页面的URL发送给服务器 计算机110。服务器计算机110接收URL并得到(例如从服务器存储装置 155获取)与web页面相关联的一组话题。在一个实施例中,服务器计算 机110确定与web页面所关联的一组话题相关的其它话题,并且还确定与 浏览器在预定时间量内导航到的与其它话题相关联的web页面。服务器计 算机110将所述其它话题和到与所述其它话题相关联的web页面的链接发 送给客户端模块125以显示在浏览器118的第二内容区域135中。在另一 实施例中,客户端模块125确定与web页面所关联的所述一组话题相关的 其它话题,并确定浏览器在预定时间量内导航到的与所述其它话题相关联 的web页面。

图14是为了收集基于话题的浏览器历史客户端模块125所执行的步骤 的流程图。客户端模块125从web浏览器接收到关于新的web页面正在被 载入的信息(步骤1405)。如上所述,客户端模块125接收来自服务器计 算机110的与web页面相关联的话题(例如实体)。如上所述,一旦服务 器计算机110接收到对与web页面相关联的话题的请求140(例如,一旦 服务器计算机110接收到URL),服务器计算机110可以从其服务器存储 装置155获取该话题信息(例如实体)或者可以分析该新的web页面。客 户端模块125将web页面的URL和所接收到的话题添加到与客户端模块 125相关联的话题历史数据库(或存储器)(例如存储装置157)中(步 骤1415)。然后,客户端模块125确定在话题历史中是否存在与当前被显 示的话题相关联的另一URL(步骤1420)。如果没有,则该过程结束 (步骤1425)。

如果在话题历史数据库157中存在与当前被显示的话题相关联的另一 URL,则客户端模块125从话题历史数据库157中获取下一个URL(步骤 1430)。然后,客户端模块125将到所找到的URL的链接显示在浏览器 118的第二内容区域135(步骤1435)。这在上面图8的近期话题部分 840中被显示。在一个实施例中,客户端模块125只在第二内容区域(例 如侧边栏)开放的情况下执行步骤1435。在另一实施例中,客户端模块 125显示有新的话题要显示的警报。如果用户接受警报,则新的话题被显 示。在一个实施例中,存储到存储装置157中的话题邂逅(encounter)被 用作何时向用户显示通知的线索。

在一个实施例中,为了确定其它用户已访问的与特定时间段中的特定 话题相关的web页面,与URL相关的话题被存储在数据库中。这导致数 据库的内容被键入并且因此可通过话题搜索。因而,用户之前访问的与所 述话题相关的URL可以被确定。在一个实施例中,为每个被存储的URL 计算分数。在一个实施例中,这个分数基于全部访问和/或上一次访问的日 期。在一个实施例中,与web页面相关的话题被自动添加到用户的话题历 史中。在另一实施例中,用户必须执行显式动作(例如,话题必须被访问/ 查看)以使条目被添加到用户的话题历史中。

图15图示了被用于将基于话题的浏览器历史存储在话题历史数据库 157中的数据库架构的实施例。该数据库架构包括链接到话题记录1510的 URL记录。URL记录1505包括URL字段1515(其中在一个实施例中是 URL记录1505的关键)、表示用户已访问URL的次数的访问计数字段 1520、表示与URL相关联的话题的话题字段1525、表示与URL相关联的 web页面的标题的页面标题字段1530、表示用户访问URL的最后时间的 最后访问时间戳字段1535和表示与URL相关联的web页面的域的页面域 字段1540。在一个实施例中,话题字段1525链接到话题记录1510。话题 记录1510包括表示与话题相关联的一个或多个术语的术语1545和表示与 话题相关联的一个或多个类别的类别1550。

计算设备105用于将URL和话题添加到话题历史数据库157中的伪代 码的实施例如下:

Begin

If针对当前URL的记录在数据库中被找到

取出记录

用当前页面标题替换页面标题

基于每个当前话题创建话题组

用找到的话题替换话题组

递增访问计数

用更新后的记录替换现有记录

Else

创建新记录

将新记录的URL设为当前URL

将记录的页面标题设为当前页面标题

基于每个当前话题创建话题组

将新记录中的话题组设为所创建的话题组

将新记录添加到数据库中

End if

End

再次参考图7,来自用户的基于话题的浏览器历史的链接被显示。例 如,标题为“amazon kindle”、“Kobe Bryant”和“kobe bryant”的链接是来自 用户的浏览器历史的链接。这些链接还显示来自最后访问时间戳字段1535 的数据(例如,“44分钟前”、“48分钟前”和“49分钟前”)。因而,客户端 模块125可以维护与web页面的话题相关联的浏览器历史。

在一个实施例中,客户端模块125扫描特定用户频繁导航到的宽泛类 别的web站点。然后,客户端模块125可以利用该信息基于历史建议针对 那些类别的动作。

例如,假设服务提供商(例如Sunnyvale,California的Yahoo!Inc.)正 在呈现基于可供销售或租用的电影的用户接口。在一个实施例中,客户端 模块125确定电影销售中所涉及到的哪些域是用户最多导航到的。然后, 客户端模块125可以基于用户历史提供按钮以从那些web站点购买和租 用。

图16是图示了为了客户端模块125基于用户频繁导航到的web站点 向用户建议一个或多个动作而由服务器计算机110执行的步骤的实施例的 流程图。在一个实施例中,服务器计算机110标识出针对其的动作信息将 被提供的一组类别(步骤1605)。在一个实施例中,这组类别是预定的。 或者,用户选择用户希望有针对其的动作建议的一个或多个类别。

然后,服务器计算机110标识出每个被标识的类别中的特定web站点 (也被称为“最佳(best of breed)”站点)(步骤1610)。然后,服务器计 算机110确定如何在被标识的web站点上执行一些共同的动作(步骤 1615)。该信息随后被存储在服务器存储装置155中(步骤1620)。在一 个实施例中,服务器计算机110随后将该信息发送给客户端模块125以使 得客户端模块125可以显示被存储的动作(步骤1625)。

在一个实施例中,被建议的动作包括来自可跨类别应用的站点(例 如,Facebook和/或Twitter)的动作。例如,用户可能正在查看电影话题 并Twitter动作将出现,因为Twitter被存储在用户历史和兴趣档案中。

图17是图示了客户端模块125为填充域历史数据库(或者存储器/存 储装置)(例如存储装置157)所执行的步骤的实施例的流程图。客户端 模块125从web浏览器118获得(接下来)被访问的URL(步骤 1705)。然后,客户端模块125确定话题历史数据库157中是否还有历史 (步骤1710)。如果没有,则过程结束(步骤1715)。如果还有历史, 则客户端模块125从URL中提取域(步骤1720)。客户端模块125确定 所述域是否已在步骤1725中被处理。如果没有被处理,则该域被存储在 域历史数据库(该数据库可以与话题历史数据库157相同或不同)中(步 骤1730)。如果已被处理,则在域历史数据库157中,图15的访问计数 字段1520被递增。然后过程返回到步骤1705。在一个实施例中,基于域 的浏览器历史和话题历史是不同的数据集。

图18是图示了客户端模块125为利用浏览器历史建议与用户最频繁访 问的web站点相关联的动作所执行的步骤的实施例的流程图。客户端模块 125从动作数据库(该数据库可以与存储装置157相同或不同)获取下一 个动作(步骤1805)。图19图示了被用于将诸如动作(Action)记录 1905之类的动作记录存储在动作数据库157中的数据库架构的实施例。

动作记录1905包括动作类型(Action Type)字段1910。动作类型字 段1910与唯一标识动作类型(例如“购票”、“显示运动员简档”等)的枚举 值相对应。动作记录1905还包括类别类型字段1915,该字段与其中所述 动作有效的一个或多个用户接口类别的列表相对应。动作记录1905还包 括提供商名称(Provider Name)字段1920,对应于提供商的名字(例如 “Amazon.com”、“ESPN”、“NetFlix”等等)。动作记录1905还包括提供商 域1925,该域与针对提供商的网站(可以被关联到基于域的浏览器历史) 的域名相对应。动作记录1905还包括动作URL模板(Action URL  Template)字段1930,该字段与包含为了执行该动作要导航到的URL的 模板的字符串相对应。该字符串可以包含与其中所述动作正在出现的特定 情况相关的实时值的替换代码,所述活动值例如正在被考虑的特定术语、 当前用户的邮编等。例如,FoxSports.com用以下URL: http://msn.foxsports.com/<league>/player?statsId=<playerID>来支持动作“显 示运动员简档”。在一个实施例中,该URL被存储在动作URL模板字段 1930中,针对leagueplayerID的替换代码根据客户端模块125在这些动 作被呈现时所得到的实时数据被填入。

再次参考图18,客户端模块125确定动作数据库157中是否还有动作 (步骤1810)。如果还有动作,则客户端模块125确定动作记录1905的 动作类型字段1910对于客户端模块125所显示的当前用户接口(UI)类 别是否有效(步骤1820)。如果动作数据库中已没有动作,则过程返回到 步骤1805以从动作数据库157中获得下一个动作。如果动作类型字段 1910对于当前UI有效,则客户端模块125确定动作记录1905的提供商域 (Provider Domain)字段1925是否在域历史中(步骤1825)。如果提供 商域字段1925不在域历史中,则过程返回到步骤1805以从动作数据库 157中获得下一个动作。如果提供商域字段1925在域历史中,则客户端模 块125将动作和相应的域访问计数添加到动作数据库157中的动作列表 (步骤1830)中。

如果在步骤1810中确定已没有动作,则客户端模块125对动作数据库 157中的当前动作列表进行排序(步骤1840)。在一个实施例中,客户端 模块125随后确定是否显示超过一个动作(步骤1850)。如果不是,则客 户端模块125形成UI并提供针对第一动作的链接(步骤1855)。然后, 过程结束(步骤1860)。如果是显示超过一个动作,则客户端模块125从 已排序列表中获取下一个动作(步骤1865)。客户端模块125随后确定是 否还有动作(步骤1870)。如果没有,则过程结束(步骤1860)。如果 还有动作,则客户端模块125形成针对当前动作的UI和链接(步骤 1880)。然后,过程返回到步骤1865。

计算设备105用于填充基于域的历史的伪代码的实施例如下:

Begin

While浏览器历史中还有URL

从URL中提取域

If域在域历史列表中被看到

在域历史中递增访问计数

Else

针对该域在域历史中添加新条目

End if

Loop

End

计算设备105用于填充基于动作的UI的伪代码的实施例如下:

Begin

While动作数据库中还有动作

If动作对于当前类别有效

If动作的域在基于域的浏览器历史中

将动作添加到要考虑的“当前动作”中

End if

End if

Loop

根据域访问按降序对“当前动作”进行排序

If显示多于一个动作

While还有“当前动作”

通过将当前术语代入动作URL模板中“形成”动作URL 显示动作URL链接

Loop

Else

得到第一个“当前动作”

通过将当前术语代入动作URL中形成动作URL

显示动作URL链接

End if

End

例如,再次参考图9,使得用户能够看到eBay上的Nintendo的 列表的动作950被显示。使得用户能够看到Craigslist上的Nintendo的列表的另一动作960被显示。参考图11,用于购票的基于单一提供商域 的动作用动作1160示出。基于多个提供商域的动作可以根据动作提供商 被分组,例如与Sports Illustrated相关联的动作1170和与ESPN相关联的 动作1180。

在一个实施例中,用户必须登录到服务中以使这些步骤发生。应当注 意这里所描述的一个或多个步骤可以按任意顺序(除非另外注释)在第二 内容区域打开或关闭时(除非另外注释)被执行。

图20是图1的服务器计算机中的话题和类别确定模块145的实施例的 框图。在一个实施例中,话题和类别确定模块145包括训练模块2005、索 引模块2010和实时(run-time)模块2015。图21是图示了图20的模块 2005,2010,2015所执行的步骤的流程图。训练模块2005执行离线训练步 骤(步骤2105)以生成两个被监管的机器学习模型(下面被称为分类 器)。如下面更详细描述的,离线训练步骤包括获取数据并分析所获取的 数据以能够生成一个或多个分类器,这些分类器随后可被应用于web页面 以确定针对web页面的一组话题和类别。索引模块2010利用在训练步骤 中生成的分类器执行索引步骤。索引步骤包括获取web页面并分析web页 面以确定针对web页面的一组话题和类别。索引步骤存储针对每个web页 面确定的话题和类别。实时模块2015在用户请求针对用户已导航到的特 定web页面的话题时提供在索引步骤中所确定的话题和类别。这些模块 2005,2010,2015可以是软件、硬件或软件和硬件的组合。例如,在一个实 施例中,模块2005,2010,2015中的一个或多个是计算设备。此外,每个 模块2005,2010,2015的功能可以被合并到单一软件模块或计算设备中。

图22是训练模块2005的实施例的框图。图23是训练模块2005所执 行的步骤的实施例的流程图。在一个实施例中,训练模块2005获取一个 或多个web文章2205(步骤2305)。

在一个实施例中,web文章2205是从一个或多个知识收集网站数据文 件获取的外部文档,所述数据文件例如来自www.wikipedia.org的数据文 件。有大量的文章,并且每篇文章包括链接结构并且属于至少 一个类别。此外,“重定向页面”实现了文章的同义词辨别。文章中的每个 链接指向已消除歧义的文章。此外,中的类别等级结构是宽泛 且深入的,并且文章的链接结构是用于消歧和选择的被标记的 训练数据的有用资源,如下所述。

在一个实施例中,训练模块2005包括文章信息提取模块2210以从每 个web文章2205中提取信息(步骤2310)。在一个实施例中,文章信息 提取模块2210是将数据(例如web文章)拆分到分类体系中 的一组节点中。文章信息提取模块2205还可以确定与所提取信息相关联 的链接数据(步骤2315)。从每个web文章获得的链接数据可以包括例如 其链入链接(来自其它web文章的链接)、其链出链接(去往其它web文 章的链接)、任意重定向(来自同义词)、类别等级结构和/或消歧(如下 所述)。提取模块2210将链接数据和所提取的信息(例如,文章的正 文、链入链接、链出链接、任意重定向、类别等级结构和/或消歧)存储在 存储介质2215(例如数据库)中。链接结构形成被用于生成消 歧分类器和选择分类器的被标记的训练实例。

在一个实施例中,消歧学习模块2220对存储在存储介质2215中的信 息进行操作。如这里所使用的,消歧是确定可能具有多个含义的短语(一 个或多个相邻单词)的含义的过程。在一个实施例中,如果短语链接到不 止一个web文章,则该短语具有多个含义。消歧是确定哪个含义是在特定 使用环境中的适当含义的过程。例如,单词“树”可能与木质植物有关,或 者它可能与数据结构有关。单词“树”被使用的方式、树周围的单词等决定 哪一种树的用法是针对给定短语的正确用法。

消歧学习模块2220从所提取的信息和/或链接数据中进行学习以对所 提取的信息进行消歧(步骤2320)。具体而言,在一个实施例中,消歧学 习模块2220学习利用有歧义短语的上下文(无歧义话题)预测有歧义短 语的含义的可能性。如果短语只有一种含义,则该短语被认为是无歧义 的。为了对短语进行消歧,为一组同时出现的无歧义短语创建特征向量。 消歧学习模块2220随后根据它的学习生成消歧分类器2225(步骤 2325)。在一个实施例中,消歧分类器2225是利用C4.5算法创建的梯度 渐近决策树。消歧的特征包括例如:1)含义的先前概率或通用性(例 如,含义出现的次数/含义的总数目);2)相关性;和/或3)上下文质量 (例如上下文文章的平均相关性)。

两个话题(也被称为概念)之间的相关性是链接到两个话题(概念) 的共同文章比上那些链接到任一话题的文章的数目的分值。在一个实施例 中,对于两个文章,相关性是标准化的Google距离 (NGD),作为到每个文章的一组链入链接函数。基本上,NGD衡量两 个单词之间的关系的强度。例如,“扬声器”和“声音”比“扬声器”和 “大象”更加相关。在一个实施例中,当两个单词被一起用在搜索中时, 消歧学习模块420找到Yahoo!或Google页面计数。(“扬声器”和“声 音”与“扬声器”和“大象”相比将具有相对较大数目的结果页面)。因 而,搜索距离是从Google搜索引擎针对给定的一组关键字返回的命中数目 得到的对语义互相关性的测量。在自然语言含义下具有相同或相似意义的 关键字就搜索距离而言往往是“近的”,而具有不相似意义的单词往往是 距离较远的。

消歧学习模块2220与选择学习模块2230进行通信。选择学习模块 2230根据话题(概念)描述文档(例如web文章2205)的议题的好坏程 度对话题(概念)进行排序。如这里所使用的,文档的议题在这里被定义 为排序的概念的列表。该列表根据概念对于被请求文档的重要性被排序。 在一个实施例中,话题是出现在文档中并且是内的文章(节 点)的主题的一个或多个相邻单词。具体而言,选择学习模块2230进行 学习以选择所提取的信息的一部分作为与web文章的议题相关的信息(步 骤2330)。一旦选择学习模块2230已经学会选择话题,选择分类器2235 被生成(步骤2335)。选择分类器2235进行学习以预测话题将成为锚的 概率。在一个实施例中,选择分类器2235是梯度渐近决策树。在一个实 施例中,在给定消歧分类器的上下文输出的情况下,选择学习模块2230 根据话题对文档(例如web页面)议题的描述的好坏程度对话题进行排 序。文章中的锚例如通过遵循(例如来自的)一组 链接指南被创建。选择分类器2235的特征包括“关键短语 (keyphraseness)”、消歧概率、与上下文术语的相关性、分 类体系中的深度、计数、分布(例如,出现段落的数目/段落总数)。

如下面更详细描述的,选择分类器2235在索引阶段与消歧分类器 2225一起被用来确定web页面的一组话题和类别(步骤2340)。应当注 意图22的每个模块2210,2215,2220,2225,2230,2235可以是软件、硬件 或软件和硬件的组合。此外,这些模块中的一个或多个的功能可以与一个 或多个附加模块进行组合。

图24是索引模块2010的实施例的框图。图25是图示了索引模块 2010所执行的步骤的实施例的流程图。在离线训练步骤被执行之后,话题 和类别确定模块145执行索引步骤。在一个实施例中,话题和类别确定模 块145发出web搜索软件(常被称为蜘蛛)以在web上“爬行”。结果, 服务器获取一个或多个web页面2405(步骤2505)并将每个web页面 2405发送给索引模块2010。

索引模块2010包括标记化模块2410。在一个实施例中,标记化模块 2410对每个被爬行的web页面2405进行标记化以确定web页面2405中与 所存储的数据(例如与名字2415)相关联的短语(一个或多 个相邻单词)(步骤2510)。在一个实施例中,标记化模块2410将在 web页面2405中找到的名字2420发送给消歧分类器2225。如 上所述,消歧分类器2225利用上下文(无歧义话题)预测有歧义短语的 含义的概率并输出针对被爬行web页面2405的每个标记化短语的上下文 2430(步骤2515)。

图26是消歧示例的实施例的屏幕截图。消歧分类器2225分析在文章 2605的标题“Tata buys Jaguar in£1.15bn deal”中出现的单词“Jaguar”, 并确定“Jaguar”可能是指动物(在框2610中示出)、汽车品牌Jaguar (在框2615中示出)或者Jaguar战斗机(在框2620中示出)。

图27A是消歧示例中的另一实施例的屏幕截图2700。消歧分类器 2225分析文章2605确定文章2605中的大部分短语与Jaguar汽车品牌 2615相关。消歧分类器2225确定了单词“Jaguar”在web文章2605中的 适当含义。消歧分类器2225的输出的一个实施例被显示在图27B的输出 窗2705中。输出窗2705显示消歧分类器2225已确定web文章2605 的概念或话题实时“Jaguar Cars”。输出窗2705还显示消歧分类器2225 已确定概念或话题“Jaguar Cars”有很多关联类别,例如英国品牌、汽车 制造商、Tata组、Coventry汽车公司和英国的汽车制造商。每个类别具有 表示类别与web文章2605的相关程度的相应的权重。在一个实施例中, 该权重是消歧信心值,该值对于无歧义短语可为1,而对于具有多个含义 的那些短语为<1的值。

如上所述,选择分类器2235被应用于短语的上下文并根据话题描述 web文档2405的议题的好坏程度对话题进行排序或排名。图28A是选择 示例的实施例的屏幕截图2800。选择分类器2235接收到web文章2605中 的短语的上下文,并基于话题描述web文档2605的议题的好坏程度对从 短语确定的话题2805(如图28B中所示)进行排名。选择分类器2235的 输出窗2810(如图28C中所示)图示了所找到的话题和它们相应的权重 的示例。

再次参考图24和25,在一个实施例中,选择分类器2235将与web页 面2405相关联的话题和类别2435发送到话题排序模块2440中。话题排序 模块2440包括相关性(Aboutness)模块2445和“搜索招致(Search- inducing)”度模块2450。相关性模块2445滤出对于最大的相关话题的群 组而言不重要的话题。在一个实施例中,相关性模块2445是二级相关性 过滤器。在一个实施例中,相关性模块2445去除与上下文2430中的其它 话题具有较低关联的话题。在一个实施例中,相关性模块2445被建模为 话题相对于web页面上呈现的其它话题的统治性。在一个实施例中,话题 的统治性被定义为其链出链接覆盖对上下文话题的覆盖率。作为等式,话 题的统治性被定义为:

在一个实施例中,相关性模块2445根据相关性对被选择的话题进行排 名并弃掉具有零值的那些话题。在一个实施例中,相关性模块2445为在 web页面2405中被标识的每个话题提供分数。该分数表示话题与针对web 页面2405找到的其它话题相比的统治程度。在另一实施例中,相关性模 块2445提供分数(表示话题的统治程度)和针对该分数的权重(表示多 少权重应当被提供给特定的分数值)。在一个实施例中,相关性模块2445 生成分类器以学习在大规模文章中选择单一统治性话题。

在一个实施例中,话题排序模块2440还包括“搜索招致(search- inducing)”度模块2450。“搜索招致”度描述术语将显式地被进行web搜索 的概率。在一个实施例中,该模块2450对从选择分类器2235发送来的话 题2435重新排名。“搜索招致”度可以针对每个话题被计算,将其表面形式 作为搜索查询,并且“搜索招致”度是以下量中的一个或多个量的函数:1) 到达当前页面2405的查询的数目;2)查询的总数;和3)蜂鸣(buzz) 分数的变化,其中蜂鸣一般指在考虑的话题是否正在接收互联网上的很多 关注(例如,话题当前有多少新闻价值)。

来自话题排序模块2440的话题和类别输出2452随后被应用于类别排 名模块2455。在一个实施例中,类别排名模块2455进一步对类别2452进 行排名。在一个实施例中,每个话题属于很多不同的类别。在一个实施例 中,类别排名模块2455对针对与当前上下文有密切关系的每个话题的类 别进行排名。在一个实施例中,类别2452作为它们与那些其它被选择话 题的一致性和在类别等级结构中的深度的函数被排名。例如, 对于Arnold Schwarzenegger,在讨论演员的web页面中,类别排名模块 2455将类别“美国电影演员”排到比“加利福尼亚州的政府官员”高的排名。 在一个实施例中,类别排名模块2455输出与每个web页面2405相关的话 题和类别文档2460(例如以XML的形式)。应当注意,图24的每个模块 2410,2415,2225,2235,2440,2445,2450和2455可以是软件、硬件或软件 和硬件的组合。此外,这些模块中的一个或多个模块的功能可以与一个或 多个附加模块进行组合。

在之前描述的步骤完成之后,实时步骤被执行。用户利用计算设备 105(如图1中所示)所显示的web浏览器导航到特定web页面。图29示 出了用户已导航到的web页面2905和侧边栏2910的实施例的屏幕截图。 Web页面2905被显示在浏览器2920的第一内容区域2915中。侧边栏 2910被显示在浏览器2920的第二内容区域2925中。在一个实施例中, web页面2905的URL 2930被发送给服务器计算机110(如图1中所 示)。在一个实施例中,服务器计算机110利用URL 2930查询其存储装 置155(如图1中所示)以获取与web页面2905所关联的话题相对应的实 体。在一个实施例中,哈希函数被用来验证实体中的话题的新鲜度。实体 被计算设备显示在浏览器2920的第二内容区域2925中。例如,对于web 页面2905,实体2940,2945和2950被显示。实体可以包括例如与一组话 题中的话题相关联的文本、图标、图形、链接、视频等。

在一个实施例中,服务器110查询其存储装置155并确定不存在针对 特定URL 2930的实体。当这种情况发生时,在一个实施例中,服务器 110下载web页面2905并在web页面2905上执行上述索引步骤。当针对 URL 2930的与索引步骤相关联的处理被完成时,服务器110将与web页 面2905相关联的一个或多个实体发送给计算设备105用以显示。

图30是图示了根据本公开的一个或多个实施例的计算设备(例如服务 器110和/或计算设备105)的示例的内部体系结构的框图。如图30中所 示,内部体系结构3000包括与至少一个计算机总线3002接口的一个或多 个处理单元(这里也被称为CPU)3012。与计算机总线3002接口的还有 持久性存储介质3006、网络接口3014、存储器3004(例如,随机访问存 储器(RAM)、实时暂态存储器、只读存储器(ROM)等)、作为用于 可以读取和/或写入介质的驱动的接口的介质盘驱动接口3008(所述介质 包括诸如软盘、CD-ROM、DVD等介质之类的可移除介质)、作为用于监 视器或其它显示设备的接口的显示接口3010、作为用于键盘的接口的键盘 接口3016、作为用于鼠标或其它定位设备的接口的定位设备接口3018以 及未被单独示出的各种其它接口,例如并行和串行端口接口、通用串行总 线(USB)接口等等。

存储器3004与计算机总线3002连接以在软件程序执行期间将存储在 存储器3004中的信息提供给CPU 3012,所述软件程序例如操作系统、应 用程序、设备驱动器和包括程序代码和/或计算机可执行处理步骤的软件模 块,所述程序代码和/或计算机可执行处理步骤包括这里所描述的功能,例 如这里所描述的处理流程中的一个或多个。CPU 3012首先装载来自存储装 置的计算机可执行处理步骤,所述存储装置例如存储器3004、存储介质 3006、可移除介质驱动和/或其它存储设备。然后,CPU 3012可以执行被 存储的处理步骤以执行被装载的计算机可执行处理步骤。被存储的数据 (例如存储设备所存储的数据)可以在计算机可执行处理步骤的执行期间 被CPU 3012访问。

持久性存储介质3006是可被用于存储软件和数据(例如操作系统和一 个或多个应用程序)的计算机可读存储介质。持久性存储介质3006也可 以被用于存储设备驱动(例如数码相机驱动、监视器驱动、打印机驱动、 扫描仪驱动或者其它设备驱动中的一个或多个)、web页面、内容文件、 播放列表及其它文件。持久性存储介质3006还可以包括被用于实现本公 开的一个或多个实施例的程序模块和数据文件。持久性存储介质3006可 以是与计算设备通信的远程存储装置或本地存储装置。

为了本公开的目的,计算机可读存储介质以计算机可读的形式存储计 算机数据,所述数据可以包括计算机可执行的计算机程序代码。计算机存 储介质包括以任何用于存储信息的方法或技术实现的易失性和非易失性、 可移除和不可移除介质,所述信息例如计算机可读指令、数据结构、程序 模块或其它数据。计算机存储介质包括但不限于RAM、ROM、EPROM、 EEPROM、闪存或其它固态存储器技术、CD-ROM、DVD或其它光学存 储装置、磁带盒、磁带、磁盘存储装置或者其它磁性存储设备、或者任何 其它可被用于存储所需要的信息并且可被计算机访问的介质。

本领域技术人员将意识到本公开的方法和系统可以用很多方式来实 现,将不受前述示例性实施例和示例的限制。换言之,按照各种硬件和软 件或固件的组合形式的单个或多个组件所执行的功能单元和各个功能可以 被分布在客户端或服务器或者两者上的软件应用上。因此,这里所描述的 不同实施例的任意个特征可以被合并到一个或多个实施例中,并且具有更 少、更多或者全部这里所描述的特征的替代实施例也是可能的。功能也可 以按照目前已知的或者将变为公知的方式被整个或部分地分布在多个组件 中。因而,各种软件/硬件/固件的组合都可以用于实现这里所描述的功 能、特征、接口和偏好。此外,本公开的范围覆盖传统上已知的用于执行 所描述的特征、功能和接口的方式以及本领域技术人员目前和以后可以理 解的对这里所描述的硬件或软件或固件组件进行的那些改变和修改。

虽然系统和方法已用一个或多个实施例被进行了描述,但是应当理解 本公开不需要被局限于所公开的实施例。希望涵盖在权利要求的精神和范 围内所包括的各种修改和相似布置,权利要求的范围应当被进行最宽范围 的解释以包括所有这些修改和相似结构。本公开包括所附权利要求的任意 及全部实现方式。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号