首页> 中国专利> 利用从结构化文档中提取的特征来改善搜索关联性

利用从结构化文档中提取的特征来改善搜索关联性

摘要

从半结构化web页面中自动地提取的特征被搜索引擎利用来对包括半结构化web页面的文档进行排名。这些特征包括但不限于来自包括用户评论的web页面的评论的数目、肯定评论的数目和/或否定评论的数目。这些特征同样包括可通过半结构化web页面观看的视频的浏览数的数目。所述特征同样包括对来自社交联网web页面的个体的广播的订户的数目和在社交联网web页面上列举的个体的联系人的数目。

著录项

  • 公开/公告号CN103718178A

    专利类型发明专利

  • 公开/公告日2014-04-09

    原文格式PDF

  • 申请/专利权人 微软公司;

    申请/专利号CN201280037502.0

  • 申请日2012-07-23

  • 分类号G06F17/30;

  • 代理机构中国专利代理(香港)有限公司;

  • 代理人李舒

  • 地址 美国华盛顿州

  • 入库时间 2024-02-19 23:28:07

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-10-07

    授权

    授权

  • 2015-07-01

    专利申请权的转移 IPC(主分类):G06F17/30 变更前: 变更后: 登记生效日:20150612 申请日:20120723

    专利申请权、专利权的转移

  • 2014-05-07

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20120723

    实质审查的生效

  • 2014-04-09

    公开

    公开

说明书

背景技术

Web搜索引擎是被配置成搜索在万维网(World Wide Web)和FTP服务器上可得到的信息的计算机实施的系统。在操作中,搜索引擎接收由用户所发出的查询并且至少部分地基于该查询在由搜索引擎所索引的文档上来执行搜索。搜索引擎的目标是给用户提供与用户的信息检索意图最相关的文档。能够被搜索过并且提供给用户的文档的类型包括web页面、图像、来自新闻订阅的数据等。

搜索引擎希望给用户提供最相关的搜索结果,并且响应于查询的接收利用相对复杂的算法来输出文档的排名列表。排名最高的文档(被搜索引擎认为与用户的信息检索意图最相关的文档)被最显著地呈现给用户,典型地作为搜索结果的列表中的最顶部的搜索结果。当与最相关的搜索结果相比时被认为与用户的信息检索意图不太相关的搜索结果被呈现在搜索结果的排名列表中的较下面。

准确地确定哪些搜索结果对于用户而言是最重要的是非常重要的任务,因为一般地用户将不分析大量搜索结果来找到与用户的信息检索意图最相关的文档。相反地,如果用户未迅速地看见被认为与她的信息意图相关的搜索结果,则用户将很可能放弃搜索这种信息、重做查询或者试图使用另一搜索引擎来定位期望的信息。因为收入在搜索引擎中是基于广告费用被生成的,至关重要的是搜索引擎准确地相对于用户的信息检索意图来确定文档的排名以便保持业务量并且吸引新的用户。

发明内容

以下是被在本文中更详细地描述的主题的简要概括。至于权利要求的范围,这个概括不旨在为限制性的。

本文中所描述的是关于对由搜索引擎响应于接收到来自用户的查询而检索到的文档进行排名的各种技术。万维网在其上具有在性质上为半结构化的许多web页面。也就是说,半结构化web页面的内容不符合标准关系数据库模式(schema),但然而包括能够被识别的内容的特定模式。例如,零售商的web站点可以包括多个web页面,其中所述多个web页面中的每个web页面都被配置售卖或者描述产品。虽然web站点中的两个web页面针对不同的产品,但是两个web页面(连同属于该web站点的其它web页面)的结构和布局可以是基本上类似的。

例如,每个web页面分别可以具有在特定位置处的产品的图像、在特定位置处的产品的标题、在特定位置处的产品的评论等。在另一例子中,web站点可以包括被配置成将各种视频呈现给其用户的多个web页面。因此,虽然这种web站点中的每个web页面显示不同的视频,但是web页面中的每一个都可以包括在特定位置处的相应视频的标题、在特定位置处的视频的浏览数(views)的数目、在特定位置处的关于视频的点评等。而且,社交联网web站点可以包括被配置成呈现针对社交联网web站点的许多不同用户的简档(profile)的多个web页面。再者,虽然每个web页面可以显示关于不同用户的信息,但是诸如用户的标识、用户的图像、用户的简历、用户的联系人的数目等之类的特定特征可以跨越这种web站点的web页面处于类似的位置中。

一般地,搜索引擎在确定如何响应于查询的接收来对web页面进行排名时未能考虑与由用户所发出的查询的内容独立的web页面上的内容。在示范性实施例中,本文中所描述的搜索引擎可以输出搜索结果的排名列表,其包括至少一个半结构化web页面,其中半结构化web页面在搜索结果的排名列表中的位置是至少部分地基于显示给与查询的内容独立的web页面的用户的特征的值的。按照例子,半结构化web页面可以是被配置成显示关于特定产品的信息的web页面。能够在响应于查询的接收确定这种web页面的位置时被考虑的示范性特征能够包括由产品的购买人在这种web页面上所张贴的评论的数目、由产品的购买人在web页面上所张贴的肯定评论的数目和/或由产品的购买人在web页面上所张贴的否定评论的数目。因此,在例子中用户可以将查询“camera (相机)”提供给搜索引擎,并且搜索引擎能够检索描述(并且可能地售卖)两个不同的相应相机的两个不同的半结构化web页面。描述具有较大量肯定评论的相机的web页面可以在搜索结果中被定位在描述具有较少肯定评论或较多否定评论的相机的web页面以上。

在另一示范性实施例中,半结构化web页面可以被配置成将视频呈现给用户。这种web页面在搜索结果的排名列表中的位置可以是至少部分地基于已经观看了如在该web页面上的特定位置处所指示的这种视频的用户的数目的。因此,例如,用户可以发出与被显示在两个不同半结构化web页面上的两个不同视频的标题匹配的查询。搜索引擎可以将两个web页面呈现在搜索结果的排名列表中,使得包括具有较大量浏览数的视频的web页面在搜索结果的排名列表中比包括具有较少量浏览数的视频的web页面被呈现更高。在再又一个示范性实施例中,半结构化web页面可以包括个体的简档信息,其中简档信息可以包括个体的名字、个体的位置、个体的兴趣以及个体的联系人(朋友)的数目。响应于查询的接收,搜索引擎能够使包括这种简档信息的半结构化web页面至少部分地基于个体的联系人的数目而被定位于搜索结果的排名列表中。

为了搜索引擎考虑这个信息,许多预处理步骤能够被进行。首先,可以被搜索引擎在对搜索结果进行排名时合意地采用的特征(还被称为信号)能够被标识,其中这种特征可能跨越特定半结构化web页面是常见的。这些特征可以例如通过对搜索引擎的查询日志的程序分析而被确定。例如,通过对提交给搜索引擎的查询的程序分析,能够确定术语“review (评论)”常常被用户提供,并且许多半结构化web页面包括这种术语。替换地,可能与搜索结果的排名相关的特征能够通过对包括半结构化web页面的流行web站点的分析而被手动地指示。例如,流行的社交联网站点可以包括这样的半结构化web页面,其每个都包括相应个体的许多联系人。一旦这种特征已经被标识了,半自动化包装器(wrapper)归纳技术能够被采用来跨越多个类似的半结构化web页面自动地标识这些特征的存在。

在特征已经跨越所述多个半结构化web页面被标识了之后,机器学习技术能够被采用来学习将分数分配给特征的评分功能,其中分数指示特征相对于包括所述特征的web页面在搜索结果的排名列表中的位置的重要性。例如,回归树模型能够被用来在一组提取的特征和值上学习评分功能,从而跨越许多半结构化web页面将重要性分数分配给特征。这些分数可以被馈送到排名器(其对搜索结果进行排名)中以用于连同由这种排名器在输出搜索结果的排名列表时常规使用的其它特征一起来训练排名器。

在阅读并且理解了附图和说明书之后,其它方面将被领会。

附图说明

图1是便于将文档的排名列表输出给用户的示范性系统的功能框图。

图2说明了包括关于产品的信息的示范性半结构化web页面。

图3说明了包括关于视频的信息的示范性半结构化web页面。

图4说明了描绘社交联网web站点的简档web页面的示范性半结构化web页面。

图5是便于学习包装器的示范性系统的功能框图,所述包装器能够被配置成跨越许多半结构化web页面自动地提取特定特征的值。

图6是便于学习评分功能的示范性系统的功能框图,所述评分功能将指示特征相对于信息检索对半结构化web页面的重要性的分数分配给该特征。

图7是便于至少部分地基于分配给半结构化web页面的分数来训练排名器构件的示范性系统的功能框图,所述半结构化web页面包括自动地提取的特征值。

图8是说明用于在半结构化web页面中自动地提取针对特定特征的值的示范性方法的流程图。

图9是说明用于将指示特征相对于信息检索的重要性的重要性分数分配给半结构化web页面的示范性方法的流程图。

图10是说明用于训练排名器的示范性方法的流程图,所述排名器至少部分地基于相对于特定特征分配给web页面的重要性分数来对文档进行排名。

图11是说明用于响应于查询的接收将文档的排名列表输出给用户的示范性方法的流程图。

图12是示范性计算系统。

具体实施方式

现将参考附图描述关于响应于查询的接收来输出文档的排名列表的各种技术,其中相同的附图标记自始至终表示相同的元素。此外,示范性系统的数个功能框图在本文中被说明和描述以用于解释的目的;然而,应理解,被描述为被特定系统构件执行的功能性可以被多个构件执行。类似地,例如,构件可以被配置成执行被描述为被多个构件执行的功能性。附加地,如本文所用的那样,术语“示范性的”旨在意指用作某事物的说明或例子,并且不旨在指示偏好。

如本文所用的那样,术语“构件”和“系统”旨在包含配置有计算机可执行指令的计算机可读数据存储装置,所述计算机可执行指令当被处理器执行时使特定功能性被执行。计算机可执行指令可以包括例行程序、函数等等。同样应理解,构件或系统可以位于单个设备上或者跨越数个设备被分布。

现参考图1,便于响应于接收到来自用户的查询而输出文档的排名列表的示范性系统100被说明。系统100包括数据储存器102,其保持可由通用搜索引擎检索的多个文档。例如,数据储存器102可以是驻留在服务器上的硬盘驱动器、存储器的一部分或其它适合的硬件数据存储设备。数据储存器102的内容能够包括web页面、图像、视频、文档、应用或能够被搜索引擎检索的其它适合的实体。在数据储存器102中包括的文档中的至少一些是半结构化web页面。

例如,数据储存器102能够包括第一个半结构化web页面104至第N个半结构化web页面106。如本文所用的那样,半结构化web页面是这样的web页面,其具有未能符合关系数据库的结构、但然而包括跨越多个其它半结构化web页面是一致的模式的内容。半结构化web页面的例子包括属于零售商的web站点的web页面,其中这种web页面是针对用于从零售商销售的不同产品的(但具有一致模式)。例如,针对第一产品的销售的web页面可以在这样的web页面上的特定位置中具有图像、标题、评论、描述等,并且属于针对第二产品的销售的这样的web站点的第二web页面同样可以在这样的第二web页面上的对应位置中具有图像、标题、评论、描述等。因此,第一个半结构化web页面104可以包括第一特征108至第M个特征110,并且第N个半结构化web页面106可以包括第一特征112和第M个特征114,其中第一个半结构化web页面104的第一特征108对应于第N个半结构化web页面106的第一特征112 (例如,两个部分分别描述关于第一个半结构化web页面104和第N个半结构化web页面106的不同产品),并且第一个半结构化web页面104的第M个特征110对应于第N个半结构化web页面106的第M个特征114 (例如,第一个半结构化web页面104的第M个特征110是由在第一个半结构化web页面104中显示的第一产品的购买人所张贴的评论的数目,然而第N个半结构化web页面106的第M个特征114是由在第N个半结构化web页面106中描绘的第N个产品的购买人所张贴的评论的数目)。

跨越半结构化web页面一致的特征可以和半结构化web页面与由搜索引擎的用户所提出的查询的关联性有一些关系。这种特征的标识可以例如通过对搜索引擎的查询点击日志的分析而被学习到。搜索引擎的查询日志的程序分析可以指示例如用户在搜索关于特定产品的信息时常常键入补充有术语“评论”的查询。因此可以推断,产品的评论一般地对于搜索产品的那些人而言可能是重要的。在另一例子中,通过对查询日志和对应的点击日志的程序分析,能够确定一般地当搜索器执行针对可能具有公共名字(例如,John Simth)的特定人员的搜索时,在社交联网站点中具有最多朋友的具有这样的公共名字的人员可能是最常被搜索器选择的简档。因此,通过对包括数个半结构化web页面的web站点的分析(使得一致模式能够针对特定特征被定位)和/或对查询日志和/或点击日志的分析,可能与半结构化web页面相对于一个或多个查询的关联性有一些关系的半结构化web页面中的特征能够被确定。

在下面提供了能够被从各种不同类型的半结构化web页面中提取的特征的列表,其能够被搜索引擎当在文档的排名列表之中定位半结构化web页面时利用。然而,这个列表在性质上是示范性的并且不旨在限制在此附加的权利要求的范围。在第一例子中,半结构化web页面可以属于零售商web站点并且可以被配置成描述以及售卖特定产品。能够被搜索引擎当在文档的排名列表之中定位半结构化web页面时利用(并且跨越属于前述web站点的许多半结构化web页面被一致地定位)的这样的半结构化web页面上的特征可以包括但不限于由产品的购买人在web页面上所张贴的评论的数目、由产品的购买人在web页面上所张贴的肯定评论的数目、由产品的购买人在web页面上所张贴的否定评论的数目、在由产品的购买人在web页面上所张贴的评论中包括的肯定术语(伟大的、极好的、高兴的等)的数目、由产品的购买人在web页面上所张贴的否定术语(欠佳的、坏的、不足等)的数目等等特征。

在另一例子中,数据储存器102中的半结构化web页面可以属于被配置成将各种视频显示给用户的web站点,其中属于所述web站点的不同web页面显示不同的视频。能够被搜索引擎当(响应于查询的接收)在文档的排名列表中定位半结构化web页面时利用的能够被从半结构化web页面中提取(并且跨越属于web站点的多个半结构化web页面而存在)的特征可以包括:在web页面上显示的视频的浏览数的数目;由在web页面上显示的视频的观看者所张贴的点评的数目;由在web页面上的视频的观看者所张贴的肯定点评的数目;由在web页面上显示的视频的评论者所张贴的否定点评的数目;点评中的肯定术语的数目;点评中的否定术语的数目等。例如,点评能够通过自然语言处理技术被标记为肯定的或否定的。

在再又一个示范性实施例中,可以被包括在数据储存器102中的半结构化web页面可以属于社交联网web站点,其中这种半结构化web页面是描绘特定个体或实体的简历信息的简档页面。能够被搜索引擎采用来在文档的排名列表之中定位web页面的示范性特征是在简档页面中被扼要描述(profiled)的实体的联系人或朋友的数目。在再又一个例子中,被包括在数据储存器中的半结构化web页面可以属于被配置成允许其用户将消息广播给许多追随者或订户的社交联网web站点。因此,属于这种web站点的半结构化web页面可以包括信息的张贴者或广播员的标识、以及订阅这种实体的广播的订户(追随者)的数目。在半结构化web页面上的订户的数目能够指示该web页面相对于查询的关联性。例如,两个不同的广播员可以在名字John Doe下广播。两个John Doe中的第一个可以具有相对少量的订户或追随者,然而John Doe中的第二个可以具有相对大量的订户或追随者。在一般情况下,搜索John Doe的一个人很可能对具有较大量追随者或订户的John Doe的web页面感兴趣。虽然数个示范性半结构化web页面和特征已被描述了,但是能够确定,数据储存器102可以包括具有能够被自主地从半结构化web页面中提取的各种特征的许多不同的半结构化web页面,并且这些特征可以指示半结构化web页面相对于由搜索引擎的用户所提供的查询的关联性。

系统100附加地包括接收由用户所提出的查询的接收器构件116。所述查询可以是针对特定产品、针对特定人员、针对特定视频、针对特定图像等的。排名器构件118与接收器构件116通信并且使用由接收器构件116所接收到的查询在数据储存器102的内容上来执行搜索。排名器构件118被配置成选择性地从数据储存器102中检索文档并且对被视为与查询相关的文档进行排名。换句话说,排名器构件118响应于查询的接收来输出文档的排名列表。排名器构件118能够生成文档的排名列表,其通过对与这种文档相对应的特征进行分析来实现,所述特征包括但不限于文档中的文本、被利用来描述或者强调文档中的文本的字体、特定文本在与查询相关的web页面上的位置等。

附加地,返回给查询的发出者的文档的排名列表能够在文档的排名列表中的特定位置处包括数据储存器102中的半结构化web页面104-106中的至少一个。排名器构件118能够至少部分地基于在半结构化web页面中的学习的位置处的特征(信号)的值选择性地将至少一个半结构化web页面定位于文档的排名列表中。如将在下面被描述的那样,包装器归纳能够被采用来学习自动地提取半结构化web页面上的特征(包括分别在半结构化web页面104-106上的特征108-114)的包装器。此外,被排名器构件118用来在搜索结果的排名列表之中选择性地定位半结构化web页面的特征的值能够独立于查询的内容之间的任何相关性。也就是说,在半结构化web页面中的学习的位置处的特征的值可能与被包括在查询中的文本不相关。

按照例子,由接收器构件所接收到的查询可以是“camera (相机)”。第一个半结构化web页面104可以被配置成描述并且售卖第一相机,然而第N个半结构化web页面106可以包括描述并且售卖第二相机的内容。第一个半结构化web页面104上的第一特征108可以是肯定评论,并且第一特征108的值可以是由第一相机的购买人在第一个半结构化web页面104上所张贴的肯定评论的数目。类似地,第N个半结构化web页面106上的第一特征112可以是肯定评论,并且第N个web页面106上的第一特征112的值可以是由第二相机的购买人在第N个web页面106上所张贴的肯定评论的数目。在例子中,第一web页面104的第一特征108的值可以是100,然而第N个web页面上的第一特征112的值可以是10。排名器构件118因此可以至少部分地基于与被用户发出的查询“camera (相机)”不相关的特征值(10和100)而在文档的排名列表中相比于第N个半结构化web页面106将第一个半结构化web页面104定位更高。

除利用从半结构化web页面中提取的特征的值之外,排名器构件118还能够考虑在半结构化web页面上的特征之间的学习的关系。例如,描述汽车的半结构化web页面能够包括标识汽车的制造商和型号的第一特征、以及标识汽车的燃料效率的第二特征。常规地,搜索引擎单独地“理解”每个特征,但未设想利用对特征之间的关系的理解来响应于查询的接收对搜索结果进行排名。在例子中,查询/点击日志能够被以编程方式分析,并且能够确定,搜索器常常发出包括针对汽车的制造商和型号的术语的查询,在所述制造商和型号后面是术语“燃料效率”。因为特定的半结构化web页面在其间具有一致布局,所以理解能够在跨越半结构化web页面的特征之间被学习到,并且排名器构件118能够采用这种理解来选择性地将web页面定位于文档的排名列表中。

虽然半结构化文档的数个例子在上面已被提出了,但是应理解,这种例子不旨在为全面列表或者限制权利要求的范围。本文中所描述的方面能够结合对在某种意义上本质上是半结构化的图像的搜索、对音乐/歌词的搜索、对能够在计算设备(诸如便携式电话)上被执行的应用的搜索等一起被利用。附加地,本文中所描述的方面能够在万维网以外的环境中(诸如在包括许多半结构化文档的企业数据储存器等等上)被采用。

现参考图2,示范性半结构化web页面200被说明。半结构化web页面200属于被配置成售卖产品的零售商web站点。半结构化web页面200被以模板形式示出,因为属于该零售商web站点(或另一零售商web站点)的多个半结构化web页面将具有基本上类似的布局。半结构化web页面200包括位于半结构化web页面200的上部左手部分中的图像202。半结构化web页面200进一步包括特征“产品标识”204,其可以是在半结构化web页面200上被描述的产品的名字和/或型号编号。特征“评论的数目”206可以具有指示已经在web页面200上张贴了评论的产品的购买人的数目的值。这个特征可以位于例如在产品标识204的左手侧紧接在产品标识204之下并且在图像202右边。特征“社交媒体输入”208能够指示特定社交媒体web站点的成员已经指示它们满意产品的次数。社交媒体输入208可以紧接在评论的数目206右边被定位。

在评论的数目206和社交媒体输入208之下并且在半结构化web页面200的中心附近,产品描述210能够被显示,其中产品描述210能够描述与由产品标识204所标识的产品相对应的属性。在产品描述210之下并且在半结构化web页面200的左手侧,特征“肯定评论的数目”212和特征“否定评论的数目”214能够被显示。例如,当评论在半结构化web页面200上显示的产品时,评论者能够例如通过选择一至五颗星给产品分配满意的级别。因此,肯定评论的数目212的值可以是四星和五星评论的组合,然而否定评论的数目214的值可以是一星和两星评论的组合。应理解,不同零售web站点的不同的半结构化web页面可以允许变化的评论的级别(1至5、1至10等),并且用于标识肯定评论和否定评论的任何适合的机制被设想到。附加地,如果多个评论的级别被包括在web页面中,则每个单独的级别能够被考虑。

紧接在特征否定评论的数目214之下,由通过产品标识204所标识的产品的购买人所张贴的文字评论216可以被包括。在这种评论216中所示出的评论可以包括许多肯定评论和否定评论,并且因此可以包括许多肯定术语和否定术语。自然语言处理能够被采用来标识为肯定术语的术语和为否定的术语,并且在评论216中利用的肯定术语和否定术语的这种计数能够从半结构化web页面200中作为特征被提取。

能够被排名器构件118在将半结构化web页面200定位于文档的排名列表中时利用的半结构化web页面200的示范性特征能够包括评论的数目206的值、社交媒体输入208的值、肯定评论的数目212的值、否定评论的数目214的值、在评论216中包括的肯定术语的数目、在评论216中包括的否定评论的数目或其它适合的特征。此外,一般地,被利用来响应于查询的接收选择性地将结构化web页面200定位于文档的排名列表中的这样特征的值与查询的文本不相关。

现转向图3,另一示范性半结构化web页面300被说明。半结构化web页面300被再次以模板形式示出,因为属于该web站点或类似web站点的其它web页面将具有基本上类似的布局。半结构化web页面300可以属于被配置成将视频呈现给用户的web站点,其中属于web站点的不同web页面能够特载(feature)不同的视频。因此,示范性半结构化web页面300包括视频标题302,其是视频的标题。视频标题302可以被示出在半结构化web页面300的顶部附近。在视频标题302下面,能够被半结构化web页面300的观看者观看的视频304能够被包括。例如,视频304可以被配置成被流式传输到计算设备上的因特网浏览器。紧接在视频304的右边的可以是到被推荐给视频304的观看者的多个视频的链接306-308。例如,所推荐的视频可以与在半结构化web页面300上显示的视频304类似。

在视频304之下并且在半结构化web页面300的左手侧,特征“点评的数目”310可以被包括。这能够指示已经对这种视频304进行了点评的视频304的观看者的数目。在点评的数目310右边,视频304的特征“浏览数的数目”312可以被显示。浏览数的数目312的值可以指示已经在半结构化web页面300上观看了视频304的用户的数目。特征“社交媒体输入”314可以被定位在浏览数的数目312之下,其中社交媒体输入314的值能够指示已经通过社交联网站点指示他们已欣赏了视频304的视频的观看者的数目。在点评的数目310、浏览数的数目312以及社交媒体输入314之下,由视频304的观看者在半结构化web页面300上所张贴的点评316可以被包括。如上面所描述的那样,自然语言处理技术能够被采用来标识肯定点评的数目、否定点评的数目、在点评中包括的肯定术语的数目、和/或在点评中包括的否定术语的数目。

响应于查询的接收,排名器构件118能够考虑为在半结构化web页面300上的学习的位置处的半结构化web页面300的各种特征。例如,排名器构件118能够考虑被包括在半结构化web页面300中的所推荐的视频306-308的数目、点评的数目310的值、浏览数的数目312的值、社交媒体输入314的值和/或在半结构化web页面300的点评316中包括的肯定点评、否定点评、肯定术语和/或否定术语的数目。

现参考图4,能够被包括在数据储存器102中并且响应于查询的接收被检索的另一示范性半结构化web页面400被说明。半结构化web页面400是被包括在社交联网站点中的web页面,并且可以例如是简档页面。所述简档页面能够描绘关于社交联网web站点的特定用户的简档信息。这种简档页面可以具有与该社交联网web站点或其它社交联网站点基本上类似的布局。

半结构化web页面400包括在半结构化web页面400中被扼要描述的实体的名字402。表示用名字402命名的实体的图像404在名字402左边并且在半结构化web页面400的上部左手拐角处被包括在半结构化web页面400中。简历信息406被包括在扼要描述的实体的名字402之下,其中这种简历信息406能够指示被扼要描述的实体的兴趣、被扼要描述的实体的位置、被扼要描述的实体的生日、被扼要描述的实体的变化兴趣等。在图像404之下并且在简历信息406左边的特征“朋友的数目”408被包括在半结构化web页面400中。朋友的数目408的值指示已同意与在社交联网web站点上的半结构化web页面400中扼要描述的实体联系的个体的数目。

当在搜索结果的排名列表之中选择性地定位半结构化web页面400时,排名器构件118能够考虑朋友的数目408的值、在简历信息406中包括的兴趣的数目等。在替换的实施例中,社交联网web页面400可以是被配置成显示关于实体的信息的web页面,所述实体将消息广播给该实体的订户或追随者。因此,特征“朋友的数目”408可以替代地是在web页面400中所描绘的实体的订户或追随者的数目,并且排名器构件118当在文档的排名列表之中选择性地定位半结构化web页面400时能够考虑该特征。

现参考图5,便于自动地或者半自动地学习包装器的示范性系统500被说明,所述包装器被配置成从半结构化web页面中提取在这些web页面上的学习的/规定的位置处的特征值。系统500包括数据储存器502,所述数据储存器502包括训练数据。训练数据包括具有特定特征的多个半结构化web页面504,所述特定特征被标识为这样的特征,其可以被排名器构件118利用来当执行web搜索时在搜索结果的排名列表之中选择性地定位半结构化web页面。训练数据中的半结构化web页面504可以是相对于图2-4示出并且描述的半结构化web页面中的任一个。半结构化web页面504可以包括跨越半结构化web页面504的多个手动地标记的特征506。例如,一个或多个个体可以在各种半结构化web页面上手动地指示感兴趣特征位于哪里。在例子中,半结构化web页面504可以被配置成描述并且售卖特定产品,并且所述半结构化web页面中的已标记特征506可以指示这种产品的评论的数目、这种产品的肯定评论的数目等。

学习器构件508能够接收已标记的半结构化web页面504,并且通过包装器归纳,能够学习包装器510。包装器510是被配置成从半结构化web页面中提取内容并且将这种内容转化成适合形式(关系形式)的数据挖掘程序。形式上,包装器510是从半结构化web页面中提取内容并且将该内容格式化为一组期望的元组的功能。由包装器510所输出的元组能够包括标识web页面的数据以及从该web页面中提取的特征的值。在例子中,学习器构件508能够利用有监督的学习来学习被包括在包装器510中的提取规则。

系统500可以进一步包括另一数据储存器512,其包括验证数据,其中验证数据被提供给包装器510以便确定包装器510的可操作性。验证数据512包括半结构化web页面514,所述半结构化web页面514包括特征506,所述特征506经历了用训练数据在半结构化web页面504中进行标记。包装器510自动地从验证数据中的半结构化web页面中提取特征,并且这种特征能够被手动地分析以便确定包装器510的性能。如果包装器510正从验证数据中的半结构化web页面中成功地提取适当的特征,则包装器510能够被部署成自动地标识特征并且跨越多个半结构化web页面来提取针对特征的值。然而,如果包装器510未以足够的成功速率提取感兴趣特征,则附加的训练能够被进行。

系统500已被描述为利用有监督的学习来生成或者学习包装器510。然而,应理解,随着时间的推移,跨越万维网自动地从半结构化web页面中提取感兴趣特征的无监督模式挖掘技术能够被利用。在这个方法中,web站点能够针对固定模板被分析,并且这种模板的发现能够使得包装器510能够被以无监督方式被学习。

现参考图6,便于学习评分功能以便将指示特征相对于信息检索关联性的重要性的分数(权重)分配给特征的示范性系统600被说明。系统600包括数据储存器602,其包括特征值/页面604,其中特征值/页面604是包括半结构化web页面的标识和(按识别特征的标识的顺序)从半结构化web页面中提取的特征的值的元组。数据储存器602进一步包括查询/点击日志606,对于被采用来检索半结构化web页面的给定查询来说,所述查询/点击日志606指示用户是否点击了这种半结构化web页面。查询/点击日志606还能够包括这样的数据,其指示用户在从文档的排名列表中选择web页面后是否保持在半结构化web页面上、他们在观看被点击的半结构化web页面之后是否启动了新的搜索会话等。

系统600可以进一步包括分数学习器构件608,其能够学习将分数分配给从半结构化web页面中提取的特征的功能,其中分数指示这种特征对于半结构化web页面在搜索结果中的定位的重要性。例如,分数学习器构件608能够连同查询/点击日志606一起分析特征值/页面604,并且确定一般地对于包括产品信息的半结构化web页面来说包括相对大量的肯定评论的web页面比包括相对少量的肯定评论的web页面被用户更多地选择。这能够指示特征“评论的数目”对于半结构化web页面在搜索结果的排名列表中的定位而言是相对重要的,并且由分数学习器构件608所输出的评分功能能够相应地对这种特征值进行加权。在分数学习器构件608 (通过利用任何适合的机器学习技术)学习到评分功能之后,该评分功能能够被应用于针对相应的半结构化web页面的特征值。这导致生成针对从所述多个半结构化web页面中提取的特征的特征值的分数。

现转向图7,便于训练排名器构件118以便至少部分地基于从半结构化web页面上的学习的位置中提取的特征的值选择性地对在搜索期间所检索到的文档进行排名的示范性系统700被说明。系统700包括数据储存器702,所述储存器702包括多个半结构化web页面704、分配给半结构化web页面的特征的分数706以及查询/点击日志606。附加地,虽然未示出,但是数据储存器702可以包括分配给其它特征的分数,所述其它特征可以被包括在由排名器构件118当对搜索结果进行排名时被考虑的web页面中。按照例子,排名器构件118可以是基于判决树的排名器。

训练器构件708能够接收半结构化web页面704 (和其它web页面)的标识、针对在半结构化web页面704中包括的特征706的分数以及查询/点击日志606。训练器构件708能够训练排名器构件118,使得排名器构件118当对响应于用户查询的接收被输出的搜索结果进行排名时考虑上面已被描述的特征的值。

现参考图8-11,各种示范性方法被说明和描述。虽然方法被描述为被按顺序执行的一系列动作,但是应理解,方法不被顺序的次序限制。例如,一些动作可以以不同于本文中所描述的次序发生。此外,动作可以与另一动作同时发生。此外,在一些实例中,不是所有动作都可能被要求来实施本文中所描述的方法。

而且,本文中所描述的动作可以是能够被一个或多个处理器实施和/或存储在计算机可读介质或媒体上的计算机可执行指令。计算机可执行指令可以包括例行程序、子例行程序、程序、执行的线程等等。更进一步地,方法的动作的结果可以被存储在计算机可读介质中、显示在显示设备上等等。计算机可读介质可以是任何适合的计算机可读存储设备,诸如存储器、硬盘驱动器、CD、DVD、闪速驱动器等等。如本文所用的那样,术语“计算机可读介质”不旨在包含传播的信号。

现转向图8,被配置成自动地从半结构化web页面中提取特定特征的值的示范性方法800被说明。方法800在802处开始,并且在804处,被配置成定位跨越一个或多个web站点的半结构化web页面而存在的特征的学习的包装器被学习。例如,包装器能够被学习使得包装器提取这样的特征,诸如半结构化web页面上的产品的评论的数目、半结构化web页面上的产品的肯定评论的数目、半结构化web页面上的产品的否定评论的数目等。能够被从半结构化web页面中提取的其它示范性特征上面已被提出了。

在806处,包装器被用来自动地跨越一个或多个web站点的半结构化web页面来提取针对特征的值。方法800在808处完成。

现参考图9,便于将分数分配给少一个特征的示范性方法900被说明,所述分数指示特征与半结构化web页面在搜索结果的排名列表中的位置的关联性。方法900在902处开始,并且在904处,搜索引擎查询/点击日志被访问。在906处,对于多个半结构化web页面,针对通过学习的包装器所提取的特征的值被接收。在908处,至少部分地基于特征值和查询/点击日志将分数分配给特征的评分功能被学习。例如,查询/点击日志能够包括指示用户是否在发出查询之后已选择了半结构化web页面的数据,其中这种半结构化web页面包括特定特征。因此,特征值与在搜索结果之中的期望位置之间的相关性能够被确定。在特定例子中,模型能够在特征的集合上被学习到以便为文档预测流行度分数,其中用户点击能够被利用来确定流行度,因为它们指示用户的判断。在910处,分数被分配给至少一个特征,所述分数指示当选择性地对搜索结果进行排名以用于供应给用户时所述特征的重要性。例如,分数能够在排名器的训练期间被分配,所述排名器基于针对查询-URL对所给出的人为判断而被训练。更具体地,评分功能能够在特定特征值上被执行,所述特定特征值能够依据特征相对于搜索结果的排名列表的重要性对特征值进行加权。方法900在912处完成。

现参考图10,便于训练排名器的示范性方法1000被说明,所述排名器被配置成响应于查询的接收来输出搜索结果的排名列表。方法1000在1002处开始。在1004处,分配给半结构化web页面上的特征的分数被接收。附加地,分配给本文中所描述的特征以外的特征的分数能够被接收。在1006处,被配置成在搜索引擎中对文档进行排名的排名器至少部分地基于所接收到的分数被训练。方法1000在1008处完成。

现转向图11,便于响应于查询的接收来输出搜索结果的排名列表的示范性方法1100被说明。方法1100在1102处开始,并且在1104处,被配置成当被通用搜索引擎接收时检索文档的查询被接收。例如,查询可以包括词、短语、一些字母数字字符串等。在1106处,响应于查询的接收,文档的排名列表被提供给用户,其中文档的排名列表包括至少部分地基于已经通过学习的包装器被从web页面中的学习的位置中提取的特征的值而被定位于文档的排名列表中的半结构化web页面。附加地,特征的值独立于查询的内容。方法1100在1108处完成。

现参考图12,能够依据本文中所公开的系统和方法被使用的示范性计算设备1200的高级说明被说明。例如,计算设备1200可以被用在支持自动地提取在半结构化web页面的学习的位置处的特征的值的系统中。在另一例子中,计算设备1200的至少一部分可以被用在支持训练排名器的系统中,所述排名器被配置成输出文档的排名列表。在再又一个例子中,计算设备1200可以被采用在支持至少部分地基于被自动地从半结构化web页面中提取的特征来输出搜索结果的排名列表的系统中。计算设备1200包括至少一个处理器1202,其执行被存储在存储器1204中的指令。存储器1204可以是或者包括RAM、ROM、EEPROM、闪速存储器或其它适合的存储器。指令可以是例如用于实施描述为被上面所讨论的一个或多个构件执行的功能性的指令或用于实施上面所描述的方法中的一个或多个的指令。处理器1202可以通过系统总线1206来访问存储器1204。附加于存储可执行指令,存储器1204还可以存储特征、特征值等。

计算设备1200附加地包括可由处理器1202通过系统总线1206访问的数据储存器1208。数据储存器1208可以是或者包括任何适合的计算机可读存储装置,包括硬盘、存储器等。数据储存器1208可以包括可执行指令、特征、特征值、web页面等。计算设备1200同样包括允许外部设备与计算设备1200进行通信的输入接口1210。例如,输入接口1210可以被用来从外部计算设备、从用户等接收指令。计算设备1200同样包括将计算设备1200与一个或多个外部设备对接的输出接口1212。例如,计算设备1200可以通过输出接口1212来显示文本、图像等。

附加地,虽然被说明为单个系统,但是应理解,计算设备1200可以是分布式系统。因此,例如,数个设备可以通过网络连接进行通信并且可以共同地执行描述为被计算设备1200执行的任务。

应注意,数个例子已被提供用于解释的目的。这些例子将不被解释为限制所附权利要求。附加地,可以认识到,本文中所提供的例子可以被置换同时仍然落在权利要求的范围下。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号