首页> 中国专利> 概念上组织和表述信息的方法和系统

概念上组织和表述信息的方法和系统

摘要

一种概念上组织和表述信息的方法和系统(105)。使用多个用户对信息的组织和表述的响应的关联(115)以确定信息的最优组织和表述。在本发明一个实施例中,在搜索引擎结果最优化的情况下,搜索会话期间多个用户的用户活动和/或用户信息与查询进行关联以产生查询与文档的组织和表述之间的不断演化的联系。根据所述实施例的系统存储整个搜索会话期间用户的活动,从而可以对多种不同类型的用户活动和用户信息进行关联。使用关联后的用户输入允许所述系统提供相关的搜索结果而不受到现有技术中的基于关键词的系统的限制。

著录项

  • 公开/公告号CN1890664A

    专利类型发明专利

  • 公开/公告日2007-01-03

    原文格式PDF

  • 申请/专利权人 IAC搜索和媒体公司;

    申请/专利号CN200480035840.6

  • 发明设计人 A·柯蒂斯;A·莱文;A·杰拉索利斯;

    申请日2004-12-07

  • 分类号G06F17/30(20060101);

  • 代理机构11283 北京润平知识产权代理有限公司;

  • 代理人周建秋;王凤桐

  • 地址 美国加利福尼亚

  • 入库时间 2023-12-17 18:04:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2009-07-08

    授权

    授权

  • 2007-02-28

    实质审查的生效

    实质审查的生效

  • 2007-01-03

    公开

    公开

说明书

优先权要求

本申请涉及并且要求2003年12月8日提交的临时申请号60/528,139的优先权,其内容作为引用结合于此。

技术领域

本发明的实施例一般的涉及概念上的组织信息的领域,并且尤其涉及概念相关信息的使用分析以有效组织信息。

背景技术

随着信息的迅速增长,组织信息的能力也在增长。在互联网相关的网络(例如万维网)或者其他互联网源上可以找到大量信息源。互联网是计算机网络的扩展网络,信息通过本领域技术人员公知的方法(例如TCP和IP协议的使用等等)而在互联网上交换。互联网允许用户在连接到该网络的计算机之间发送和接收数据。这些数据可以包括网站、主页、数据库、文本集合、音频、视频或者通过连接到互联网的计算机服务器在互联网上可用的任何其他类型的信息。这些信息可以被称为文件或者文档,并且可以包括网页、网页上的数据、网页附件或者存储设备(例如数据库)中包含的其他数据。

理解如此大量文档集合的意义并且在这种环境中搜索信息,在没有专门的辅助手段时是很困难的。一种辅助定位信息的方法是使用关键词。也就是说,文档可以包括表示包含在文档中的信息的选定部分的关键词。这些关键词在互联网上对其他计算机是可用的并且允许其他计算机定位该文档。

为了定位互联网上的文档,远程计算机的用户使用被称为搜索引擎的搜索程序而搜索关键词。搜索引擎是允许远程用户键入一个或多个搜索词的程序。然后搜索引擎将搜索查询与文档中的关键词相比较并且至少检索文档中具有与搜索查询匹配的关键词的部分。然后搜索引擎对用户显示部分文档,例如标题。用户可以在检索到的局部文档中滚动浏览并且选择所需文档。

早期的关键词搜索引擎显示出严重缺陷。例如,为了增加特定文档的出现率,文档提供者可以使用与文档相关的尽可能多的搜索词。实际上,某些文档或者搜索引擎使用文档中的每个词作为关键词。因此,搜索引擎会检索到大量与用户需要通过搜索词组合寻找的主题无关或者仅边缘相关的文档。并且,这些搜索引擎的很多用户并不熟悉形成关键词搜索查询的技巧并且产生过于宽泛的搜索从而经常检索到数千个文档。那么用户必须检查关于各个文档的摘要信息以定位所需信息。

这种缺陷通过搜索引擎的演变得以解决,即包括基于一个或多个用户的搜索活动的信息组织。这些方法基于用户偏好度多数意见而不是面向文档的参数(例如文本)而对结果排序。其中一种这样的方法根据基于所使用的关键词的演化得分而对文档排序。也就是说,文档接收与搜索查询的关键词相关的相关度分数。随着用户输入搜索查询并且在查询产生的文档列表中选择文档时,文档的相关度分数被调整。这些分数被用于组织文档的结果列表以进行后续搜索。这些方法典型的(至少在部分上)基于文档接收到的“点击”次数(即文档被选择的次数)而确定相关度。这些方法通常称为“人气排序方法”或者“点击人气方法”,提供了将最吸引并且满足最大多数先前用户的文档排列在最前面的搜索结果列表。而且,点击人气方法产生反映搜索上下文的结果。例如,先前的搜索方法会返回包含所有查询词的文档,但是不会自动排除不是查询部分的词。因此,对于“Mexico”的文本匹配搜索最有可能返回关于“New Mexico”的结果。点击人气方法可以减少这种错误结果,因为搜索“Mexico”的用户通常不会点击关于“New Mexico”的页面并且会倾向于点击他们认为与“Mexico”最相关的页面,从而增加了所需文档的相关度。

由于与查询词相关的信息随着时间可能改变,基于点击次数确定相关度可能导致错误结果。例如,对于“民主先驱”的特定查询,涉及早期先驱HowardDean的文档可能在2003年12月被选择了很多次,但是2004年3月输入该查询的用户可能期望在此时作为领袖的John Kerry的结果。并且,排在最前面的结果通常会受到不成比例的更多的使用,这样导致了越来越歪曲的搜索结果,其中排在最前面的结果永远不会被替代。

通过使用包括基于时间和基于使用的因素在内的大量因素对响应于查询提供的信息进行组织的搜索引擎已经解决了这些缺陷中的一部分。例如,这种方法可能使用先前用户响应于特定查询的活动而调整查询响应文档的相关度。这样的用户活动可以包括点击次数以及先前用户对特定信息的选择或者使用的时间。这些方法还可以将特定文档在先前用户对其选择时排列在先前结果列表中何处、文档的实际和期望使用频率的对比以及选定的文档如何被使用等考虑在内。

然而,在当前方法中仍然存在大量缺陷。例如,当前方法并没有解决非常稀少的查询的问题,其中并没有汇集足够的用户活动数据。在此情况下,结果可能很少或者不存在。并且,点击结果依赖于数据源的质量和完整性。当前方法不能解决数据源质量的巨大差异。而且,当前方法受到欺骗影响,可能影响搜索结果的完整性。根据现有技术的一种示例方法试图通过在用户活动的基础上更新搜索引擎结果而解决某些问题。这种方法在名称为“SearchEngine”的美国专利No.6,421,675中进行了描述,其内容作为引用而结合于此,从而提供了对现有技术的全面描述并且明确区分本发明各个实施例的特征。

发明内容

本发明的一个实施例提供了一种方法,其中为多个用户提供概念相关信息集合。从两个或者更多用户中的每一个接收对于所提供的概念相关信息的一个或多个响应。然后来自两个或者更多用户的响应被关联(correlate),并且基于关联后的响应而修改所述概念相关信息的表述。

附图说明

通过参考下面的描述可以更好的理解本发明,并且利用附图表示本发明的实施例。在附图中:

图1为显示根据本发明一个实施例的基于来自多个用户的响应的关联而修改概念相关信息集合的组织和表述的程序的流程图;

图2为显示根据本发明一个实施例的通过基于在其他用户的类似信息搜索会话期间获取的用户活动和/或用户信息的关联而影响用户查询与存储内容的联系的程序的流程图;

图3为显示根据本发明一个实施例的用于组织并且表述概念相关信息以及用于联系特定存储内容和各个用户查询的系统的结构图;

图4显示了根据本发明一个实施例的三个独立用户的搜索日志;

图5为显示根据本发明一个实施例的提供更多相关搜索结果的程序的流程图;

图6为显示根据本发明一个实施例的提供相关查询建议的程序的流程图;

图6A为显示根据本发明一个实施例的提供查询拼写校正建议的程序的流程图;

图7为显示根据本发明一个实施例的提供建议查询的程序的流程图;

图8为显示根据本发明一个实施例的提供类似结果的程序的流程图;

图9为显示根据本发明一个实施例的对信息进行相关以提供更相关的搜索结果的程序的流程图;

图10为显示根据本发明一个实施例的根据与选择相关联的位置而基于用户位置提供更相关的搜索结果的程序的流程图;

图11为显示根据本发明一个实施例的基于用户位置对用户提供更相关的搜索结果的程序的流程图;以及

图12为显示根据本发明一个实施例的数字处理系统的结构图。

具体实施方式

概述

本发明的实施例提供了用于概念上组织和表述信息的方法和系统,其中使用用户对信息组织和表述的响应的关联以确定信息的最优组织和表述。在本发明一个实施例中,在搜索引擎结果优化的上下文中,搜索会话期间多个用户的用户活动和/或用户信息与查询进行关联,以影响查询与文档的组织和表述之间的演化联系。根据这些实施例的系统存储整个搜索会话过程中的用户活动,从而可以使大量不同类型的用户活动和用户信息可以关联。使用关联的用户输入允许这些系统提供相关的搜索结果而不会产生现有技术中基于关键词的系统带来的限制。

在下面的描述中将给出大量特定细节。然而,应当理解,本发明的实施例可以实施为不具有这些特定细节。在其他实施例中,公知的电路、结构和技术不再详细描述以避免模糊对本说明书的理解。

整个说明书中提到的“一个实施例”或“实施例”表示结合该实施例描述的特定特征、结构或者特点包含在本发明的至少一个实施例中。因此,在整个说明书中多处出现的短语“在一个实施例中”或“在实施例中”并不一定全部是指同一实施例。而且,可以在一个或多个实施例中以任何适当方式将特定特征、结构或者特点结合在一起。

而且,所发明的方面包含在少于单个公开的实施例的所有特征中。因此,说明书后附的权利要求书被明确包含在本具体实施方式中,每项权利要求书自身作为本发明的一个单独实施例。

程序

图1显示了根据本发明一个实施例的基于来自多个用户的响应的关联而修改概念相关信息集合的组织和表述的程序。

图1中所示的程序100开始于操作105,其中概念相关信息集合通过信息提供者被组织并且被表述给多个用户。在一个实施例中,概念相关信息集合是包含有关于特定用户组感兴趣的一般概念的信息的集合页面。这种集合页面可以包括大量任何种类的相关子概念,包括与文件、目录、数据库、电子数据表、新闻条目、音频、视频、图像、应用程序、广告、产品描述以及参考信息的链接,与列表、表格、树、或者上述项目的任何目录的链接,以及与其他集合页面的链接,所有这些内容可以从任意数量的来源收集。在一个实施例中,单独形成的多个集合页面创建为改变信息集合的组织和表述,包括相关子概念的数量、类型、安排和显著度。这样,信息提供者尝试预期组织和表述信息的最优方式。

在操作110,信息提供者从用户接收关于信息组织和表述的响应。用户响应可以为选择(或者不选择)某部分信息的形式。例如,某些用户可以选择给定集合页面的特定子概念的信息,而不选择其他的。

在操作115,从多个用户接收到的响应被关联。也就是说,确定单独用户进行的相同统计上有效的联系的程度。在本发明的可替换实施例中,响应的关联可以采取任何形式。各种用户响应的示例关联在下文中将更加详细的描述。

在操作120,基于关联后的响应而修改概念相关信息集合的组织和表述。例如,可以重新形成集合页面以更加充分地满足单独用户、用户组或某类用户、或者所有用户的需要。除了修改原始表述的信息的表述,所述重新形成可以包括添加或者删除信息。例如,可以添加一个或多个子概念到集合页面或者从其中删除。

尽管上面一般性的描述了使用用户响应以优化信息集合(例如集合页面)的组织和表述,本发明的实施例可以用于影响用户搜索引擎查询和存储内容(例如一个或多个文档)的联系。也就是说,本发明的实施例可以用于响应于特定查询确定更加相关的搜索结果(即一般性的更加相关或者对特定用户更加相关)。

图2显示了根据本发明一个实施例的通过基于在其他用户的类似信息搜索会话期间获取的用户搜索引擎(USE)活动和/或用户信息的关联而影响用户查询与存储内容的联系的程序。

图2所示的程序200开始于操作205,其中对若干独立用户记录搜索会话期间的USE活动信息和/或用户信息。搜索会话包括给定用户的任何搜索引擎动作(可通过搜索引擎记录的活动)的序列。USE活动可以包括发出查询、点击搜索页面上的导向内部或者外部数据的链接、点击后续内部页面上的导向内部或者外部数据的链接以及在点击内部或者外部链接之后返回搜索页面或者任何内部页面。USE活动可以为连续的或者在实际持续周期中发生。也就是说,可以指定表示搜索会话终止的时间周期。例如,如果所记录的用户活动中的中断超过了指定时间,在实际中可以假定搜索会话已经结束。后续用户活动可以认为是新的搜索会话。

在操作210,所记录的若干独立用户的USE活动信息和/或用户信息被关联。所述信息反映了各个用户的整个搜索会话,可以根据本发明的可替换实施例以各种方式进行关联。各种USE活动和/或用户信息的示例关联在下文中将更加详细描述。

在操作215,通过操作210获得的所记录的若干独立用户的USE活动信息和/或用户信息的关联结果被用于影响特定存储内容和对应用户查询之间的联系。这种联系可以提供一般性的或者对于一个或多个特定用户更加相关的给定查询的搜索结果。

系统

本发明的实施例可以在网络环境中实施。图3显示了根据本发明一个实施例的用于组织并且表述概念相关信息以及用于联系特定存储内容和各个用户查询的系统。如图3所示的系统300显示了数字处理系统(DPS)300的网络,包括显示为服务器DPS 320的一个或多个服务器DPS,以及显示为客户端DPS 305-308的多个客户端DPS。系统300的DPS互相连接并且配置为交换多个各种类型的包含文档的存储内容,例如网络页面、网络页面上存储的内容,包括文本、图片以及音频和视频内容。例如,所存储的内容可以为音频/视频文件,例如具有移动图像和音频的程序。信息可以通过任何类型的通信网络在DPS之间进行通信,多个不同设备可以通过所述通信网络进行通信,例如(但不限于)互联网、未显示的广域网(WAN)、局域网(LAN)、内联网等等。例如,如图3所示,DPS通过互联网310而互相连接,互联网310是包含具有如上所述的数据通信方法的多个网络的其中一种,并且对于本领域技术人员是公知的。连接服务器DPS和客户端DPS的通信链接并不一定为直接链接,而是可以为间接链接,包括但不限于广播无线信号、网络通信等等。尽管图3中显示了示例的DPS,可以理解,可以互相连接大量这样的DPS。

根据本发明一个实施例的可以用于服务器DPS 320或者客户端DPS 305-308的数字处理系统的实施例将在下文中参考图12进行描述。

根据本发明一个实施例,概念相关信息的集合,例如集合页面,通过客户端DPS 305-308表述给若干用户。所述概念相关信息还可以为响应于从一个或多个客户端DPS 305-308发送的用户查询的搜索结果。所述信息可以采用多种形式,例如可以为通过网络页面开发者提供的网页URL地址列表。一旦表述在客户端DPS上,用户对所述表述做出一定响应。例如,用户可以执行如上所述的USE活动。与对用户的信息表述相关的用户响应和其他用户信息被记录并且被发送到用户响应/信息关联应用程序321。该应用程序321对若干用户的用户响应和信息进行关联,并且基于关联的结果修改概念相关信息的组织和表述。

数据分析

本发明的实施例获取USE活动信息和/或用户信息并且对这些信息进行关联,以通过使用多个用户的多数选择而辅助定义相关度。所述关联分析包括评价共同动作或者多个用户信息的程序,以识别统计上有效的联系。对这些实施例使用的术语“联系(association)”和“统计上有效的联系(statisticallysignificant association)”定义如下。“联系”为搜索会话期间用户明确或者间接、有意识或者无意识确定的查询、术语、概念、文档或者其他网络数据及其组合的任何配对。联系可以通过发出查询和/或选择导向查询、术语、概念、文档或者其他网络数据的链接(例如超链接)而表示。统计上有效的联系为概率上不能归属于随机事件的联系。当通过两个或者更多表面上独立的用户进行统计上有效的联系时记录所述关联。

本发明的实施例通过记录更加大量的信息和更加特定的信息(包括USE活动信息和/或用户信息)而提供了比现有技术方法远远更加相关的搜索引擎结果,并且实现了信息的更加深入的分析。

本发明的一个实施例提供了一种创建并且操作如表1所示维护所有USE活动信息和用户信息的数据文件的系统。(用于描述本发明各个实施例的表格仅是示例性的并且不一定表示本发明实施例的实际数据结构。)

  时间戳  用户ID  查询选择(URL)  1/1/03 00:00:00  U1  Q1  P5  1/1/03 00:01:00  U1  Q2  P1  1/1/03 00:02:00  U1  Q2  P2  1/1/03 00:02:05  U1  Q2  P3  1/2/03 00:00:00  U2  Q2  P4  1/2/03 00:01:00  U2  Q2  P1  1/2/03 00:02:00  U2  Q2  P4  1/2/03 00:04:00  U2  Q1  P2  1/2/03 00:04:05  U2  Q1  P3  1/3/03 00:00:00  U3  Q3  P3  1/3/03 00:04:00  U3  Q2  P1  1/3/03 02:00:00  U3  Q3  P5  1/4/03 00:00:00  U4  Q1  *  1/4/03 00:06:00  U4  Q2  P4

                表1(*=没有联系选择的查询)

表1显示了包含大量数据元素的数据文件,这些数据元素记录了各个时间点大量用户的查询和在各个用户的各个查询之后选择(点击)的URL(选择)。这种数据文件可以包括表示USE活动信息和/或用户信息的大量其他数据元素。这些数据元素,例如可以表示选择结果的显示排序、会话期间用户点击的结果的顺序、用户IP地址、IP地址的地理位置等等。

这与各种现有技术方法是不同的,在现有技术中,在周期性处理并且加载新的数据之后,简化的查询—结果选择(Q2RP)关联被录入数据库表格,例如表1A。根据本发明一个实施例,这些信息并不录入,而是以日志形式(log form)维持,数据元素表示所有的USE活动信息和用户信息。

  查询选择(URL) 得分  Q1  P2  1  Q1  P3  1  Q1  P5  1  Q2  P1  3  Q2  P3  1  Q2  P4  2  Q3  P3  1  Q3  P5  1

          表1A

表1A为现有技术数据结构的简化示例,可以包括现有技术中所知的得分调整域。例如,得分可以简单的为选择次数的总和,也可以为更加复杂的调整算法的结果。得分和调整也可以被存储。

表1A中的现有技术数据结构足以产生排序的搜索结果,但是它表示了大量原始信息的损失。如表1A所示,现有技术方法并没有记录或者分析搜索会话期间大量可用的USE活动信息和用户信息。这是由于各种原因造成的,包括存储限制、缺乏对这些信息的实际使用以及没有意识到这些信息可以应用的前景。

根据本发明一个实施例,通过记录和存储信息的延伸可以省略记录这些得分调整域。也就是说,对这些实施例,没有存储得分调整信息,因为所需的任何得分可以基于所存储的信息而参数化计算。而且,计算得分的参数和算法可以根据需要改变而并不影响所存储的数据。

根据本发明各个实施例,对信息的深入分析依赖于识别和记录独立用户之间的关联数据(包括USE活动信息和用户信息)的能力。也就是说,通过记录和分析更加大量的信息,几乎包括用户会话期间的所有信息,可以获得具有远远更高的相关度的搜索结果。

例如,考虑用户发出一系列查询和间插其中的选择的用户会话。通常的,在发出查询A之前选择的URL与查询A是不相关的,因为用户经常改变主题。类似的,在后续的查询B之后发生的大多数选择与查询A是不相关的。

而且,考虑所有记录了包含查询A的搜索会话的大量独立用户。可以预期这些用户在查询A之前和之后选择了各种无关的主题,因此,无关的选择会广泛散布于大量URL上,每个URL会获得很低的得分,反映了它们与查询A缺乏联系。典型的,仅有非常少量的、被那些确实保持在与查询A相关的那些主题上的用户所选择的相关URL会积累起足够高的点击人气分数以影响与查询A关联的搜索结果的重新排序。

例如,假设1000用户搜索查询A。接着,他们中的900人选择无关的查询B1至B900。剩下的100人继续搜索原始主题的各种变异并且选择相关的查询A1-A9。通过B查询产生的结果中的每一个会接收到一次或者两次与查询A有联系的选择,但是通过相关查询A1-A9产生的结果平均会累积十倍的选择。

对于本发明一个实施例,可以强加这样的要求,即查询之后的URL必须被选择至少两次以与原始查询相关。这样的要求可以消除与查询A错误联系的大量B查询选择。

根据本发明一个实施例,提供依赖于大量统计样本的关联分析,以识别多个相关的联系。对于这些实施例,减少了现有技术中对所分析的联系的限制和随意的数据划分以增加相关度。也就是说,记录和分析更加大量的用户会话信息还允许分析更多相关类型的联系。

示例的USE活动关联

根据本发明一个实施例,提供了一种使用一个或者更多基本关联的小集合及其组合的系统。通常的,根据本发明的各个实施例可以确定任意数量的关联并且用于实现搜索结果相关度增加或者其他目标。下面详细描述某些示例的关联。

查询—选择(QUERY-TO-PICK)

查询—选择(Q2P)关联将查询与选择相联系。当多个独立用户进行相同的联系时,该相同的联系即为关联候选。当搜索引擎响应于查询返回结果并且用户选择该结果时,这是这种关联的特定情况(Q2RP)。在实际中,搜索引擎算法替代第二独立用户。根据本发明一个实施例,Q2P关联将查询与用户会话中所有的选择相联系。这与现有技术的方案是不同的,在现有技术中,一旦发出后续查询即终止给定查询与选择之间的联系。

通过Q2P,用户会话期间记录的所有选择与该用户会话期间发出的给定查询相联系。在一个实施例中,基于各种因素为每个联系分配得分,这些因素包括查询和选择之间的时间、间插的查询和/或选择的数量以及相对于选择的查询次序。

而且,可以基于公知的因素而调整每个联系的得分,这些因素包括联系时结果列表中选择的排序、选择的延续时间(下次已知用户动作之前的间隔)、联系的期限或者次序(相对于更旧或者更新的联系)以及联系的第一已知示例的期限。

每个用户会话可以具有无限的持续时间。在实际应用中,可以强加合理的时间限制或者插入动作的限制,超出此限制之外则在选择和查询之间不指定关系。可替换的或者附加的,足够持续时间的中断可以表示会话的中断。根据本发明一个实施例的搜索日志摘要显示在下面的表2中。在各种可替换实施例中,可以在该搜索日志中捕捉任何其他项目,但是为了清晰起见在此省略。

  行  时间戳  用户ID  查询  选择(URL)  101  1/1/03 00:00:00  U1  Q1  P5  102  1/1/03 00:01:00  Q2  P1  103  1/1/03 00:02:00  P2  104  1/1/03 00:02:05  P3  行  时间戳  用户ID  查询  选择(URL)  201  1/2/03 00:00:00  U2  Q2  P4  202  1/2/03 00:01:00  P1  203  1/2/03 00:02:00  P4  204  1/2/03 00:04:00  Q1  P2  205  1/2/03 00:04:05  P3  行  时间戳  用户ID  查询  选择(URL)  301  1/3/03 00:00:00  U3  Q3  P3  302  1/3/03 00:04:00  Q2  P1  303  1/3/03 02:00:00  Q3  P5  行  时间戳  用户ID  查询  选择(URL)  401  1/4/03 00:00:00  U2  Q1  *  402  1/4/03 00:06:00  Q2  P4

                                  表2(*=没有联系选择的查询)

图4显示了根据本发明一个实施例的三个独立用户的搜索日志。图4所示的搜索日志摘要400包括分别描述三位独立用户U1、U2和U3的搜索信息的搜索日志410、420和430,如同以上参考表2所述。每个搜索日志中的虚线框表示Q2P搜索信息中的Q2RP部分。例如,搜索日志410包括Q2RP部分411,其中查询Q1产生了选择P5。搜索日志410还包括Q2RP部分412,其中查询Q2产生了选择P1、P2和P3。

搜索日志420包括持续时间为48小时的中断421。在本发明一个实施例中,如此长时间的中断可以表示两个单独的会话,二者之间不会指定任何选择和查询之间的关系。相反的,搜索日志430包括持续时间为2小时的中断431。在本发明一个实施例中,这种中断可以不表示两个单独的用户会话。也就是说,搜索日志430的所有搜索活动可以认为是单次用户会话以及相应关联的信息。

表2A显示了根据本发明一个实施例的表2中包含的点击信息的表格。为了比较,表2B显示了根据采用Q2RP关联的典型现有技术方法的表2中包含的点击信息的表格。

  Q1  Q2  Q3  P1  2  3  1  P2  1  1  -  P3  2  3  1  P4  1  1  -  P5  1  2  1

           表2A(Q2P结果)

  Q1  Q2  Q3  P1  -  3  -  P2  1  -  -  P3  1  1  1  P4  -  2  -  P5  1  1

         表2B(现有技术的Q2RP结果)

除了在下面的损失情况中我们假定一次选择表示得分增加0之外,由于大量因素可能改变得分或者使得分损失,我们假定1次选择=得分+1。假定一时间阈值,行103中的点击在两个表格中均被损失,因为用户在该URL上仅花费很短的时间。假定数据库每天进行批处理更新,行203中的点击在表2B中的现有技术表格中通常会作为点击201的重复而被损失。根据本发明一个实施例,行203和402中的点击作为点击201的重复而在表格中被损失。

根据本发明一个实施例,对于查询Q1,在Q1之后从未立即点击的URLP1在表格中得到了高分,因为多个用户在发出查询Q1之前或者之后(尽管不是立即之后)选择了它。根据本发明一个实施例,表格的整个得分矩阵更加充实,因为记录了更多的联系。某些分数比较低,例如Q2P4的分数,这是由于保存的会话数据表示所有的点击来自单个用户,从而允许识别更多的重复。

在Q2P的实际应用中,我们可以保持特定联系为Q2RP还是非Q2RP的区别。单次的、不关联的非Q2RP点击(例如表格中的Q3P1)可以不产生足够的提供结果给用户的置信度,然而对于单次、不关联的Q2RP点击,通过搜索引擎提供原始搜索的结果的事实而加强了联系。

选择—查询(PICK-TO-QUERY)

选择—查询(P2Q)关联是将用户会话期间记录的所有查询相联系,这些查询与该用户会话期间发出的给定选择相关联。表2中的搜索日志摘要显示了P2Q相关的输出。也就是说,对Q2P产生的相同数据可以对P2Q重新编制索引。

查询—查询(QUERY-TO-QUERY)

查询—查询(Q2Q)关联是将用户会话期间发出的所有查询与该会话期间发出的所有其他查询相联系。在一个实施例中,可以基于各种因素为每个联系指定得分,这些因素包括查询之间的时间、间插的查询和/或选择的数量、联系的期限或者次序(相对于更旧或者更新的联系)、查询结果是否产生了选择以及联系的查询的成对次序。

确定查询结果是否产生了选择以及联系的查询的成对次序可以提供特别多的信息,因为它们可以表示一次查询是否为另一次查询的“关联”。对于任何实际应用,知道两个联系的查询中的哪一个正确哪一个错误是很有用的。

根据本发明一个实施例的搜索日志摘要显示在如下的表3中。仅需要搜索日志的查询部分以创建Q2Q表格。

  行  时间戳  用户ID  查询  101  1/1/03 00:00:00  U1  Q1  102  1/1/03 00:01:00  Q2  103  1/1/03 00:02:00  104  1/1/03 00:02:05  行  时间戳  用户ID  查询  201  1/2/03 00:00:00  U2  Q2  202  1/2/03 00:01:00  203  1/2/03 00:02:00  204  1/2/03 00:04:00  Q1  205  1/2/03 00:04:05  行  时间戳  用户ID  查询  301  1/3/03 00:00:00  U3  Q3  302  1/3/03 00:04:00  Q2  303  1/3/03 02:00:00  Q3  行  时间戳  用户ID  查询  401  1/4/03 00:00:00  U2  Q1  402  1/4/03 00:06:00  Q2

                                        表3

表3A显示了根据本发明一个实施例的表3中包含的点击信息的表格(假定忽略发出查询的顺序)。

  Q1  Q2  Q3  Q1  -  2  -  Q2  -  -  1  Q3  -  -  -

         表3A(Q2Q结果)

表3A的下三角区域可以用于保存成对的查询次序信息,避免如同行301-303一样的双登记(double-booking)情况。

如上所述,可以采用利用各种因素改变得分或者使得分损失的计分方法。例如,可以对重复(比如行101和102中的联系和行401和402中的联系)进行惩罚。或者,不关联的Q2Q联系,例如Q2Q3,不会产生足够的提供结果给用户的置信度。

选择—选择(PICK-TO-PICK)

选择—选择(P2P)关联是将用户会话期间发出的所有选择与该会话期间发出的所有其他选择相联系,这样,P2P关联与上述的Q2Q关联类似。同样的,根据各个实施例,可以基于各种因素对每个联系指定得分,这些因素包括选择之间的时间、间插的查询和/或选择的数量、联系的期限或者次序(相对于更旧或者更新的联系)以及联系的选择的成对次序。

根据本发明一个实施例的搜索日志摘要显示在如下的表4中。仅需要搜索日志的选择部分以创建P2P表格。

  行  时间戳  用户ID  选择(URL)  101  1/1/03 00:00:00  U1  P5  102  1/1/03 00:01:00  P1  103  1/1/03 00:02:00  P2  104  1/1/03 00:02:05  P3  行  时间戳  用户ID  选择(URL)  201  1/2/03 00:00:00  U2  P4  202  1/2/03 00:01:00  P1  203  1/2/03 00:02:00  P4  204  1/2/03 00:04:00  P2  205  1/2/03 00:04:05  P3  行  时间戳  用户ID  选择(URL)  301  1/3/03 00:00:00  U3  P3
  302  1/3/03 00:04:00  P1  303  1/3/03 02:00:00  P5  行  时间戳  用户ID  选择(URL)  401  1/4/03 00:00:00  U2  *  402  1/4/03 00:06:00  P4

                                            表4

表4A显示了根据本发明一个实施例的表4中包含的点击信息的表格(假定忽略发出选择的顺序)。

  P1  P2  P3  P4  P5  P1  -  1  3  1  2  P2  -  -  1  1  -  P3  -  -  -  1  2  P4  -  P5

                                    表4A(P2P结果)

同样的,重复(比如涉及行201的联系和涉及行203的联系)可能受到损失,花费很短时间在URL上的用户也会受到损失。

表4A的下三角区域可以用于保存成对的选择次序信息,避免如同行201-203一样的双登记情况。

示例的USE活动关联的组合

根据本发明各种可替换实施例,可以将两个或者更多关联(例如以上描述的基本关联)连接在一起以提供更加相关的搜索结果。例如,可以连接两个或者更多的基本关联以模仿基本关联从而增强其结果,特别是在稀少数据或者产生需要广泛匹配的附加结果的情况下。

连接后的关联使用选择或者查询而不是用户,以形成其他选择和查询之间的链接。通常的,连接的关联越多,结果偏离初始选择或者查询越远。因此,在很多情况下,连接最少的关联以产生所需结果是最优的途径。

表5显示了上述的USE活动基本关联的两种关联的可能组合。

  关联  组合基本类似物  产生物  QPQ  Q2P+P2Q  Q2Q  查询对与原始查询相关的选择  QQQ  Q2Q+Q2Q  Q2Q  查询对与原始查询相关的查询  PQQ  P2Q+Q2Q  P2Q  查询对与原始选择相关的查询  PPQ  P2P+P2Q  P2Q  查询对与原始选择相关的选择  PPP  P2P+P2P  P2P  选择对与原始选择相关的选择  PQP  P2Q+Q2P  P2P  选择对与原始选择相关的查询  QQP  Q2Q+Q2P  Q2P  选择对与原始查询相关的查询  QPP  Q2P+P2P  Q2P  选择对与原始查询相关的选择

                                表5

连接关联可能引入错误的关系,因此,在本发明一个实施例中,对关联进行关联。例如,如果Q2Q关联需要两个独立用户,QQQ关联字符串应当需要链接原始和最终查询的两个查询。在QQQ中,互相联系的查询(Q3)将一个查询(Q1)与另一查询(Q2)相联系。如果两个或者更多独立的、互相联系的查询进行相同的联系,则这是一种关联。

如上参考基本关联所述,原始选择或者查询和输出选择或者查询之间的联系至少通过两个个体形成(或者通过一个搜索引擎附加一个个体)。通过连接的关联,可以没有单独用户(或者搜索引擎)将原始选择或者查询与任何输出选择或者查询相联系。间接关联也最少需要两个独立用户。

在效果上,连接的关联倾向于预测在更加大量的数据被收集到的未来某个时间点时基本关联可能会是什么样子。本质上,它们识别尚未被观察到的可能的关联。

关联的组合需要多个中间选择或者查询之间的关联。链接原始和相关的选择或者查询的不同的选择和/或查询的数量,比中间选择和/或查询与原始和相关的选择和/或查询链接得多接近更重要。对于一个关联,必须有至少两个不同的链接路径,而不管有多少用户建立了这些链接。也就是说,通过一个中间节点Q3联系Q1和Q2,即使多个用户已经建立了这种联系也并不会组成Q1和Q2之间的关联。

大量因素影响了关联的强度,包括链接路径的数量、各个直接关联分量链接的强度以及各个中间节点的独特性。例如,链接通过公共和一般性查询(例如“汽车”)关联的两个选择可能产生比通过更加独特的中间查询(比如“1965福特野马敞蓬车”)链接两个选择远远更弱的关联。

连接关联的优点通过下面的连接后的关联“查询—选择—查询”(QPQ)的示例可以更好的理解。

表6A和表6B分别显示了表2A和2B的交叉QP得分的相乘结果,并且对于查询将这些结果相加以确定组合后的联系得分。(这并不一定是最优算法,而是用于示例目的)。

  P1  P2  P3  P4  P5  总和  Q1-Q2  2×3  1×1  2×3  1×1  1×2  16  Q1至Q3  2×1  -  2×1  1×1  5  Q2至Q3  3×1  -  3×1  2×1  8

                                  表6A

  P3  P5  总和  Q1至Q2  1×1  -  1  Q1至Q3  1×1  1×1  2  Q2至Q3  1×1  -  1

                             表6B

表6C和表6D分别显示了表6A和表6B的等效Q2Q关联表格。

  Q1  Q2  Q3  Q1  -  16  5  Q2  -  8  Q3  -

                                 表6C

  Q1  Q2  Q3  Q1  -  1  2  Q2  -  -  1  Q3  -  -  -

                                     表6D

如上所述,根据本发明一个实施例,QPQ关联结果比本发明的更加特定的可替换实施例的较窄QRPQ关联产生了远远更多的关联,并且比根据本发明又一个实施例的Q2Q关联产生远远更多的关联。而且,使用QPQ关联允许对不恰当形成而不会产生搜索结果的查询提供建议。这在现有技术方法中是不可能的。

用户—用户

如同查询和/或选择可以通过用户关联一样,用户可以通过查询和/或选择而关联。作为与QPQ关联类似的间接关联的一般性的程序被称为用户对用户(U2U)。基于结果选择的U2U关联(即两个用户输入了相同的查询和选择)显示在下面的表7中。这种关联应当为用户—结果选择—用户(URPU),尽管存在根据本发明可替换实施例的其他U2U关联。同样的,根据各种实施例,可以基于各种因素对各个联系指定得分。例如,假定时间阈值,行103中的点击被损失,因为用户仅在URL上花费很少时间。

  行  时间戳  用户ID  查询 选择(URL)  101  1/1/03 00:00:00  U1  Q1  P5  102  1/1/03 00:01:00  Q2  P1  103  1/1/03 00:02:00  P2  104  1/1/03 00:02:05  P3  行  时间戳  用户ID  查询 选择(URL)  201  1/2/03 00:00:00  U2  Q2  P4  202  1/2/03 00:01:00  P1  203  1/2/03 00:02:00  P4  204  1/2/03 00:04:00  Q1  P2
  205  1/2/03 00:04:05  P3  行  时间戳  用户ID  查询  选择(URL)  301  1/3/03 00:00:00  U3  Q3  P3  302  1/3/03 00:04:00  Q2  P1  303  1/3/03 02:00:00  Q3  P5  行  时间戳  用户ID  查询  选择(URL)  401  1/4/03 00:00:00  U2  Q1  *  402  1/4/03 00:06:00  Q2  P4

                                  表7

表7A显示了根据本发明一个实施例的表7中包含的点击信息的表格。

  U1  U2  U3  Q1P2  -  1  -  Q1P3  -  1  -  Q1P5  1  -  -  Q2P1  1  1  1  Q2P2  Q2P3  1  1  Q2P4  1  Q3P3  1  Q3P5  1

                                 表7A

根据本发明一个实施例,一位给定用户(例如U1)对另一用户(例如U2)的类同度可以定义为该用户与另一用户共享的查询/选择的数量,除以给定用户的查询/选择总数(即类同度U1-U2=(共享的QPU1-U2)/(QPU1的总数))。在本发明可替换实施例中,可以使用更加复杂的类同度算法。例如,根据本发明一个实施例,类同度算法可以把搜索频率的差异考虑在内并且对查询、选择和查询—选择施以不同的权重。

表7B显示了对表7A的点击信息计算的类同度信息。

  对U1  对U2  对U3  U1  1  0.67  0.33  0.20  U2  0.40  1  U3  0.33  0.33  1

                                   表7B

使用这种类同度信息,当对给定用户将来发出的查询产生结果时,根据所述类同度信息调整对应用户的选择得分。例如,用户U1的未来查询结果将以0.67调整用户U2产生的选择得分和0.33调整用户U3产生的选择得分。没有类同度的用户产生的选择将被指定一定的缺省值。

示例应用

上述的参考本发明各个可替换实施例的组织和表述数据的方法和系统可以用于各种实际应用,这对本领域技术人员是显而易见的。下面更加全面的讨论这些应用。特定USE活动信息和/或用户信息的使用可以比其他信息更加适合于特定应用。例如,对于特定应用,对特定USE活动进行关联将会更加实用、更加有效或者更加准确。下面的示例应用将针对特别适合于特定应用的实际实施的USE活动信息和/或用户信息而描述。

示例的Q2P应用

本发明的对Q2P和/或Q2P等价组合USE活动信息进行关联的实施例允许用户以各种方式获取更加相关的搜索结果。例如,用户可以精确化搜索并且将修订后的结果的某些部分与原始搜索相联系。也就是说,选择的文档并不一定在文字上与原始搜索关联,而仅是概念上的关系。概念关系可以提供对原始搜索更好的响应。基于Q2P USE活动信息的关联的搜索结果避开了现有技术方法中基于文本的检索的限制。本发明的实施例能够保存并且利用用户再搜索过程。这种能力可以用于实现比现有技术方法具有大量明显优点的系统。

根据本发明各种实施例的大量独立用户的Q2P USE活动信息的关联不仅利用了先前用户的相关度判断,而且利用了其研究努力。后续用户不需要重复先前用户的错误,而是可以从先前用户的尝试—错误的教训中受益。

图5显示了根据本发明一个实施例的提供更多相关搜索结果的程序。图5所示的程序500开始于操作505,其中从用户接收查询。所述查询可以具有一个或多个特定特性,这些特性一旦被识别出来,则可以作为根据本发明各个可替换实施例提供更加相关的搜索结果的基础。

在操作510,大量用户的Q2P USE活动信息对于所接收到的查询进行关联。每个查询可以具有各种特定特性,这些特性可以通过Q2P USE活动信息的关联而确定。这些特定特性例如可以包括:查询可以对不同用户具有不同意义,查询可以误拼写,查询可以具有等价的措辞,查询可以具有较为相关的部分和不太相关的部分,查询可以与特定结果产出或者结果产出组合相联系,以及查询可以具有更宽或者更窄的搜索结果。这些特性中的每一个特性,不管是单独的还是结合在一起,对于在不同条件下提供更加相关的搜索结果可能是有用的。

在操作515,基于关联后的Q2P USE活动信息的搜索结果响应于查询而被提供给用户。所提供的搜索结果可以基于查询的一个或者多个特性。例如,当确定所述查询具有不同意义时,可以响应于查询而提供具有基于更加流行的意义的结果。

通过程序500获取的若干示例结果与通过典型的现有技术获得的结果进行比较,相对于上述查询的特定特征而显示如下。

表8显示了具有多于一种意义的若干查询的示例搜索结果。如表所示,与现有技术方法相比,本发明的实施例允许搜索结果相关到特定查询的更加流行的意义。

              主要解释  示例查询    示例性实施方式    现有技术方法    “buffalo”       大多数用户搜索这种动物    (并且通常输入后续     查询“bison”以搜索    更加相关的结果)     所有顶级结果    关于Buffalo,NY        “holed”     大多数用户搜索书籍或     最近的电影Holes     所有顶级结果     关于“black holes”       “windows”      很大一部分用户      搜索玻璃窗户     所有顶级结果      关于微软Windows      “parties”     很大一部分用户搜索     聚会计划或者聚会供给    所有顶级结果     关于政党

                                                        表8

表9显示了误拼写的示例搜索结果(例如“encycopidea”)。如表所示,本发明的实施例允许搜索结果相关到可能正确拼写的查询。通过这种方式,本发明的实施例可以确定误拼写查询的正确拼写。现有技术方法对这种误拼写通常不会产生搜索结果,或者很差的搜索结果。

                        主要解释 示例查询     示例实施例方式  现有技术方法“encycopidea”    1.www.brittanica.com     2.www.encyclopedia.com  显示没有结果,仅仅是建议  尝试“Encyclopedia”的拼写

                                                     表9

在本发明一个实施例中,这种拼写校正是一种“软”校正。也就是说,根据本发明一个实施例,响应于查询而提供的结果为输入精确查询的大多数用户所偏好的结果。如果多数用户认为该查询为误拼写,则大量结果将包含校正后的查询。如果多数用户认为该查询是有意图的,则大量结果将包含未改动的查询。如果两种解释都是合法的,则结果为二者结合。对于这种实施例,由于所有的校正都是概念相关而不仅仅是文字上相似的,因此不太可能提供错误的拼写校正。

相反的,现有技术的拼写校正通常为“硬”校正。也就是说,这些方法识别误拼写查询,尝试进行校正然后基于校正搜索结果。当合法的查询被误诊断为误拼写,或者查询确实误拼写但是通过算法的校正仍不是所需查询时,这些方法会提供不相关的结果。“主动”校正会要求用户点击链接以对建议的查询再次搜索,这样也可能再次为错误校正。

表10显示了具有两种或者更多解释或者等价措辞(例如“Burma和Myanmar”)的查询的示例搜索结果。如表所示,本发明的实施例对具有高度共同性的各个等价措辞提供搜索结果。对于所提供的示例,对于各个等价措辞的九个顶级搜索结果URL中有五个是相同的。这与现有技术方法相比具有远远更高的相似度。

                                                  示例实施例  示例查询:″burma history″  示例查询:″myanmar history″  1.www.travel-  burma.com/history.html  2.www.hartford-  hwp.com/archives/54/index-  b.html  3.www.asiatour.com/myanmar/e-  01land/em-lan43.htm  4.rubens.anu.edu.au/student.proje  cts/offerings/burma.2.html  5.www.nationbynation.com/Burma/Hi  storyl.html  6.www.louisville.edu/library/ekst  rom/govpubs/international/burma  /burmahistory.html  7.www.myanmars.net/  8.asiatours.net/burma/info/histor  y.html  9.pilger.carlton.com/burma  1.www.hartford-  hwp.com/archives/54/index-  b.html  2.www.myanmars.net/history/  3.www.travel-  burma.com/history.html  4.rubens.anu.edu.au/student.proje  cts/offerings/burma.2.html  5.www.asiatour.com/myanmar/e-  01land/em-lan46.htm  6.www.myanmar.com/  7.www.odci.gov/cia/publications/f  actbook/geos/bm.html  8.www.myanmars.net/  9.www.asiatour.com/myanmar/e-  01land/em-lan43.htm  

                                                   表10

用户常常在查询中包括不能提供相关信息的关键词,但是对搜索引擎带来了不必要的文本匹配要求,在现有技术方法中导致了更低相关度的搜索结果。本发明的实施例克服了这种缺陷。

表11显示了包含多余部分的查询的示例搜索结果。如表所示,本发明的实施例允许忽略查询中的多余、不重要以及不相关部分,这样提供了更加相关更加简洁的查询。

           期望的#1结果的排名  示例查询  示例实施方式  现有技术方法  ″columbus blue jackets″  1  1  ″columbus ohio blue jackets″  1  不在最靠前的100个当中

                                           表11

根据本发明一个实施例,平等对待对各种结果产物(例如图片、音频/视频、文本、图像、新闻条目等等)的搜索结果选择。也就是说,用户不需要指定他们正在寻找哪种类型的结果。提供的结果可以反映该用户先前表现出的偏好或者先前的独立用户的偏好。例如,如果查询非常频繁地产生图像搜索从而特定图像为最高得分的选择,则该图像可能根据其得分而被提供为搜索结果。在一个实施例中,不同结果产物的各个最高得分结果不需要按照得分次序交错排列,而是可以表述为按照产物归组。对于该实施例,用户搜索的结果产物不需要在试图确认用户目的时以语言工具对查询进行解读而识别。

表12显示了由搜索结果产物组合(例如包括图片结果)产生的示例查询搜索结果。如表所示,本发明的实施例允许搜索结果包含产物组合。

                          表12

本发明的实施例能够通过调节Q2P对Q2RP选择得分的权重而改变搜索结果的范围。表13显示了对查询“Stanford”的较窄和较宽的搜索结果。

  示例查询  Q2RP/Q2P=1  Q2RP/Q2P=0  ″stanford″      www.stanford.edu  www-cs.stanford.edu  www.gostanford.com  www-med.stanford.edu  www-sul.stanford.edu  www.harvard.edu  www.yale.edu  www.berkeley.edu  www.princeton.edu  www.ucla.edu

                                  表13

表13的第一列包含涉及对查询的选择的较窄结果。表13的第二列显示了宽广结果(例如仅显示了没有响应于原始查询的结果做出的选择)。第二列的结果表示查询主题的较宽范围,而第一列的结果帮助用户探究查询主题的深度。实际上,较窄和较宽结果的组合可以提供最相关的搜索结果。在本发明一个实施例中,创建了具有不同范围的大量组合,允许用户选择“拓宽结果”或者“聚焦结果”链接,或者改变控制以调整组合。

示例的Q2Q应用

本发明的一个实施例对Q2Q和/或Q2Q等价组合USE活动信息进行关联,允许用户获得与其搜索相关的建议的查询。图6显示了根据本发明一个实施例的提供相关查询建议的程序。图6所示的程序600开始于操作605,其中从用户接收查询。

在操作610,Q2Q(和/或Q2Q等价组合)USE活动信息被关联。关联Q2Q USE活动信息直接倾向于产生查询的显著精确化的结果。关联Q2Q等价组合USE活动信息倾向于产生更加多样的结果,尽管通常会有高度的重复。在本发明一个实施例中,对相对模糊的原始查询关联Q2Q等价组合USE活动信息,因为这种关联通常产生远远更多的查询建议。

表14显示了根据本发明一个实施例的响应于原始查询“electroniceavesdropping devices”而提供的查询建议。表14的第一列包含直接基于Q2QUSE活动信息的关联的查询建议,而表14的第二列包含基于Q2Q等价组合(即QPQ)USE活动信息的关联的查询建议。

  示例查询  直接(Q2Q)  间接(QPQ)  ″electronic  eavesdropping  devices″            ·electronic eavesdropping  ·what is electronic  eavesdropping devices?            ·electronic eavesdropping  ·eave sdropping devices  ·eavesdropping  ·eavesdropping technology  ·why do we need electronic    eavesdropping?  ·where can I find    detective devices?  ·free keystroke recorders  ·electronic surveillance    countermeasures  ·spystuff  ·fm eavesdropping devices

                                  表14

在操作615,提供基于关联后的Q2Q(和/或Q2Q等价组合)USE活动信息的一个或多个查询建议给用户。在本发明一个实施例中,查询建议可以表述在结果页面上。可替换或者附加的,可以在查询建议的页面上提供链接。当原始查询产生大量高度相关(例如高得分)的查询建议时,这种实施例是很实用的。在本发明一个实施例中,查询建议在表述之前可以被分类为精确的(包含所有原始搜索词)和相关的搜索。

根据本发明一个实施例,Q2Q(和/或Q2Q等价组合)USE活动信息的关联被用于产生主动的查询拼写校正方法。在主动的查询拼写校正方法中,用户选择建议的查询校正以获得基于查询校正的搜索结果。

图6A显示了根据本发明一个实施例的提供查询拼写校正建议的程序。图6A所示的程序600A开始于操作605A,其中从用户接收查询。该查询可能为用户所需查询的错误拼写。

在操作610A,Q2Q(和/或Q2Q等价组合)USE活动信息如上所述参考程序600的操作610而被关联。

在操作611A,基于关联后的Q2Q(和/或Q2Q等价组合)USE活动信息确定一个或者多个查询建议。

在操作612A,一个或者多个查询建议被确定为原始查询的拼写校正(即在操作605A接收到的查询)。根据本发明的可替换实施例,查询建议的确定是根据所接收到的查询而以各种不同方式被影响的。例如,对于先前观测到的查询,在存在Q2Q信息时,概念相关并且文本相似的查询可以使用Q2Q关联信息和编辑距离计算算法而被识别。在此情况下,可以使用各种标准以实现作为原始(即所接收到的)查询的拼写校正的查询建议的确定。例如,当所确定的查询建议被关联到所接收到的查询时,与所接收到的查询文本类似并且比所接收到的查询更加一般化的所确定的查询建议可以被确定为所接收到的查询的拼写校正。在可替换实施例中,可以考虑更多标准以提高作为所接收到的查询的拼写校正的查询建议的确定的可信度。例如,当相比于所接收到的查询之前,查询建议倾向于更频繁的在所接收到的查询之后发出时,或者查询建议倾向于比所接收到的查询产生更多的用户选择时,这些标准可以提高在确定作为所接收到的查询的拼写校正的查询建议方面的可信度。

当在操作605A接收到的查询为先前没有观测到的查询,则不存在Q2Q信息。在此情况下,根据本发明一个实施例,如果怀疑查询中的一个词存在错误,则根据先前是否观测到所述怀疑的词而以两种方式中的一种进行评估。

当先前观测到所述怀疑的词时,则识别出出现该词的其他查询。基于与接收到的查询相同的关键词而对这些查询进行加权。最后,对先前考虑的可疑词的校正进行检查并且用于基于先前建议的校正的频率和该可疑词出现的查询中的关键词权重而提供建议校正。

当先前没有观测到所述怀疑的词时,出现所接收到的查询中的所有其他关键词的其他查询可以被识别。在本发明一个实施例中,当没有查询满足该标准时,可以识别与所接收到的查询具有最与众不同(the most distinctive)(低频率)的公共词的查询。对于各个实施例,所识别的查询可以基于与所接收的查询的文本相似度而进行加权并且识别与所接收到的查询具有很高文本相似度的最普遍的查询。

在本发明一个实施例中,当条件不允许使用上述的拼写校正建议程序的方法时,关联后的Q2Q USE活动信息与传统的n-gram-type模型结合在一起使用。在此实施例中,从查询频率数据提取出词联系频率以对已知关键词或者短语确定共同伴随词。这些数据与编辑距离结合在一起被用于对多词查询中的未知词确定作为可能的拼写校正建议的查询。

在操作615A,确定为所接收到的查询的拼写校正的一个或者多个查询建议被提供给用户作为所接收到的查询的可能的拼写校正。在本发明一个实施例中,当没有查询建议被确定为所接收到的查询的可能的拼写校正时,则参考图6的程序600的操作615如上所述的提供查询建议。

示例的P2Q应用

根据本发明一个实施例,关于特定结果页面的建议查询可以使用P2Q或者P2Q等价组合而提供。

图7显示了根据本发明一个实施例的提供建议查询的程序。图7所示的程序700开始于操作705,其中接收到查询和对应的提供大量结果URL的搜索结果。

在操作710,对各个结果URL关联P2Q(或者P2Q等价组合)USE活动信息。

在操作715,基于关联后的P2Q USE活动信息对各个结果URL提供建议的查询。也就是说,提供与搜索结果中任何页面紧密相关的建议查询列表。这些建议在模糊查询的情况下可能为用户提供通过URL中一者而不是其他的来实现的聚焦意义。

表15显示了根据本发明一个实施例的查询“rangers”的示例搜索结果页面和示例的对应建议查询。

  结果页面  建议查询  www.rangers.co.uk    glasgow rangers  rangers football club  rangers football  www.specialoperations.com    army delta force  special forces  airborne rangers  www.newyorkrangers.com    new york rangers  rangers logo  where can I find info on the rangers?  www.ford-trucks.com   1987 ford ranger  ford truck pictures  rangers.mlb.com/NASApp/mlb/tex/ho  mepage/tex_homepage.jsp   mlb rangers  texas rangers baseball  texas rangers

                                       表15

示例的P2P应用

根据本发明一个实施例,响应于所接收到的查询而提供的与特定结果相似的一个或者更多结果使用P2P或者P2P等价组合而提供。例如,接收到查询并且评估对应于该查询的结果。基于所述评估,同样提供类似结果。也就是说,例如,可以随着结果指定若干相关页面和/或链接可以导向具有附加类似结果的新的结果页面。通常的,图像的类似结果大多会产生其他图像,网页的类似结果大多会产生其他网页,依次类推。

图8显示根据本发明一个实施例的提供类似结果的程序。图8所示的程序800开始于操作805,其中接收到查询并且确定对应的搜索结果。

在操作810,对对应的搜索结果关联P2P(或者P2P等价组合)USE活动信息。

在操作815,基于关联后的P2P USE活动信息而提供一个或者多个类似结果(即类似于所接收到的结果)。也就是说,提供与所接收到的结果紧密相关的结果列表。类似结果可以组成搜索选择、图像、新闻条目等等。

表16显示了根据本发明一个实施例的响应于查询“phoenix”而提供的示例类似结果。

                                 表16

示例的用户信息应用

个性化搜索

个性化搜索的概念是基于如下前提的,即当知道关于用户的某些信息时可以提供更加相关的搜索结果。过去曾经分享过至少某些用户的兴趣和意见的用户的推荐被认为比没有分享其兴趣和品味的用户的推荐具有更大的价值。

现有技术中的个性化搜索方法通常识别用户的人口统计,然而按照该人口统计团体中的其他成员的偏好而定制结果。这种方法具有严重的缺陷,即在一个人口统计团体中偏好变化差异很大。每个用户通常属于很多个并且通常很难调和的人口统计团体,并且用户通常并不提供可靠的人口统计信息。

根据本发明一个实施例,每个用户为认为是一个人组成的团体,具有相对于其他用户的类同度。

图9显示了根据本发明一个实施例的对信息进行关联以提供更相关的搜索结果的程序。图9所示的程序900开始于操作905,其中对每个表现至少最少量的搜索活动的用户计算类同度矩阵。在本发明一个实施例中,计算所述类同度矩阵可以如下进行。首先,提取所有给定用户U1的查询和选择。然后,与U1的查询和/或选择中的至少N个重复的用户U2被识别,并且识别U2剩余的查询和选择。然后对每个查询和选择指定权重并且计算类同度分数。所述权重可以与该查询和/或选择在所有用户中的共同程度成反比,并且通过将加权后共有的选择/查询与总的加权选择/查询进行比较而计算类同度分数。

在操作910,对U1的新的查询产生的搜索结果进行分析,并且如果任何先前选择属于具有非零类同度分数的用户则增加各个结果的分数。

在操作915,基于操作910的分数调整而对结果重新排序并且将重排序后的结果表述给用户。

根据本发明一个可替换实施例,与程序900类似的程序可以用于增加搜索建议的相关度。

本地化搜索

用户信息的一种重要类型是位置。位置比其他人口统计信息具有优势,因为它不需要用户自己提供并且不管是谁在使用计算机都是保持真实的。

在本发明一个实施例中,用户信息包括用户的地理位置信息,并且通过扩展包括其查询和选择。所述地理位置信息可以包括经度和纬度以及城市、州名和国名。根据一个实施例,这些用户信息被用于基于用户的地理位置提供搜索结果。例如,输入查询“osu”的美国用户可能表示“俄亥俄州立大学(Ohio State University)”、“俄克拉荷马州立大学(Oklahoma StateUniversity)”或者“俄勒冈州立大学(Oregon State University)”。在一个实施例中,所提供的搜索结果还与具有类似用户信息(例如类似位置)的用户关联。

图10显示了根据本发明一个实施例的根据与选择相联系的位置而基于用户位置提供更相关的搜索结果的程序。图10所示的程序1000开始于操作1005,其中已获取多于指定数量的选择的URL被分配有纬度—经度的“中心”和“影响范围”。中心是到达各个记录的统计有效的用户选择的距离总和的某个函数最小化的位置。例如,在一个实施例中,中心可以表示URL(具有本地倾向的URL)在现实世界中的具体(brick-and-mortar)位置以实现高度精确化。当不存在本地倾向时,中心位置具有很少或者根本没有意义。例如,不具有现实世界具体位置的URL不会具有全国范围的本地倾向。

影响范围是期望URL对用户高度具有吸引力的地理半径,在此之外期望不具有吸引力。半径越小,吸引力下降越陡或者吸引力越“本地化”。影响范围的半径与本地倾向的某种度量成反比。例如,高度本地化的URL例如www.canariesbaseball.com形成中心在Sioux Falls,SD(即Sioux FallsCanaries的家乡)的非常紧凑的影响范围。

在操作1010,影响范围根据统计数据而做出调整。例如,某些位置生成比其它位置更多的点击。调整原始的点击数据以反映这种差异。

在操作1015,将用户的地理位置与预先计算的位置数据集合相比较以响应特定查询,并且基于用户的地理位置调整搜索结果得分。那些附近并且具有高度本地化的URL的分数被增加,而远距离的URL的分数被减少(不具有很大的本地化倾向的URL的分数保持不变)。

在操作1020,对用户提供具有至少部分地基于用户的地理位置的搜索结果。这样允许用户接收初始的若干结果中的主观相关结果。例如,与现有技术相比,输入“州税务表格(state tax forms)”的怀俄明州的用户更容易被提供怀俄明州的州税务表格。

用户本地化

如上所述,本地化可以基于选择,或者可以根据可替换实施例而基于用户。在本发明一个实施例中,基于用户的本地化允许流行的查询的结果通过管辖区域而缓存起来,然后基于位置提供给用户而不需要任何实时计算。

图11显示了根据本发明一个实施例的基于用户位置对用户提供更相关的搜索结果的程序。图11所示的程序1100开始于操作1105,其中确定对于给定查询的点击的指定部分的管辖区域,开始于最高级别的管辖区域。例如,查询“car insurance”产生美国和英国站点的混合,位于英国的用户更多的点击英国站点,而位于美国的用户更多的点击美国站点。

在操作1110,对于点击的指定阈值部分的管辖区域的点击分数被增加,并且创建标记为该管辖区域的单独的结果列表。

在操作1115,在所述管辖区域之外的用户的点击分数被减小,产生了对于点击的指定阈值部分的管辖区域之外的用户的一般性列表。在可替换实施例中,基于用户与特定管辖区域的邻近度而创建实时混合列表。

在操作1116,如果没有针对点击的特定阈值部分的管辖区域,则在操作1120中基于用户管辖区域而提供结果。

在操作1116,如果存在针对点击的特定阈值部分的管辖区域,则在操作1125中程序通过进行到更低级别的管辖区域而重新循环,并且由此到操作1105。

在可替换实施例中,将位置与URL关联而不考虑查询。这样具有有效的统计意义上的优点,因为可以聚集更多数据。例如,考虑所有对任何查询选择特定州税务站点的用户的来源地,然后针对最主要的州内的用户对特定站点给予额外权重而不管涉及的查询。潜在的缺陷在于,如果怀俄明州的用户输入“佛罗里达州税务表格”,如果怀俄明州税务站点在结果之中,则其得分会得到有效的而无根据的增加。

一般性问题

本发明的实施例提供了概念上组合和表述信息的方法和系统,其中使用用户响应和信息组合与表述的关联而确定信息的最优组织和表述。尽管以上针对若干示例实施例而描述,但是本发明的可替换实施例具有很多附加应用。

本发明包括各种操作。很多方法以其最基本形式进行描述,但是可以对任何方法添加或者删除操作而不背离本发明的基本范围。本发明的操作可以通过硬件执行或者可以如上所述的机器可执行的指令实现。可替换的,这些步骤可以通过硬件和软件的结合而执行。本发明可以提供为计算机程序产品,可以包括存储了指令的机器可读介质,这些指令可以用于对计算机(或者其他电子设备)进行编程以执行根据本发明的如上所述的程序。

图12为显示根据本发明一个实施例的可以用于参考图3所述的服务器DPS 320或者客户端DPS 305-308的数字处理系统的实施例。在本发明的可替换实施例中,处理系统1201可以为计算机或者机顶盒,包括与总线1207连接的处理器1203。在一个实施例中,内存1205、存储单元1211、显示控制器1209、通信接口1213以及输入/输出控制器1215也连接到总线1207。

处理系统1201通过通信接口1213连接到外部系统。通信接口1213可以包括模拟调制解调器、集成服务数字网络(ISDN)调制解调器、线缆调制解调器、数字用户专线(DSL)调制解调器、T-1线路接口、T-3线路接口、光载波接口(例如OC-3)、令牌环网接口、卫星发送接口、无线接口或者用于将设备连接到其他设备的其他接口。通信接口1213还可以包括无线收发机或者无线电话信号等等。

在本发明一个实施例中,在通信接口1213和云形符号1230之间接收/发送通信信号1225。在本发明一个实施例中,通信信号1225可以用于将处理系统1201连接到另一计算机系统、网络集线器、路由器等等。在本发明一个实施例中,通信信号1225为机器可读的介质,可以通过线路、线缆、光纤或者大气等等传输。

在本发明一个实施例中,处理器1203可以为传统的微处理器,例如但不限于Intel奔腾系列处理器、Motorola系统微处理器等等。内存1205可以为机器可读介质,例如动态随机访问存储器(DRAM)并且可以包括静态随机访问存储器(SRAM)。显示控制器1209按照传统方式控制显示器1219,在本发明一个实施例中,显示器1219可以为阴极射线管(CRT)显示器、液晶显示器(LCD)、有源矩阵显示器、电视监视器等等。输入/输出设备1217连接到输入/输出控制器1215,可以为键盘、磁盘驱动器、打印机、扫描仪以及其他输入和输出设备,包括鼠标、滚动球、触摸板等等。

存储单元1211可以包括机器可读介质,例如但不限于硬盘、软盘、光盘、智能卡或者其他形式的数据存储单元。在本发明一个实施例中,存储单元1211可以包括可擦除介质、只读介质、可读/写介质等等。某些数据可以在计算机系统1201的软件执行过程中通过直接存储器访问程序而写入内存1205。应当理解,软件可以驻留在存储单元1211、内存1205中,或者可以通过调制解调器或者通信接口1213而发送或者接收。为了说明意图,术语“机器可读介质”应当认为是包括能够存储数据、信息或者对指令序列进行编码以通过处理器1203执行从而导致处理器1203执行本发明的方法的任何介质。术语“机器可读介质”应当包括但不限于固态存储器、光盘和磁盘、载波信号等等。

尽管参考若干实施例而描述了本发明,本领域技术人员可以理解,本发明并不限于所描述的实施例,而不是可以通过在所附权利要求书实质和范围之内的修改和变化而实施。因此本说明书应被认为是示例性的而非限制性的。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号