首页> 中国专利> 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明涉及对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统。通过指定用来进一步过滤查询结果的标签或属性值，用户能够改善对结构化数据的搜索。

著录项

公开/公告号CN101866347A

专利类型发明专利
公开/公告日2010-10-20

原文格式PDF
申请/专利权人谷歌公司;
展开▼

申请/专利号CN201010156907.9
发明设计人宾杜·雷迪;乔纳森·布伦斯曼;宁·莫斯贝格尔;戈拉夫·拉温德拉·布哈亚;萨拉·西拉杰丁;大卫·卡莱;珍妮弗·L·克森斯基;阿尔文德·孙达瑞拉简;普涅特·阿加瓦尔;
展开▼

申请日2005-12-13
分类号G06F17/30(20060101);
代理机构11219 中原信达知识产权代理有限责任公司;
代理人张焕生;安翔
地址美国加利福尼亚州
入库时间 2023-12-18 01:05:14

法律信息

法律状态公告日

法律状态信息

法律状态
2018-02-13

专利权人的姓名或者名称、地址的变更 IPC(主分类):G06F17/30 变更前: 变更后: 申请日:20051213

专利权人的姓名或者名称、地址的变更
2017-05-17

授权

授权
2010-12-01

实质审查的生效 IPC(主分类):G06F17/30 申请日:20051213

实质审查的生效
2010-10-20

公开

公开

说明书

相关申请

依据美国专利法第35号第119条(e)款(35U.S.C.§119(e))，本申请以申请号为11/257,282的美国实用申请为优先权，其标题为“对结构化数据的搜索”，由Reddy等人于2005年10月23日提出申请。本申请与申请号为11/256,883的美国申请有关，其标题为“向结构化数据添加属性及标签”，由Reddy等人于2005年10月23日提出申请，通过引用将其结合于此。

背景技术

常规搜索引擎能够搜索非常巨大的信息集合，诸如万维网或极其巨大的数据库。当所搜索的数据集合的规模增长时，常规搜索引擎不再足够来正确地返回与用户输入的查询词相匹配的查询结果。替代地，需要提供机制来帮助用户拣选从搜索返回的大量数据。

当前几个常规搜索引擎使用不同的方法来组织在搜索结果中返回的数据。

此种组织方法的目的是判定哪个搜索结果将使用户发生最大兴趣。常规搜索引擎通常使用多种技术来以优先顺序排列搜索结果，但是这些技术不理想，因为其必须对用户正搜索的信息的类型做出假设。例如，如果用户输入“工作”，他可能是搜索工作公告、史蒂夫乔布(Steve Jobs)的信息、特定国家的工作统计量、或许多其它项。因此，当使用常规搜索引擎时，用户不能仅输入“工作”作为查询词。用户也很可能输入另外的查询词以缩小搜索范围。遗憾的是，用户也可能错过不包含缩小词的相关收录。

当前，对可能存储在万维网上或不存储在万维网上的不同类型的数据进行搜索是困难的。通常常规搜索引擎对仅仅来自少数源的数据进行操作。例如，基于网络的搜索引擎传统上允许用户搜索在万维网上的页面。网络搜索引擎常常具有对信息集合进行索引以使其可搜索的“后台(back-end)”。例如，基于网络的搜索引擎周期性地爬行(crawl)万维网并且创建所爬行的页面以及站点的索引。其它搜索引擎允许用户搜索现有的数据库。此种搜索引擎依赖于数据库的预先确定的组织。例如，如果数据库具有已知字段以及属性，用户就能够在其属性内搜索。例如，XML数据库仅接受格式完好(well-formed)的XML输入。如果被搜索的数据不是如此组织的，一般XML数据库不能接受该数据或不能组织该数据以用于搜索。

其它搜索引擎允许用户搜索数据库或搜索具有扁平式组织的文本文档。此种搜索引擎必须知道关于数据库的组织以及在数据库内的文档的组织。存储数据的位置的多样性以及存储数据的格式的多样性，意味着用户必须经常在多个数据库中的多个位置搜索以找到其需要的信息。

所需要的是，可以通过基于网络的搜索引擎来搜索文档集合，以及因而多数人可容易地访问所述文档集合，同时所述文档集合包含了各种类型的文档以及数据格式。此外，如果以能够帮助用户对其搜索进行微调的方法来组织可搜索的文档集合，这将也是所需要的。

发明内容

所描述的本发明实施例将标签以及属性值与待搜索的数据项相关联。提供者能够将属性以及标签与它们的数据相关联，或能够向现有数据添加属性以及标签。优选实施例允许内容提供者对项附上其自定义的标签以及属性，或使用预先定义的标签以及属性。提供者能够使用用户接口或批量上载机构来上载数据。通过指定将标签或属性值用于进一步过滤查询结果，用户能够改善搜索。

附图说明

通过考虑下列与附图相结合的详细描述，能够容易地理解本发明的教导。在附图中相同的标记表示相同的部分。

图1(a)是示出了根据本发明优选实施例的数据处理系统的框图。

图1(b)是示出了根据本发明优选实施例的另一个数据处理系统的框图。

图1(c)是根据本发明优选实施例的体系结构图。

图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图。

图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图。

图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图。

图3(b)是示出了接收查询词以及显示查询结果的方法的流程图。

图3(c)是示出了对于给定的查询结果确定显示哪个属性的方法的流程图。

图3(d)是示出了允许用户使用标签和/或属性值来改善所显示的查询结果的方法的流程图。

图3(e)示出了周期性执行的方法，该方法确定任何新的、提供者所提供的属性是否应该被添加到信息类型的核心属性。

图4(a)是搜索引擎以及由用户输入的查询词的实例截屏。

图4(b)是示出了来自图4(a)的查询的查询结果，并且也示出了与对查询词的查询结果有关的标签以及属性的实例截屏。

图4(c)-4(g)是示出了另外的属性和标签以及用户如何使用属性和/或标签来缩小其搜索范围的实例截屏。

图5(a)示出了用于为可搜索的数据集合存储属性以及标签的数据格式。

图5(b)示出了使用图5(a)的格式存储属性的实例。

图5(c)示出了使用图5(a)的格式存储标签的实例。

图5(d)示出了将信息类型映射到其属性的实例数据结构。

图5(e)示出了信息类型的实例，所述信息类型被映射到用于该信息类型的一些实例属性。

图6(a)-6(e)是示出了允许提供者编辑以及向系统输入数据的用户界面的实例截屏。

图7是示出了用于注册批量上载文件的用户界面的实例截屏。

图8(a)-8(d)示出了提供者是如何完成数据以及属性值的批量上载的。

描述本发明实施例的附图仅用于图示的目的。本领域的普通技术人员将易于从以下论述认识到可以使用在此所图示的结构以及方法的替选实施例，而不会偏离在此所描述的发明的原理。

具体实施方式

以下段落描述了根据本发明的进行上载以及搜索结构化数据的系统的不同实施例。

图1(a)是示出了根据本发明优选实施例的数据处理系统的框图100。图1(a)包括多个客户机数据处理系统110a...110n、网络130、以及服务器数据处理系统120。在图中，实例用户数据处理系统110a包括处理器140、浏览器150、以及存储器160。用户数据处理系统100或其组件可以是任何适当的数据处理系统，其包括但不局限于个人计算机、有线网络计算机、无线网络计算机、移动电话或包含移动电话的装置、手持式装置、瘦客户机装置、以上的一些组合等等。网络130可以是允许在一个或多个用户数据处理系统110以及服务器数据处理系统120之间通信的任何网络。例如，网络130可以是但不局限于因特网、LAN、以及WAN、有线网络、无线网络、移动电话网络、传输文本消息的网络、以上的一些组合。

在本发明的优选实施例中，用户数据处理系统110a包括在存储器160中的浏览器软件150，由处理器140执行该浏览器软件来允许用户与服务器系统120通信。如下述详细描述的，此种浏览器150允许用户与服务器数据处理系统120通信来发送查询词到服务器数据处理系统120，以及从系统120接收查询结果。如下述进一步描述，浏览器150允许用户接收与查询结果相关联的标签以及属性，以及使用标签以及属性进一步限定查询结果。虽然在此所论述的实施例是基于浏览器的，但是本发明不局限于基于浏览器的搜索，并且可以使用任何适当的用于在用户110和服务器120之间通信的机构，而不会偏离本发明的精神和范围。

在此所论述的所有软件以及计算机可执行指令中的一些能够作为计算机程序产品被存储在计算机可读介质上，其包括但不局限于：数据处理系统的存储器、CD ROM、闪存、软盘、或能够在网络上或在系统组件间作为信号来传输的。

服务器数据处理系统120包括处理器170，其执行搜索和查询引擎软件185来使服务器系统120能够为查询词搜索结构化数据集合190。(搜索和查询引擎185也被称为“搜索引擎”)。一个结构化数据的实例是字段化数据，即每个数据项具有一个或多个数据字段(诸如名称、地址、状态等等)。

存储器180也包括属性储存库195，其为结构化数据190中的一些或所有数据项存储属性(以及标签)。储存库将连同图5在以下论述。虽然将储存库195作为结构化数据集合190的一部分来示出，但是也可以将储存库195从数据集合190中分离。

搜索引擎185、储存库195、以及结构化数据集合190都在图1(a)中显示为存在于单一存储器180内，尽管可以以多种方法存储巨大的搜索引擎以及巨大的数据集合，所述方法包括但不局限于分布式数据处理系统、协同数据处理系统、网络数据处理系统等等。搜索引擎185可以是软件、硬件、固件、或任何上述的结合。

在优选实施例中，通过一个或多个用户系统110由用户输入查询词并且通过网络130将查询词传输到服务器数据处理系统120。由服务器120使用以接收、索引、以及搜索数据集合的方法的细节将在此详细论述。

图1(b)是示出了根据本发明优选实施例的另一的数据处理系统的框图111。在图1(b)中，用户在其机器110上存储个人数据集合190。预计个人搜索引擎将访问并且组织该数据来使其可被用户以及可能被在网络130上的其它用户所搜索。此种系统也允许将数据库以及其它类型的数据集合添加到可搜索的文档池，该文档池可被中央搜索引擎访问。

在图1(b)的实施例中，数据集合190被存储在用户的数据处理系统110或企业服务器上(未示出)，并且可以使其对所选择的一组个人或个体来说是可用的，诸如仅对用户、仅对用户的一较小子集、或对所有知道怎样访问数据集合190的用户。在此种情况中，如在此所描述的，通过属性以及标签对搜索进行过滤的能力可以是个人搜索引擎185的一部分，所述个人搜索引擎本地地运行于计算机上或本地计算机网络上。例如，可从加州山景城的谷歌公司获得的谷歌桌面搜索工具是一个运行于用户的桌面并且对在其个人计算机上的数据进行索引的搜索工具。结合了本发明的谷歌桌面搜索的实施将给予用户搜索数据库以及搜索存储在其桌面或可从其桌面访问的其它类型数据集合的能力。

结合本发明的谷歌桌面搜索的实施也将给予用户以有用的属性以及标签来组织其数据的能力。例如，大学图书馆能够使其所有的在线收集品对该大学的学生、全体教员、毕业生都是可用的。在此种情况中，信息将不会在公开可用的服务器上，而是将被存储在大学的服务器中，并且将仅对大学数据提供者所准许访问的那些人(以及程序)来说是可访问并且可搜索的。在实例中，大学也将能够控制哪个提供者具有向数据集合添加的能力。

图1(c)是根据本发明优选实施例的体系结构图131。在所描述的实施例中，提供者能够使用向系统输入数据以及属性的三种方法中的一个或多个。面向提供者的前台132(例如见图6(b))允许提供者使用用户界面输入数据项以及属性，也正是为了此种目的而提供用户界面。提供者也能够执行数据项的批量上载133(例如见图8(a)-8(d))。提供者也能够从特定的URL(例如使用FTP)上载134项。搜索和查询引擎185对在数据集合190中的项进行索引，所述数据集合优选地包括所输入的所述数据项的属性以及属性值，以生成所有数据的索引137。搜索引擎185也允许用户输入查询(例如见图4(a))。系统也包括应用程序接口(API)来允许软件程序通过搜索引擎185查询数据。

图2(a)是示出了根据本发明优选实施例的创建可搜索的数据项集合的概述的流程图200。如以下结合图6(a)-6(e)以及图8(a)-8(d)所讨论的，服务器120接收202数据项集合。数据能够作为标准web爬行的结果而被接收，或能够由一个或多个想要其数据成为可搜索的提供者所提供。所接收的数据项集合被处理来提取如以下所描述的标签、属性、以及属性值，并且所述标签、属性、以及属性值与各种信息类型相关联。在某些环境中，用户将为一些或所有所输入的数据提供属性名称和/或属性值。作为一个实例，用户可以上载其已经创建的用于保存医学期刊集合的数据库。该用户可能已经用诸如“期刊”、“发行年”、“期刊名称”的反映属性名称的值对这些期刊指定了属性。该用户也可以为每一期刊输入零个或更多标签，诸如“医学”、“牙科”、“来自哈佛”等等。标签是一种特殊的属性(也被称为无值标记(valueless tag))，其不具有与其相关联的值。元素204的细节将结合图3(a)来论述。

图2(b)是示出了根据本发明优选实施例的搜索文档集合以及改善搜索的概述的流程图210。在所描述的实施例中，用户输入212一个或多个查询词(诸如在图4(a)截屏400中的“癌受体”402)。

在某些实施例中，用户也可以输入属性名称以及值作为键入区域402的查询的一部分。例如用户可以将以下内容键入区域402：

癌受体属性(期刊类型：医学)

设想用户知道查询结果中的一些项具有命名为期刊类型的属性，但是该属性不是属性核心集的一部分，并且用户想要仅返回医学期刊。

系统确定213查询结果，如结合图3(b)在以下更为详细地讨论查询结果。在一些实施例中，在此点显示213查询结果。在其它实施例中，则不会显示查询结果，但是作为替代的是，要求用户通过选择对查询词特定的标签和/或属性来进一步改善其搜索。例如如图3(d)中所示出的，用户通过指定标签以及属性能够改善其搜索214。

图3(a)是示出了从数据项集合提取标签以及属性的方法的流程图300。该方法是用来组织数据集合以使得数据集合能够被搜索的建立过程的一部分。

一旦数据项被接收，对每个具有信息类型的数据项，系统为该信息类型确定304标签以及属性。属性是名称/值对，具有名称，诸如“期刊”，然后其具有一个或多个可能的期刊名称的值。

在优选实施例中，属性以及标签是由数据提供者指定。从而，确定属性仅仅是识别用户所提供的属性以及标签。

在某些情况中，数据提供者不会为其的项指定属性以及标签。例如，如果该项是由web爬行器定位的网页，网页所有者不会有机会来为其页面指定属性或标签。从而，在另一个优选实施例中，由软件为数据集合导出标签以及属性。导出标签以及属性可以涉及完全自动化的过程，在该过程中由软件在数据集合内找到预先确定的标签以及属性列表的潜在值。例如，在用于销售的项的列表中(例如谷歌的Froogle系统)，符合预定标准的价格金额被作为用于该项的“价格”属性的值而分配。在另一个优选实施例中，软件执行与提供者交互的过程，在其中软件提出属性/值对，然后由提供者接受或拒绝该属性/值对。在另一个优选实施例中，html标记被扫描并且用所发现的信息来为具有标记的页面导出属性值。作为一个实例，设想页面包含html注释：

<！当前价格是在http://www.todayspricesforbigco.com％id＝32423490！>

软件将从所指出的URL获得当前价格，并且使其成为对该网页的价格属性的值。

一旦属性以及标签已经与数据项相关联306，就对数据项进行索引309以使其能够被搜索。在第一优选实施例中，也能对属性以及标签以及其值进行索引，尽管在其它优选实施例中，它们是被分别搜索或被分别索引。

图5(a)示出了用来在储存库195中存储标签以及属性的格式500的实例。每个项与适合其类型的特定属性以及标签相关联。例如-工作公告可以具有属性，工作职责-产品管理、雇主-ABC公司以及工作类型-专职。在优选实施例中的属性以及标签可以具有以下类型的值：

BOOLEAN(布尔型)

INT(整型)

FLOAT(浮点型)

URL

STRING(字符串)

LOCATION(位置)

DATE(日期)

DATE RANGE(日期范围)

由元标记在存储器中指示属性以及标签，如下所示：

name

</end name>

value

</end value>

从而，在优选实施例中，每个属性是名称/值对，诸如属性名称“期刊”以及用于“期刊”属性的值“炎症期刊”(见图5(b))。每个标签仅有一个名称，诸如“医学”，其将指示特定的期刊是医学期刊(见图5(c))。在优选实施例中，数据项的信息类型也是其标签之一的名称。从而，具有“事件和行为”信息类型的数据项也将具有相同名称的标签。那样，通过指定与数据项的信息类型相同名称的标签，用户能够搜索具有特定信息类型的数据。

图5(d)示出了将信息类型映射到其属性的数据结构的实例。从而，如果在数据集合190中的项具有“产品”信息类型，则该项的属性可以通过访问图5(c)中的数据结构被确定，该数据结构包括属性以及对“产品”信息类型的其属性类型。

如图5(d)中所示，每个信息类型具有预先定义的属性。属性的值是属性类型的值。图5(e)示出了一些实际的值。从而，“期刊”信息类型具有“期刊名称”属性，其带有属性类型字符串的值，以及“期刊”信息类型具有带有空值的“医学”标签。例如，此种属性将允许用户搜索特定的期刊标题或搜索所有的医学期刊。同样地，“产品”信息类型具有“NumAvail”属性，该属性指示多个对销售来说是可用的特定产品，并且该属性具有整型属性类型。所有属性是可选的。提供者可以选择使用任何向其建议的属性或选择创建其自己的属性。

图3(b)是显示响应于所接收的查询词或词的查询结果的方法的流程图310。在优选实施例中，查询结果由搜索引擎185确定。例如，对“癌受体”402的查询(见图4(a))可以返回312具有诸如在图4(b)中所示出的属性404的项的查询结果406。如早先提及的，在此点本发明的一些实施例确定但不显示查询结果406。

一旦对查询的查询结果被确定(并且可选地被显示)，至少显示一些查询结果的属性名称以及标签322。在数据集406中的数据项具有确定的信息类型。最初显示的属性404是一些或所有用于查询结果406中数据项的信息类型的属性。查询结果将含有数据项，每个数据项具有不同的属性。在查询结果顶端显示的属性是查询结果中最共同的属性，并且是已被搜索者点击或改善最多的属性。例如，查询“住房”具有以卧室和浴室作为属性的许多项，搜索者常常通过属性“浴室”以及“卧室”来对该查询“住房”进行改善。因此卧室以及浴室应该被显现在搜索结果上方的顶行上。

图4(b)示出了查询结果406以及多个属性和标签名称404(“期刊”、“pubmed”、“资讯来源”、“作者”)。在每个属性后的数字指示在查询结果406中具有与其相关联的属性的项的数量。例如，在图4(b)中，查询结果406包括2050个含有相关联的“期刊”属性/标签的项。从而，随同特定查询结果示出的属性的数量以及特性是依赖于查询的，并且进一步依赖于后来所选择的以缩小搜索范围的属性以及标签。

图3(c)是示出了对于给定的查询结果406确定显示哪个属性的方法的流程图340。当终端用户执行搜索时，搜索引擎185确定341最相关的q个结果以及为q个最相关的结果确定342n个最普遍的(popular)属性。系统为顶部n个属性名称确定344顶部m个属性/标签值。然后通过计算在相关结果集中的匹配要约(offer)的数量，来计算348柱状图，或要约计数。值q、n、以及m都是可配置的。不应被从限制意义上来理解的实例值有：q-1,000-100,000K(q也可以被设置为匹配特定查询词的所有结果)。N在100的范围内，M在20-100的范围内。

在优选实施例中，在确定柱状图以前将属性标准化346。在某些实施方式中，当数据最初被存储在数据集合190中时，就完成了一定数量的数据清除以及标准化。在所描述的实施例中，基于被搜索的查询词实时地完成数据标准化(例如，当查询词是“汽车”时，将所有的“牌子”属性标准化为“款型(make)”是有意义的，然而如果查询是“手提包”，将所有的款型属性标准化为“牌子”是有意义的)。其它实施例可以在数据被接收进数据集合190时做更多的标准化。在优选实施例中通过以下方式完成数据标准化：

1.词干技术(stemming)——例如，restaurant＝restaurants。

2.缩写——例如，sz＝size。

3.单位等同——例如，重量＝盎司、磅等等。

4.尝试进行的拼写改正。

在下述系统中词干技术是特别有用的，在所述系统中提供者指定其自己的属性名称，这使得差异以及拼写错误潜入数据集合190。例如，词干技术允许用户利用经过词干技术的属性“Journals”的单一选择，来按属性名称“Journal”、“journasl”、“Journsl”等等进行过滤。

在某些优选实施例中，提供者添加的属性是检验后的类型。例如，检验URL、DateTime(日期时间)、Number(数字)、String(字符串)、Location(位置)、Boolean(布尔型)属性以查看其是否是有效值。一些实施例查验(ping)每一URL值以查看其是否是有效的，尽管这对不同的实施方式来说是可选择的。对于优选实施例，将位置进行地理编码以使其能够被在线地图服务，诸如GoogleMaps(谷歌地图)所引用。在某些实施例中，将不能被地理编码的“位置”属性认为是无效的。

一旦普遍的属性以及标签被确定并且被显示322(图3(b))，就允许用户为查询结果指定324一个或多个所显示的标签以及属性值(见图3(d))。

图4(c)示出了实例，在其中用户已经从图4(b)选择属性“期刊”并且正准备在栏408中输入期刊名称，其中该用户想要将其搜索限制在该期刊名称上。注意到查询词402现在是“癌受体过滤：期刊”。属性“期刊”已经从所列出的核心属性404消失。

类似地，在图4(d)中，用户选择第二属性“年份”410并且输入年份或年份范围，其中该用户想要在该年份或年份范围内在所指定的期刊中搜索查询词。注意到查询词402现在是“癌受体过滤：期刊过滤：年份”。属性“年份”已经从所列出的属性404消失。如果用户选择GO(执行)按钮411，就会使用所选择的属性作为过滤器再次执行搜索，并且显示诸如图4(e)的显示。从而，用户能够为所显示的查询结果选择一个或多个普遍的属性，并且能够根据所显示的属性(或标签)过滤最初的搜索。如果用户让属性值为空，则所有的属性值都匹配。例如，如果用户选择属性期刊但是没有输入期刊名称，所有具有期刊属性(以及同样命名的属性)的数据项都被选择来作为对查询结果的可能候选者。不具有期刊属性的数据项不会被选择为查询结果。

图4(d)示出了实例，其中用户已经选择了多于一个的属性或标签来缩小搜索范围。在所描述的实施例中，通过点击属性和标签404的多个标签以及属性，来选择多个标签以及属性。其它优选实施例允许将标签以及属性输入进搜索窗口402。例如，如果存在属性价格，用户可以键入以下内容作为查询词：

属性(价格：$150)

该查询将在当前查询结果中定位具有价格属性以及属性值为$150的数据项。

作为另外的实例，用户可以键入：

属性(价格：$150)AND标签(小于面包盒)

该查询将在当前查询结果中定位具有价格属性，以及属性值为$150，以及小于面包盒标签的数据项。其它优选实施例将使用其它适当的用户界面元素来允许用户有逻辑地组合属性以及标签。

图4(e)示出了局限于如图4(d)中所指定的特定年份或年份范围的特定期刊的查询结果。允许用户决定其是否想要在期刊412内继续搜索或者是否搜索全部的数据项集合(例如“搜索所有的Googlebase”)413。在实例中，在区域414向用户提供多个标签的选择(“生物技术”、“医学”、以及“摄影”，其分别与在查询结果406’中的30、15、以及6个项相关联)。在实例中，进一步向用户提供选择来为区域416中的属性指定值：日期、作者、pubmed、引文。也向用户提供了通过相关性、数据属性、或任何用户已经定义的属性(例如价格、位置等等)来对查询结果406’进行分类416的选项。

在图4(f)中，用户已经从图4(e)的区域414选择了属性“日期”，并且给予用户机会来输入数据420。当用户选择下拉操作件“两者之间(between)”时其被给予机会来选择日期范围(如所示出的)。属性“日期”已经从所列出的属性418中消失。在此实例中，“作者”属性已经从属性414中消失。如果属性不再与查询以及查询结果有关，则其即消失。用户没有通过期刊进行过滤的事实现在是假设用户仅在考虑受限制的项目集。用户选择执行按钮来执行搜索，并且作者词再次出现。

图4(g)示出了用户指定作者名字422。当查询正被改善时新的属性以及标签就会显现，这是因为属性以及标签是基于查询结果的，并且查询结果在不断地改变。当用户按下执行按钮423时，另外的搜索被执行，进一步过滤查询结果来反映用户指定的属性以及属性值。

以下段落论述在搜索的时候或在使用属性以及标签缩小搜索范围的时候对属性储存库195的访问。

对引用储存库195的查询以及索引优选地支持以下运算符：

数字-Is(是)、Between(两者之间)、Greater Than(大于)、Less Than(小于)、Number Range(数字范围)

建议

字符串-Is(是)、Has(具有)

日期-Range(范围)、Before(在之前)、After(在之后)、Is(是)

位置-Within(在之内)

可以至少以以下方式查询储存库195：

-给出与特定的属性名称-类型对相匹配的所有项

-基于属性-值的值对这些项进行分类

-支持对以下属性类型的分类

-DateTime(日期时间)

-Number(数字)-Int(整型)、Float(浮点型)

-String(字符串)

-Location(位置)-距用户所输入的位置的距离

该查询能力允许用户输入以下类型的属性查询：

-给出具有特定名称-类型对的所有项

-将所给出的这些项按照属性值分类(例如给出具有事件_日期的所有项，并且将其按升序排序给出)

-为特定名称-类型属性给出介于值1与值2中间的所有项

实例

-给出具有以烹饪_类型作为属性并且具有在15与30之间的值的所有项，所述值的单位为分钟

-给出具有以大小作为属性并且具有不带单位的值1和15的所有项

-给出具有事件_日期并且值为小于今日的所有项

-给出具有发行_日期并且值为在1925年的所有项

支持以下运算符

-对数字-int(整型)、float(浮点型)

-Less than(小于)

-Greater than(大于)

-Between(两者之间)

对日期时间-

-Is(是)

-Before(在之前)

-After(在之后)

-Between(两者之间)

-Scoring of Items(项的评分)

当前存在2个主要的信号，通过其对项进行评分

-依赖于查询的排名-主要为IR分值

-独立于查询的排名-页面排名以及项排名的混合页面排名是提供者的网站页面排名。在项被装载在数据集合190中和/或项没有被链接或被连接到其它项的情况中，页面排名不存在。

项排名能够由多个因素所确定。两个主要的信号是

-特定于提供者的信号(例如评级)。

-特定于要约的信号(例如描述的长度、属性的数量、标签、图片等等)。

-项排名能够由以下信号定义

-描述的长度

-标题的长度

-标签的数量

-属性的数量

-图片

-要约已经被报告为垃圾的次数

-提供者的评级

-要约的新近性

将项评分为-依赖于查询的排名*独立于查询的排名

对默认排序来说排名即为默认排序。

在优选实施例中，在系统中能够设置某些参数。这些参数包括每个提供者最多的项数。其防止了由特定提供者造成的页面拥挤。

当用户选择属性和/或标签来缩小搜索范围时，系统搜索标签、标题、描述以及属性值。属性名称作为完整名称也应该是可搜索的。与相距较远出现的词语相比，短语被赋予更大的权重。与描述相比较标题被赋予更大的权重，与标题相比较标签被赋予更大的权重。属性值被赋予与标签同样的权重。用户可以开启或关闭提供者造成的商业拥挤来管控来自个体提供商的一个页面数的项是否会或不会被作为搜索结果显示。取决于所执行的搜索，商人拥挤(merchant crowding)可以是被需要的或不被需要的。

在优选实施例中，基于与同样或相似类型的其它项相关联的属性，系统定义了特定类型的新项的结构(例如，如果信息类型“工作”的多数项具有工作职责、工作类型以及雇主的属性，那么信息类型“工作”的数据项的共同属性结构将默认为是工作类型、雇主以及工作职责)。搜索者以及其它程序能够用诸如“给出其雇主是ABC公司并且其工作-类型是产品管理的所有工作”的查询查询数据集。

应当理解，尽管在此所描述的实例涉及人类用户，本发明的其它实施例可以被设计为与诸如人工智能软件程序的非人类用户一起或与在网络上通信的实体一起运行，该实体可能是人类或非人类。如果非人类用户是软件程序，显示如在此所描述的结果以及属性就可以是不必要的了。替代地，此种实施方式可以仅传达能够被用来缩小查询结果范围的可能的属性。在此种实施例中，由于非人类的人工智能能够处理需从其中选择的大量属性，因此能够显示大量的属性选项。在此种实施例中，可以不需要诸如确定柱状图的方法的元素或者该元素可以被用来仅对属性选择进行排名并且不限制多个可用的属性选择。

应当理解，在结构化数据190中各种信息类型的核心属性可能需要被周期性地更新。当将数据添加到结构化数据集合时，某些最初不普遍的属性可以变得普遍。例如，具有整型属性类型的“季”属性可以指定：作为演员图片的来源的哪一季电视节目可能并没有在最初被信息类型“电视节目”的初始核心属性所考虑，但是当越来越多的演员图片被添加到数据集合中时其可以变得普遍。在一些实施例中，基于普遍性(popularity)以及季节性(seasonality)，并且在通过垃圾过滤器以后，核心属性也会被自动更新。

图3(e)示出了周期性执行的方法350，该方法确定任何新的、提供者所提供的属性是否应该被提升为信息类型的核心属性。项信息类型的属性核心组是如下属性：即只要提供者添加该信息类型的新项就自动提供该属性。在优选实施例中，仅提供核心属性以减少提供者滥发(spam)属性从而使其挤进所显示的属性的可能性。对于每种信息类型，所述方法考虑该信息类型322的最普遍的用户所添加的属性，并且将最普遍的属性提升为该信息类型的核心属性。

作为被用于决定将哪个属性提升为核心属性的，“最普遍的”对不同的实施例来说定义不同。例如，最普遍的可以是不在核心属性中的属性，而在诸如周或月的预先确定的时段里用户最为频繁地选择352该属性。作为另一个实例，最普遍的可以是不在核心属性中的属性，且该属性具有在预先确定的时段里最为频繁地出现在查询结果中的数据项。作为另一个实例，最普遍的可以是不在核心属性中的属性，且该属性在预先确定的时段里出现在数量最多的提供者的数据中。可以以任何适当的方式来确定最普遍的，只要其产生的属性对缩小搜索范围有用，就将其添加到核心属性。

例如，提供者可以为文章的项信息类型着手添加“博客”属性来指示已经在博客中提及该文章。此种属性将具有URL属性类型，指示提及项的博客的URL。如果阈值数量354的唯一提供者或用户使用了信息类型的特定的新属性，则该属性被添加356到该信息类型的属性核心组。在优选实施例中，阈值将是基于使用系统的提供者的总数的。其将以如2-3开始并且增加到较大数量。对标签执行类似的方法来将普遍的标签添加到标签核心集。在某些优选实施例中，所提升的属性将由人类或实现方法的适当的软件或硬件进行常识性检验(sanitycheck)。

前述段落已经大体上论述了搜索以及更新输入到结构化数据集合190的数据的方法。以下段落论述提供者能够将数据输入到或将数据添加到结构化数据集合190的方法。在某些优选实施例中，提供者也能够为其数据指定新的属性。

图6(a)-6(e)是示出了提供者能够如何编辑数据集合中的项的实例截屏。提供者是将内容添加到或能够将内容添加到数据集合190的任何人。在所描述的实施例中，数据集合190是由一个或多个提供者所拥有的数据，提供者诸如个人、非营利的组织、或公司。实施例允许此种提供者通过网络来设置并且增加其自己的结构化数据集合(例如数据库)，并且通过网络或类似网络来使其集合是可搜索的。预期的是，为了报酬或交换其许可(permission)以允许数据被其他人搜索，提供者将乐于把数据存储到中央储存库中。在此种情况中，通过网络或基于网络的浏览器可以搜索数据集合，所述浏览器诸如谷歌浏览器或谷歌桌面搜索引擎，其版本为包含在此所描述的一些或所有的功能的版本。

图6(a)-6(e)是示出了允许提供者编辑以及向系统内输入数据的用户界面的实例截屏。

图6(a)示出了用户界面600，该界面允许提供者查看并且编辑数据集合190中的数据项。也可以使用用户界面来将项添加到数据集合190中。区域602包含数据集合190中的项的部分列表。在本实例中，该列表包括项标题601、项类型(也被称为信息类型)605、状态603、到期日、闪现次数(项已经显示的次数)、在对象上的点击数、以及点进率、在搜索结果中项被点击的次数。在实例中，在区域602示出数据集合中所有项的一个子集，但是提供者也可以搜索其个人的数据集合620或搜索整个数据集合622。提供者也可以查看非活动项616或上载批量文件618。每个数据项具有相关联的“编辑”链接619。在优选实施例中，提供者能够只编辑其自己的数据项。区域604允许提供者显示诸如下拉菜单的选择装置，该装置示出现有信息类型(事件以及活动、住房等等)。如果提供者选择信息类型，其能够在区域606为其数据添加信息类型的描述。

图6(b)示出了用户界面，该界面允许提供者查看并且编辑610数据集合190中的数据项。所述项具有“资讯和文章”的信息类型。如果提供者在图6(a)的区域602中已经选择了数据项，则该项的信息将被显示在区域611的栏中。然而，在实例中，提供者没有选择项，因此提供者可以自由地输入新的数据项。在实例中，“资讯和文章”610信息类型包含以下字段：标题、图片、描述以及在查询结果中所显示的链接614(例如URL)。

图6(b)的用户界面也允许提供者编辑项的属性以及标签。需注意到，尽管每种信息类型具有相关联的属性，但是不是特定类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中，如参考数字612所示出，提供者已经指出有数量为“1”个的项是可用的或存在的。对该项来说，没有为作者或资讯来源属性指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在此，提供者能够添加属性名称以及属性值。

提供者能够在区域618中提供与联系方式信息(contactinformation)有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。

提供者能够在区域619中将标签添加到项。在某些实施例中，信息类型是默认属性名称。在此，信息类型是“资讯和文章”并且其也是标签。

图6(c)示出了图6(b)的用户界面，该界面允许提供者查看并且编辑610数据集合190中的数据项。在实例中，提供者能够为新的提供者所定义的属性613添加名称以及值。尽管默认属性类型是“文本”，提供者可以选择另一个属性类型，诸如数字单位、数字、数据范围、大文本、URL、布尔型、以及位置。

图6(d)示出了用户界面，该界面允许提供者查看并且编辑610数据集合190中的数据项。该项具有“产品”630信息类型。如果提供者在图6(a)的区域602中已经选择了数据项，则该项的信息将被显示在区域611的栏中。然而，在实例中，提供者没有选择项，因此提供者可以自由地使用用户界面630输入新的项。在实例中，“产品”信息类型包含以下字段：标题、图片、描述以及在查询结果中所显示的链接634(例如URL)。

图6(d)的用户界面也允许提供者编辑项的属性以及标签。需注意到，尽管每种信息类型具有相关联的属性，但是不是特定信息类型的所有数据项都具有用于该信息类型的所有可能属性的值。在实例中，如参考数字632所示出，提供者已经指出每项价格150美元(例如与每磅或每打相对)。数量“1”被指定。价格类型是提供者设置的价格的类型(例如比价竞卖(best offer)、可商议的、固定的等等)。对该项来说，没有为价格选项、品牌、条件、以及产品类型指定值。每个属性具有“文本”属性类型。提供者可以自由地为个人数据项的属性添加值。提供者也能够使用区域613来添加属性。在该实施例中，提供者能够为其指定的属性改变属性类型。用户可以自由地为个人数据项的属性添加值。用户也能够使用区域613来添加属性。在此，提供者能够添加属性名称以及属性值。

在该实施例中，提供者添加的属性被添加到其当前信息类型的所有项。在此，例如，一旦属性被定义，提供者的类型为“产品”的所有项都被赋予最近所添加的属性613。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。如上所述，新的属性逐渐变为属性核心集是可能的。在其它实施例中，新的属性不一定被添加到该信息类型的所有项。在其它实施例中，提供者可以同意限定的一组提供者都将具有相同的属性，以使得当一个提供者添加属性时，在组中的其它提供者也将具有相同的属性。

提供者能够在区域618中提供与联系方式信息有关的属性值。提供者能够在区域619中提供与位置信息有关的属性值。提供者能够在区域638中提供与支付方式有关的属性值。

提供者能够将标签添加到区域616中的项。在某些实施例中，信息类型是默认属性名称。在此，信息类型是“产品”并且其也是标签。在该实施例中，提供者添加的标签不被添加到其当前类型的所有项(除了是该信息类型的标签以外)。如上所述，新的标签逐渐变为核心标签集是可能的。在其它实施例中，新的标签总是被添加到该信息类型的所有项。

图6(e)示出了图6(d)的用户界面，该界面允许提供者查看并且编辑630数据集合190中的数据项。在该实例中，联系方式、支付方式、以及位置都是产品信息类型的属性。其是具有复合类型的属性(不只是整型或简单字符串)。在该实例中，提供者能够为信息类型“产品”的项添加与联系方式618有关的值。在此，提供者指定昵称、电话号码、电子邮件地址(从提供者信息数据库获得的可能值，未示出)中的一些或全部。在该实例中，提供者能够为信息类型“产品”的项添加与支付方式638有关的值。在此，提供者指定支付方式以及注释中的一些或全部。在该实例中，提供者能够为信息类型“产品”的项添加与位置619有关的值。在此，提供者指定文本注释中的一些或全部(例如“加州弗里蒙特”)。在该实施例中，也存在复选框来指示消费者是否能够从该位置获得产品以及递送半径。

在该实例中，为每个项分别地输入联系方式、支付方式、以及位置值。提供者添加的值不被添加到其当前信息类型的所有项。在此，例如，不是所有的提供者的信息类型为“产品”的项都被赋予在图6(e)中示出的联系方式、支付方式、以及位置值。通常单独地添加每个项的值。某些实施例也允许提供者为其指定的信息类型的所有项指定值。例如，对提供者的所有“产品”来说支付方式信息可以是相同的。

促销者可以通过图6的用户界面或经由图7以及8所示出的批量上载方法来输入项。

图7是示出了用于注册批量上载文件的用户界面的实例截屏700。批量上载文件被用来创建或添加到数据集合190。在该实例中，添加具相同信息类型的项的平面文件(flat file)。在该实例中，文件名称712是“本地商品目录(local inventory)”。提供者选择数据类型714，其是预先定义的信息类型或自定义的信息类型。提供者为数据中的文本字符串选择语言716。当提供者选择按钮“注册批量上载文件”718时，具有文件名称712的文件被注册，然后将允许提供者上载文件。提供者能够使用基于网页的上载界面或使用另外的诸如FTP(文件传送协议)或RSS的机制来上载文件。

图8(a)示出了将被批量上载的制表符分隔的(tab-delimited)文件的格式801。以下是批量上载文件的格式要求：

-制表符分隔的纯文本。

-文件首行是标题-必须包含属性名称(在以下描述)，由制表符分隔。

-每行一个项；每一属性应该由制表符分隔。

-在行末端没有结尾制表符(trailing tab)。

-文件必须被保存为LATIN1或UTF-8编码。ASCII也是可接受的，因为其是LATIN1的子集。

-链接以及图像URL应该被完全限定。即，其必须包括http://部分，例如：http://www.example.com/image.gif

-制表符、回车、或换行符-如果这些中的任何一个在属性中出现，将不能显示该项。

-HTML标记、注释、以及换码顺序(escape sequence)-不会从批量上载移除html，但是为了最佳表现(appearance)，不应该包括HTML。

在优选实施例中，数据项是所上载的文件的一部分，该文件也包含属性。在另外的优选实施例中，数据项以及属性在单独的文件中被上载，构建所述单独文件以使得哪个属性值属于哪个数据项是清楚的。

图8(b)是提供者用来创建批量上载文件的实例方法的流程图800。提供者可以是人类，或是硬件或软件。

要素802：在电子表格程序(spreadsheet program)中打开新的文件

所描述的方法使用诸如微软Excel的电子表格程序来创建批量上载文件。使用类似微软Excel的电子表格程序使创建批量上载并将其转换成适当格式变得容易。能够使用其它方法来产生适当格式化的文件。

要素804：创建标题行

作为一个实例，产品批量上载的标题行可能看起来像图8(c)中的行832。依照提供者想要提交的项的信息类型指定批量上载中的每一列(参见图7的714)。在电子表格832的首行输入每一属性的名称，提供者想要包括该名称来描述其的项。这就是标题行。标题行的内容将依赖于所提交信息的信息类型、以及提供者是否发送了所定义的信息类型、或其自己创建的信息类型。

自定义信息类型：

批量上载能够被用来提交任何信息类型。如果提供者发送其自己的信息类型，其可以使用预先定义的属性的任何组合。在优选实施例中，强烈地推荐提供者使用预先定义的属性。提供者也能够包括无限多的自定义属性：提供者应该挑选最能描述其的项的属性集。

限定信息类型：

提供者能够发送用于限定信息类型之一的批量上载。强烈地推荐提供者在其批量上载中包括信息类型。其允许将项更精确地匹配到搜索查询。提供者给出越多的信息，用户就越容易找到项。在优选实施例中，提供者必须包括所推荐的属性以使提供者的项能够出现在已完成的搜索的显著部分中。

要素806：输入项信息

在每行834上，提供者为其数据集合中的项输入信息。每个信息应该反映其所在的列的标题。(例如产品的价格应该输在“价格”标题下)。每一行仅包括一个项。参见图8(c)。

要素808：将批量上载转换为制表符分隔的纯文本

使用先前注册的文件名(参见图7)将电子表格转换为制表符分隔的文本(.txt)。在提供者已经将所有项输入进电子表格后，其将电子表格保存为制表符分隔的文本(.txt)格式。注册的文件名能够被再次用于后续的上载。如果所上载的文件具有未注册的名称，则该文件中的项将不会被添加到数据集合190。在优选实施例中，最新的批量上载必须至少每30天发送一次以确保项保留在数据集合190中。

要素810：上载文件

图8(d)示出了上载文件的用户界面840。

要素812：检查批量上载的错误

在提供者已经发送批量上载后，其能够通过登录到中央网站查看批量上载的状态。如果列出结果为“成功”，则不需要改变批量上载。否则，提供者可以点击批量上载的文件名来查看关于如何改正错误的信息。

在批量上载被上载后，文件将被处理以将项、属性、以及标签添加到数据集合190以及图5的数据结构。一旦上载已经被批准，具有相同文件名的任何未来的更新都将被自动地处理。

尽管本发明已经就几个实施例在以上进行了描述，但能够在本发明的范围内进行各种修改。例如，某些优选实施例包括检测无效的或“垃圾的”属性和标签的方法和系统。不希望的是，提供者把属性添加到其数据中，而该属性将允许数据项出现在搜索的顶端。一些用来避免此种属性的方法包括黑名单、特定的柱状图分布等等。

在其它优选实施例中，对显示的顶端的属性以及标签的确定不仅是基于属性关键类型元组(attribute key-type tuple)以及标签的普遍性，还是基于值的分布(分布越离散越好，并且越倾斜越好。例如，对一个属性5个普遍的值比50个均匀分布的值更好。实例如果颜色是属性并且将红色、蓝色、以及绿色看作顶端的颜色，那么其将是凭以改善的良好属性。另一方面颜色具有100个值每个值出现三次不是那么有用的。

另一个优选实施例基于使用属性、项排名/每个要约的要约排名的提供者的数量来执行复杂的置信度分值。

另一个优选实施例使用来自用户的点击信号来确定向用户显示哪个属性。通过被定义为普遍性排名的事物来对属性以及标签评分：

PR＝在查询结果中的普遍性*用于该特定查询的CTR

在另一个优选实施例中，如果用户总是将2个属性约束用于特定的查询(例如90％的情况下Ipod总是受约束于价格以及位置，当用户键入ipod时依据价格以及位置的系统约束将发生)示出已经应用于所述查询结果的约束。

因此，本发明的公开意在是说明性的，而不是限制在权利要求中阐述的本发明的范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 [P] . 中国专利： CN101866347B . 2017.05.17
2. 对结构化数据进行搜索的方法、系统以及使数据项结构化及可搜索的方法、系统 [P] . 中国专利： CN101866347A . 2010-10-20
3. METHOD FOR MUTUAL SEARCH AND ALERT, INFORMATION PROCESSING SYSTEM, AND COMPUTER PROGRAM (MUTUAL SEARCH AND ALERT BETWEEN STRUCTURED DATA SOURCE AND UNSTRUCTURED DATA SOURCE) [P] . 日本专利： JP2011081794A . 2011-04-21

机译：相互搜索和警报的方法，信息处理系统和计算机程序（结构化数据源和非结构化数据源之间的相互搜索和警报）
4. STRUCTURED DATA STORAGE SYSTEM AND METHOD, STRUCTURED DATA SEARCH SYSTEM AND METHOD, AND STORAGE MEDIUM [P] . 日本专利： JP2003271443A . 2003-09-26

机译：结构化数据存储系统和方法，结构化数据搜索系统和方法以及存储介质
5. METHOD AND SYSTEM FOR HIGH PERFORMANCE INTEGRATION, PROCESSING AND SEARCHING OF STRUCTURED AND UNSTRUCTURED DATA USING COPROCESSORS [P] . 欧洲知识产权局专利： EP2092440B1 . 2019-01-09

机译：使用协同处理器进行结构化和非结构化数据的高性能集成，处理和搜索的方法和系统