公开/公告号CN102713902A
专利类型发明专利
公开/公告日2012-10-03
原文格式PDF
申请/专利权人 萨基姆通讯宽带公司;
申请/专利号CN201080054826.6
发明设计人 J-P·莫拉尔;
申请日2010-09-08
分类号G06F17/30;
代理机构北京市金杜律师事务所;
代理人王茂华
地址 法国吕埃马迈松
入库时间 2023-12-18 06:52:28
法律状态公告日
法律状态信息
法律状态
2017-05-03
授权
授权
2012-11-28
实质审查的生效 IPC(主分类):G06F17/30 申请日:20100908
实质审查的生效
2012-10-03
公开
公开
技术领域
本发明的目标是用于生成使用搜索引擎执行的搜索的结果的方 法。本质上,本发明的目标是改进尤其是在因特网网络上的通过搜 索引擎发起的计算机搜索的结果的可靠性。
本发明的领域总体上是通信网络上的信息搜索的领域。本发明 可以在使用搜索引擎发送尤其是可视数据的任意通信网络上实现; 这里,所考虑的可视数据是缩略图(thumbnail)类型的可视数据。 本发明将在所考虑的通信网络是因特网网络的情况下进行描述,所 述因特网网络是用户通过因特网浏览器访问的网络;在该网络上, 用户可以通过搜索引擎执行搜索。然而,本发明还可以在其他类型 的网络(例如公司内部网网络)上实现。
背景技术
现今,越来越多的文档被数字化并且通过搜索引擎可访问。被 数字化并且在线可访问的文档数量上的增长的直接后果是当例如通 过关键字由因特网浏览器执行搜索时获得的结果数量上的增长。如 果因此获得的结果呈现了相对深入的特性,则对于用户而言增加了 从搜索结果列表中找到期望信息的难度。某些搜索引擎设法对找到 的结果的相关性划分优先级,但是手动步骤仍然存在,用户必须执 行该手动步骤以从获得的结果列表中选择用户真正感兴趣的结果。
为了促进该手动步骤,通常以与URL相关联的文本行的形式返 回结果列表的某些浏览器利用缩略图类型图像来补充搜索结果。缩 略图是指如下尺寸上减少的图像,其允许与该图像相关联的结果被 视觉上标识。例如,缩略图可以由唱片套或书籍的封面的图像构成。 缩略图的尺寸可以被自愿减少以便能够例如和与搜索结果相关联的 文本协调进行放置,并且能够维持在屏幕上可视地同时显示大量搜 索结果的能力。在某些情况下,缩略图本身构成所执行搜索的结果 行,而不与文本行相关联。因此,在搜索之后,缩略图可以直接出 现或者与URL地址类型信息相关联地出现。
然而,仍然存在困难:尽管使用了缩略图,但是由搜索引擎执 行的搜索的结果可能以相对无组织方式呈现,并且可能对于用户而 言难于利用。因此,在大多数情况下,这些结果包括结果族(family), 每个结果族对应于指定类似元素的结果。但在实践中,这些结果族 没有被编组在一起。
因此,例如如果用户搜索给定艺术家的特定专辑(他忘记了该 专辑的名称),则该用户会在其搜索引擎的适当窗口中录入该艺术 家的名字。然后,不同的专辑将会出现在结果列表中;但是,针对 所考虑的艺术家的给定专辑的不同结果不一定编组在一起,例如编 组在搜索结果的连续行中。实际上,相同专辑可以由不同URL引用, 这些URL在结果列表中不一定是连续的。
另外,相同专辑中的微小差别可能存在于唱片套中;例如,专 辑的“简装”版与“收藏”版之间的微小差别就属于上述情况;事 实上,相同专辑的不同版本对应于艺术家的相同作品,并且因此可 能看起来在由搜索引擎产生的结果列表中将上述版本编组在一起以 便促进用户的搜索是令人感兴趣的。在本发明的上下文中,已经利 用艺术家专辑描述的示例可容易地转变成其他项目,诸如书籍、DVD 或其他项目。
发明内容
根据本发明的方法提出了一种对上述问题的解决方案。本发明 提出了一种解决方案,从而使得当通过搜索引擎发起搜索时生成的 缩略图在由搜索引擎产生的结果列表中通过条目族编组在一起。条 目族是指如下多个条目,其相关联的缩略图呈现相似性,从而使得 这些条目被认为指代相同的对象。为此,提出了执行以下操作以便 使得搜索结果对于用户而言更加可读:将由搜索产生的不同缩略图 进行比较,以及将呈现强相似性的类似缩略图编组在一起。
本发明本质上涉及一种用于生成使用搜索引擎执行的搜索的结 果的方法,其中在所述搜索操作之后建立结果列表,其特征在于, 所述方法包括以下不同步骤:
-从结果列表中标识与所示结果相关联的缩略图类型图像;
-执行对图像的分析操作,包括成对比较所标识的缩略图类型图 像;
-将通过比较缩略图类型图像的操作确定的共享相似度的缩略 图类型图像编组成图像族;
-根据编组成图像族来生成搜索的结果。
实践中,如果两个图像实际上表示相同对象,则所述两个图像 被认为呈现彼此之间的相似度,所述图像可以按照细节的顺序在它 们之间呈现差异。通常,如果在以相同格式并且以相同尺寸返回的 情况下构成两个图像的像素的小于20%呈现不同的分量值,则可以 认为这两个图像是彼此相似的。
除了先前段落中已经提到的主要步骤之外,根据本发明的方法 可以包括以下中的一个或多个附加特性:
-比较操作通过编码器执行;
-编码器为H264类型;
-通过编码器执行的比较操作包括如下不同步骤:
-从标识的缩略图类型图像组成所有可能的缩略图类型图像 对;
-针对每对组成的图像,通过编码器执行对所述图像对进行编 码的操作;
-从编码操作确定图像对中两个图像之间的差别;
-将所考虑的图像对中的两个图像之间的差别量化,以获得量 化值;
-如果所考虑的图像对的量化值小于先前确定的差别阈值,则 将图像对中的两个图像编组到相同的图像族中;
-在图像分析步骤之前,所述方法包括以下步骤:访问与每个 标识的缩略图相关联的高分辨率图像,然后在该高分辨率图像上执 行图像分析步骤;
-在图像分析步骤之前,所述方法包括以下步骤:将标识的缩 略图类型图像转换成相同的图像格式;
-所标识的缩略图类型图像转换成的图像格式是YUV格式;
-包括从结果列表标识与所示结果相关联的缩略图类型图像的 步骤在所述结果列表中先前确定数目的结果上执行。
根据本发明的方法的不同附加特性在它们不相互排斥的情况 下,根据所有组合可能性进行组合,以产生本发明的实施方式的不 同示例。
在阅读以下描述并且查看附图之后,将更好地理解本发明及其 各种应用。
附图说明
附图是出于指示目的而呈现并且不以任何方式限制本发明。其 中:
图1是示出了根据本发明的方法的实现的示例的示图;
图2是根据本发明生成通过搜索引擎执行的搜索的结果的示意 表示;以及
图3是图示了通过图像族对图像进行编组的值表的表示。
具体实施方式
除非另外说明,出现在不同附图中的元素将保持相同的附图标 记。
图1表示了图示了根据本发明的方法的实现示例的示图;图2 中图示了组织从搜索生成结果的方法的所述程序的不同步骤。
因此,将同时对图1和图2进行描述。
本发明在由用户在因特网网络上通过搜索引擎执行搜索的上下 文中进行描述。
图2表示了分别表示根据本发明的方法的实现之前以及根据本 发明方法的实现之后的搜索结果的第一屏幕200和第二屏幕300。在 所表示的示例中,用户通过在搜索引擎的区域202中键入一组关键 字201(这里是“艺术家X”)来发起搜索。继而,用户获得对应于 唱片套、根据特定于每个搜索引擎的方法而分层级地组织的结果列 表203。在所示示例中,为了简单化,结果列表203限于缩略图,省 略了实践中可能会呈现的与URL地址相关联的文本。因此,这里考 虑结果列表排他地由所示结果组成,即,由与缩略图相关联的结果 组成。仍然是为了简单化,结果列表203限于八个结果的列表,按 其呈现在屏幕上的顺序引用为301至308。实践中,结果的数目经常 大得多,并且对缩略图的使用必须成为用于在用户感兴趣的结果的 选择方面进行辨别的工具。
在表示的示例中,针对艺术家X列出了三个专辑,第一专辑具 有描述“DISC 1”(缩略图301、304、306和308),第二专辑具有 描述“DISC 2”(缩略图302、305和307),而第三专辑具有描述 “DISC 3”(缩略图303)。如可以看出的,不同的专辑在结果列表 中是以无组织的方式出现:所考虑的专辑的不同情况在结果列表中 没有被编组在一起,这对用户而言是不实际的,尤其是在结果列表 203包括大量结果时。
如图1中所示,为了根据按本发明的方法的实施方式的示例生 成搜索结果,在第一步骤101中,本发明执行操作以在结果列表203 中标识缩略图类型图像。这种操作可以通过传统的图像处理操作或 者通过标识与缩略图相关联的URL来执行。在本发明的特定实施方 式中,在之后的步骤102中,将缩略图的标识限制于预先确定的数 目(例如五十),以便限制随后介入的计算量,并且通过考虑这种 限制将促进用户选择其实际上感兴趣的结果的任务。在所考虑的示 例中,缩略图的数目被限制在先前提到的八个缩略图。
有利地,在之后的步骤103中,执行操作以访问与所考虑的缩 略图相关联的高分辨率图像。为此,可以使用例如与所考虑的缩略 图相关联的URL。
在之后的步骤104中,执行操作以将缩略图类型图像(如果有 必要,以其高分辨率版本)从其原始格式(jpeg、gif等)转换成由 编码器类型设备直接可用的格式。这种格式例如是YUV 4:2:0格 式或RGB格式。
在之后的步骤105中,执行基于经转换的图像来分析图像的步 骤。在所考虑的示例中,该步骤包括以下不同操作:
-操作121,通过根据所有可能性组合所有标识的图像来构成图 像对;因此,在所考虑的示例中,从八个标识的缩略图中获得28对 两个图形(Bi,Bj),其中i和j属于集合{1-8}。
-操作122,在操作122期间,对(Bi,Bj)由H264类型解码器 编码;在实施方式的其他示例中,编码器可以是VC1或Dirac类型。 因此在编码器的输出,针对每个编码对(Bi,Bj),以如下数据序 列的形式获得信息集:{Ri,P(i,1),P(i,2)...P(i,m)}, 其中Ri是图像Bi的压缩格式,并且数据P(i,m)是指示在图像 Bj与图像Bi之间观察到的改变的数据,值m对应于在该处已经观 察到图像Bi与图像Bj之间的差别的图像的区域(通常为矩形)的 数目。
-操作123,在该操作123期间,针对已经经历过编码操作的每 对图像(Bi,Bj)对图像Bi与图像Bj之间观察到的差异进行量化; 为此,考虑信息集{Ri,P(i,1),P(i,2)...P(i,m)},并且 针对每个编码对(Bi,Bj),将所有数据P(i,m)相加以获得被称 为差异值的值。该值越低,则图像Bi与图像Bj之间的相似性就越 高。
-操作124,用于将图像编组在一起,在以上描述的操作之后呈 现低于或者低于或等于先前确定的阈值的图像Bi与图像Bj在操作 124期间被编组在一起到相同的图像族中。编组到相同图像族中的图 像继而被认为共享相似度。
图3示意性地图示了图像族的构成。在该图中表示了表320,该 表的每行与该表的每列对应于八个缩略图301-308之一。与缩略图相 关联的行和与另一缩略图相关联的列的交叉点给出根据以上描述的 方法计算的被称为比较值的值。因此,通过对其比较值小于先前确 定的阈值的图像进行编组来执行图像编组操作。
在所考虑的示例中,值“2”被当作阈值。因此,如图2中所示, 在示意性地表示遵循根据本发明的方法的实现而生成的搜索的结果 的屏幕300处:
-缩略图301、304、306和308被编组在一起到相同行上以形成 第一图像族311;实际上,这些缩略图之间仅有的差异包括在单词 “DISC”的不同字母之间存在符号,这些缩略图在所有其他方面都 是相同的。
-缩略图302、305和307被编组在一起到相同行上以形成第二图 像族312;实际上,这些缩略图之间仅有的差异包括出现在单词 “DISC”的不同字母之间存在符号,这些缩略图在所有其他方面都 是相同的。
因此,用户可以更容易地定位所搜索的对象。
机译: 互联网搜索引擎,特别是用于查找要在互联网上购买的产品的互联网搜索引擎,具有改进的搜索方法,该方法可以几乎实时地执行搜索,并可以找到更简洁的结果
机译: 用于在由计算机网络搜索引擎生成的搜索结果列表中执行等级和价格保护的系统和方法
机译: 用于搜索数据库的方法,用于搜索数据库的搜索引擎系统以及提供密钥表以供数据库的搜索引擎使用的方法