首页> 中国专利> 使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序

使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序

摘要

本发明提供了秘密信息不被推测而能够有效地取得必要的信息的、使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序。接受由三个以上的字符构成的期望的搜索词(30)的输入,从搜索词(30)提取连续的两个以上的任意的字符,并生成各自由提取出的字符构成的多个正当字符串(34)。另一方面,从适合于要使用的搜索引擎的词典(32)作为噪声词(36)选择任意的单词,从噪声词(36)提取连续的两个以上的任意的字符,并生成由提取出的字符构成的噪声字符串(38)。组合正当字符串(34)与噪声字符串(38)从而生成查询,并发送到搜索引擎。对响应于查询而从搜索引擎返回的搜索结果(40)使用搜索词(30)进行再次搜索,并显示该最终搜索结果(44)。

著录项

  • 公开/公告号CN102132274A

    专利类型发明专利

  • 公开/公告日2011-07-20

    原文格式PDF

  • 申请/专利权人 国际商业机器公司;

    申请/专利号CN200980132922.5

  • 申请日2009-08-11

  • 分类号G06F17/30;

  • 代理机构北京市柳沈律师事务所;

  • 代理人黄小临

  • 地址 美国纽约阿芒克

  • 入库时间 2023-12-18 03:04:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-08-18

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2009801329225 申请日:20090811 授权公告日:20150819

    专利权的终止

  • 2015-08-19

    授权

    授权

  • 2011-08-31

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20090811

    实质审查的生效

  • 2011-07-20

    公开

    公开

说明书

技术领域

本发明涉及搜索技术,更具体地涉及使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序。

背景技术

现在,在因特网上公开了用于搜索网页的各种搜索引擎,谁都可以利用。但是如果使用公开的搜索引擎对秘密信息(专利信息、新产品的开发信息、技术窍门(know-how)、个人信息等)进行搜索,则担心根据在该搜索查询中包含的关键字来推测秘密信息。

为了解决这样的问题,(日本)特开平11-259512号公报(专利文献1)公开了如下的数据搜索系统,该数据搜索系统将输入到数据搜索装置的搜索条件的全部或者一部分作为机密信息对数据搜索装置设为隐藏或者不鲜明而进行搜索,并由数据搜索装置缩窄该搜索结果。该系统为了将搜索条件设为隐藏或者不鲜明,从输入的全部的搜索条件删除预先注册的应隐藏的搜索条件,将输入的搜索条件置换成类似词或者上位概念词,对输入的搜索条件附加多余的搜索条件,或者将输入的搜索条件分割成多个搜索词。

但是,由于该系统如上所述地改变搜索条件,因此存在只能取得很少的必要信息或者取得很多不需要的信息的问题。

(日本)特开2002-297606号公报(专利文献2)公开了能够在隐藏用户想要设为机密的搜索条件的状态下利用信息提供服务的数据库接入系统。客户机计算机将对包含在搜索条件的应隐匿的数据项目进行了加密的加密询问发送到服务器计算机,服务器计算机不对加密了的搜索条件进行解密,而一边与上述隐匿数据项目同样地对成为搜索对象的数据进行加密,一边通过加密数据匹配进行数据搜索。

但是,该系统只不过通过进行加密将搜索条件的组合方法(AND、OR、NOT等)设为秘密。此外,存在加密以及该数据匹配的处理负担增大的问题。

除了上述之外,提出了如下的搜索方法。

“秘密信息恢复(PIR:Private Information Retrieval)”

存在服务器拥有N比特的数据,并且客户机不对服务器通知而取得N比特中的一个比特的问题,但该问题的简单的解决方法是服务器将所有N比特发送到客户机。但是,从90年代已具有在多个服务器的存在和计算复杂性的前提下不发送所有比特而能够解决的研究结果。这些是数学性的基础理论,还没有达到实用(参照http://www.cs.umd.edu/~gasarch/papers/pirsurvey.pdf(非专利文献1))。

“遗忘传递(OT:Oblivious Transfer)”

在PIR的情况下,客户机可能得到自身所希望的信息以外的信息,但在OT的设定中除了满足PIR之外,设计客户机不会得到自身所希望的数据以外的信息的协议。此外,在OT的情况下没有通信量的限制。OT与出现在非专利文献1的对称(Symmetric)PIR相同。这些也是理论,几乎没有安装例。

“秘密流搜索的新技术(New techniques for private stream searching)”

该方法中,通过在服务器侧利用用户的公开密钥对查询进行加密,同时也对索引进行加密,从而能够不对服务器侧公开信息而得到搜索结果。但是,在该方法中由于需要服务器侧的安装,因此无法应用通常利用的搜索服务器(参照http://acsc.csl.sri.com/privss/(非专利文献2))。

现有技术文献

专利文献

专利文献1:(日本)特开平11-259512号公报

专利文献2:(日本)特开2002-297606号公报

非专利文献

非专利文献1:http://www.cs.umd.edu/~gasarch/papers/pirsurvey.pdf

非专利文献2:http://acsc.csl.sri.com/privss/

发明内容

发明要解决的课题

本发明的目的在于,提供秘密信息不被推测而能够有效地取得必要的信息的、使用了公开的搜索引擎的搜索装置、搜索方法以及搜索程序。

用于解决课题的手段

本发明的搜索装置包括:搜索词输入部件,接受由三个以上的字符构成的期望的搜索词的输入;正当字符串生成部件,从在搜索词输入部件中输入的搜索词提取连续的两个以上的任意字符,并生成各自由该提取出的字符构成的多个正当字符串;噪声词选择部件,作为噪声词选择任意的单词;噪声字符串生成部件,从由噪声词选择部件选择的噪声词提取连续的两个以上的任意字符,并生成由该提取出的字符构成的噪声字符串;查询生成部件,组合由正当字符串生成部件生成的正当字符串和由噪声字符串生成部件生成的噪声字符串,从而生成查询;外部搜索部件,将由查询生成部件生成的查询发送到搜索引擎;内部搜索部件,对响应于来自外部搜索部件的查询而从搜索引擎返回的搜索结果使用在搜索词输入部件中输入的搜索词进行再次搜索;以及搜索结果显示部件,显示内部搜索部件的搜索结果。

发明的效果

根据本发明,由于组合从搜索词提取的正当字符串和从噪声词提取出的噪声字符串而生成查询,并发送到搜索引擎,因此根据搜索词不会推测出秘密信息而能够有效地取得必要的信息。

优选为,搜索装置还包括:一般词搜索部件,将一般的单词作为查询发送到搜索引擎;以及词典生成部件,从响应于来自一般词搜索部件的查询而从上述搜索引擎返回的搜索结果提取单词从而生成词典。噪声词选择部件从由词典生成部件生成的词典作为噪声词选择任意的单词。

这时,由于生成适合于搜索引擎的词典,因此根据噪声词的搜索的匹配(hit)数目增加,因此搜索词的隐匿性变高。

优先为,正当字符串生成部件随着在搜索词输入部件中输入的搜索词的字符数目变多,增加应生成的正当文字串的数目。

这时,虽然搜索词的隐匿性变低,但搜索精度变高。

优先为,噪声字符串生成部件生成噪声字符串直到其数目超过规定的阈值为止。

这时,虽然搜索精度变低,但搜索词的隐匿性变高。

优选为,噪声词选择部件选择噪声词直到其数目超过规定的阈值为止。

这时,虽然搜索精度变低,但搜索词的隐匿性变高。

本发明也提供在如上所述的搜索装置中执行的搜索方法以及搜索程序。

附图说明

图1是表示本发明的实施方式的搜索装置的结构的功能方框图。

图2是表示图1所示的搜索装置内的搜索程序的流程图。

图3是用于说明图1所示的搜索装置的动作的图。

图4是表示图2中的查询生成的子程序的流程图。

具体实施方式

以下,参照附图详细地说明本发明的实施方式。对图中相同或者相当的部分附加相同的标号,不重复其说明。

参照图1,本发明的实施方式的搜索装置10包括CPU(中央运算处理装置)11、存储器12、硬盘13、通信装置14、输入装置15、以及显示器16。通信装置14将搜索装置10连接到因特网20,将各种请求发送到搜索引擎21~23,并且接收来自搜索引擎21~23的各种响应。输入装置15为键盘、鼠标等。通过将后述的搜索程序安装到个人计算机(PC)从而构筑搜索装置10。搜索程序被固定到CD-ROM等存储介质而被提供,或者从服务器经由因特网20被下载。

各种运营商在连接到因特网20的WWW(World Wide Web,万维网)服务器上构筑搜索引擎21~23,并免费或者收费地向公共提供网页搜索服务。搜索引擎21~23响应于来自连接到因特网20的不特定的多个客户机的搜索请求(查询)而返回搜索结果。搜索装置10也作为一个客户机,使用如此的公开了的搜索引擎21~23进行搜索。这里所使用的搜索引擎21~23全部采用N革兰(N-gram)法。

以下,说明搜索装置10的动作。CPU11执行图2所示的搜索程序。

参照图2和图3,搜索装置10接受期望的搜索词的输入(S1)。具体地,在显示于显示器16上的画面上,用户对输入装置15进行操作,输入与要搜索的信息相关联的一个或者两个以上的搜索词30。各搜索词30由三个以上的字符构成。在图3所示的例子中,作为搜索词30输入“gene”。

用户若从搜索引擎21~23之中选择使用于搜索的期望的搜索引擎(以下,以选择了搜索引擎21的情况为例进行说明),则搜索装置10对是否已经生成所选择的搜索引擎21专用的词典32进行判断(S2)。

在还没有生成词典32的情况下(S2中否),搜索装置10将一般的单词作为查询发送到搜索引擎21(S3)。作为一般的单词,预先准备10个左右的“have”、“get”等单词。这些单词一个一个作为查询发送到搜索引擎21。

接着,搜索装置10从响应于查询从搜索引擎21返回的搜索结果提取单词从而生成搜索引擎专用的词典32(S4)。在将10个单词一个一个作为查询的情况下,从搜索引擎21返回10个搜索结果。每个搜索结果包含用于确定匹配的一个或者两个以上的网页所需的数据(例如网页的URL(Uniform Resource Locator,统一资源定位器)、标题(title)、所提取的文本的一部分)。作为查询而发送的单词是一般的,因此搜索结果包含作为索引储存在搜索引擎21的几乎所有网页。因此,词典32是能够由搜索引擎21搜索的网页的单词集。另外,从相同的搜索引擎21得到不同的搜索结果时,如果追加包含在其中的新单词,则能够更新词典32。

接着,搜索装置10基于在步骤S1中输入的搜索词30以及在步骤S4中生成的词典32中的单词,生成应发送到搜索引擎21的一个或者两个以上的查询(S5)。

具体地参照图4,从步骤S1中输入的搜索词30提取连续的两个以上的任意字符,生成多个正当字符串34(S51)。各正当文字串34由提取的两个以上的字符构成。在搜索词30的字符数目小于12个的情况下(S52中是),直到生成两个正当字符串34为止重复执行步骤S51~S52(S53中否)。另一方面,在搜索词30的字符数目为12个以上的情况下(S52中否),直到生成三个正当字符串34为止重复执行步骤S51~S52(S54中否)。

在图3所示的例子中,从搜索词“gene”提取正当字符串“gen”和“ene”。各正当字符串34由三个字符构成。若增大各正当字符串34的字符数目,则搜索精度变高,但搜索词30的隐匿性变低。若增大正当字符串34的数目,则搜索精度变高,但搜索词30的隐匿性变低。

另外,在输入了多个搜索词30的情况下,生成多个正当文字串34使得尽量包含所有搜索词30的字符。在搜索词30的数目多的情况下,预先决定要生成的正当字符串34的最大数目,生成正当字符串34使得不超过该数目。

此外,从词典32之中作为噪声词36选择一个以上的任意单词(S55)。接着,从噪声词36提取连续的两个以上的任意字符,生成一个以上的噪声字符串38(S56)。各噪声字符串38由提取的两个以上的字符构成。直到所生成的噪声字符串38的数目超过规定的阈值(例如为正当字符串34的数目的两倍)为止重复执行步骤S56(S57中否)。此外,作为噪声词36而选择的单词的数目超过规定的阈值(例如为搜索词30的单词数目的三倍)为止重复执行步骤S55~S57(S58中否)。

在图3所示的例子中,从噪声词“algorithm”提取噪声字符串“ori”、“rit”以及“thm”,从噪声词“hello”提取噪声字符串“hel”以及“llo”。与正当字符串34相同,各噪声字符串38由三个字符构成。

另外,优选为选择与搜索词30不同的噪声词36,但也可以选择与搜索词30相同的噪声词36。

在所生成的噪声字符串38的数目超过规定的阈值、而且所选择的单词的数目超过规定的阈值的情况下(S57中是、且S58中是),组合在步骤S51中生成的正当字符串34与在步骤S56中生成的噪声字符串38从而生成一个以上的查询(S59)。各查询优选为由正当字符串34与噪声字符串38的逻辑“与”(AND)构成,但也可以由逻辑“或”(OR)、“非”(NOT)或者这些组合构成。

再次参照图2,搜索装置10将在步骤S5中生成的各查询发送到搜索引擎21(S6)。搜索引擎21响应于各查询而将搜索结果40返回到搜索装置10。搜索引擎21预先通过N革兰法对因特网20上的多个网(web)42编索引,生成索引(未图示)。基于这些索引生成搜索结果40。

接着,搜索装置10对响应于各查询而从搜索引擎21返回的搜索结果40使用在步骤S1中输入的搜索词30进行再次搜索,从而生成最终搜索结果44(S7)。从搜索引擎21返回的搜索结果40全部临时保存于搜索装置10内的硬盘13中,因此再次搜索完全地在本地执行。具体地,使用搜索词30筛选各搜索结果40,从搜索结果排除若将主查询原样发送到搜索引擎的话不匹配的无关的网页。然后,对排除了无关的网页的多个搜索结果进行合并。

最后,搜索装置10将在步骤S7中生成的最终搜索结果44显示在显示器16。在用户看到最终搜索结果44而判断为不充分的情况下,也可以从步骤S59改变正当文字串34和噪声文字串38的组合而再次执行。

如以上那样,根据本发明的实施方式,组合从搜索词30提取的正当字符串34与从噪声词36提取的噪声字符串38而生成查询,并发送到搜索引擎21,因此根据搜索词30不会推测出秘密信息而能够有效地取得必要的信息。即,多个正当字符串34和多个噪声字符串38包含在查询中,因此即使在搜索引擎21侧想要组合正当字符串34和噪声字符串38而复原搜索词30,也会因组合数目爆炸性地庞大从而几乎不可能推测搜索词30。

此外,由于生成适合于搜索引擎21的词典32,因此根据噪声词36的搜索的匹配数目增加,搜索词30的隐匿性变高。此外,搜索词30的字符数目越多越增加应生成的正当字符串34的数目,使得搜索词30的字符数目小于12的情况下生成两个正当字符串34,并且搜索词30的字符数目为12以上的情况下生成三个正当字符串34,因此虽然搜索词30的隐匿性变低,但搜索精度变高。此外,生成噪声字符串38直到其数目超过规定的阈值为止,因此虽然搜索精度变低,但搜索词30的隐匿性变高。此外,选择噪声词36直到其数目超过规定的阈值为止,因此虽然搜索精度变低,但搜索词的隐匿性变高。

上述实施方式虽然在搜索词30的字符数目小于12的情况下生成两个正当字符串34,在搜索词30的字符数目为12以上的情况下生成三个正当字符串34,但作为阈值而设定的搜索词30的字符数目没有特别限定,此外所生成的正当字符串34的数目也没有特别限定。此外,不限定于以一个等级改变要生成的正当字符串34的数目,也可以以多个等级改变。总之,优选为搜索词30的字符数目越多越增加应生成的正当字符串34的数目。

此外,上述实施方式使用适合于搜索引擎21的词典32,但也可以取而代之使用预先准备的一般的词典。这时,虽然搜索词30的隐匿性变低,但不需要词典32的生成处理。

以上说明了本发明的实施方式,但上述的实施方式只不过是用于实施本发明的例示。因此,本发明不限定于上述的实施方式,在不脱离其宗旨的范围内可以对上述的实施方式适当地进行变形而实施。

标号说明

10搜索装置

15输入装置

16显示器

20因特网

21~23搜索引擎

30搜索词

32词典

34正当文字串

36噪声词

38噪声文字串

40搜索结果

44最终搜索结果

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号