法律状态公告日
法律状态信息
法律状态
2018-05-29
专利权的转移 IPC(主分类):G06F17/30 登记生效日:20180510 变更前: 变更后: 申请日:20131114
专利申请权、专利权的转移
2017-03-08
授权
授权
2014-04-16
实质审查的生效 IPC(主分类):G06F17/30 申请日:20131114
实质审查的生效
2014-03-19
公开
公开
技术领域
本发明涉及网络通信处理领域,具体为一种基于内容可信的Web搜索引擎系统及搜索方法。
背景技术
随着信息技术和网络技术的不断发展,基于互联网的信息检索日益成为人们生活中的一部分,搜索引擎也成为其中不可或缺的工具。然而,基于传统搜索引擎和搜索方法检索到的Web信息来源广泛,内容丰富多样,但存在质量良莠不齐、表述不一,事实真假难辨等问题,使得基于传统搜索引擎和搜索方法检索到的Web信息难以保证其可信性。网页的过时、新闻的失真、垃圾广告、反动宣传等无处不在,并与正常的、可靠的信息资源鱼目混珠在一起。当前,为了从互联网上检索到用户期望的信息,用户必须通过人工的方式,判断从传统搜索引擎返回的海量Web信息中,哪些信息是可靠的或可信的。这种方法不仅耗时,而且,对大部分用户来讲,也很难判断搜索引擎返回Web信息的可信性。
虽然目前的研究者在搜索引擎返回Web信息的质量方面做了一些工作,但很少考虑Web信息的内容可信问题。目前的搜索引擎系统及搜索方法都不能实现基于内容可信的搜索。
发明内容
针对以上技术问题,本发明提供了一种基于内容可信的Web搜索引擎系统及搜索方法,可以实现web搜索网页的内容可信因素的量化、内容可信度的计算,以及基于内容可信判断的Web信息检索。
本发明包括:
一种基于内容可信的Web搜索引擎系统,包括:
(1) Web用户接口模块,接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低显示最终的搜索结果;
(2) 搜索请求处理模块,将Web用户的搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页;
(3) 查询结果去重模块,对上所述搜索引擎以及查询结果存储数据库返回的搜索结果进行去重处理;
(4) 内容可信度计算模块,根据内容可信的5个因素,对去重后的搜索结果进行内容可信度计算;
(5) 查询结果重排序模块,将上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序;
(6) 查询结果存储数据库,存储具有内容可信度的查询结果。
一种基于内容可信的Web搜索引擎系统的搜索方法,通过以下技术方案实现:
(1)用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
(2)通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
(3)查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
(4)内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
(5)查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
进一步地,Web网页的内容可信度计算如下:对任一返回的Web网页p,根据内容可信的5个因素,即网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,其内容可信度计算为:
其中,
网页内容相关性的计算为:对任一用户搜索请求q,p为返回的某一Web网页,则p和q的相关性计算如下,其中T(p)表示p的主题词集,N(q)表示q中关键词的个数,表示q和T(p)重叠的个数;
网站权威性的计算方法参考文献“Judgment of information quality and cognitive authority in the web”中的计算方法;
网页外部链接数的计算为:对网页p在Google、Bing、百度、搜狗等搜索引擎中的外部链接数取平均值;
网页时间的计算为:用户查询的当前时间减去网页创建的时间;
网页点击率的计算为:对任一用户搜索请求q,pi为返回的某一Web网页,则pi的点击率计算如下,其中Hi表示pi被用户点击的次数;
本发明为基于内容可信的Web搜索引擎系统及搜索方法,不仅对Web搜索网页实现了内容可信因素的量化和内容可信度的计算,还提供了基于可信度高低的Web搜索网页的重排序。与传统的搜索引擎及搜索方法相比,本发明可以提供更为准确和更加可信的搜索结果。
附图说明
图1是本发明实施例1的系统结构示意图。
图2是本发明实施例1的工作流程图。
具体实施方式
本发明可以通过技术方案具体实施,通过对下面的实施例可以对本发明进行进一步的描述,然而,本发明的范围并不限于下述实施例。
实施例1:如图1所示,本发明所述的Web搜索引擎系统各模块之间的连接关系如下:
(1) Web用户接口模块,与搜索请求处理模块和查询结果重排序模块相连接,负责接收Web用户输入的搜索关键字,将其传送给搜索请求处理模块,并根据内容可信度的高低,将查询结果重排序模块的最终可信搜索结果显示给用户;
(2) 搜索请求处理模块,与Web用户接口模块、查询结果存储数据库和查询结果去重模块相连接,负责将Web用户接口模块传来的用户搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,同时将这些搜索结果传送给查询结果去重模块;
(3) 查询结果去重模块,与搜索请求处理模块和内容可信度计算模块相连接,负责将搜索请求处理模块传来的传统搜索结果进行去重处理,并将去重后的搜索结果传送给内容可信度计算模块;
(4) 内容可信度计算模块,与查询结果去重模块、查询结果存储数据库和查询结果重排序模块相连接,对查询结果去重模块传来的去重后的搜索结果,根据内容可信的5个因素进行内容可信度计算,并将带有内容可信度的搜索结果分发给查询结果存储数据库和查询结果重排序模块相;
(5) 查询结果重排序模块,与内容可信度计算模块和Web用户接口模块相连接,负责将内容可信度计算模块传来的具有内容可信度的搜索结果,根据可信度的高低,按照降序重新进行排序,并将排序后的搜索结果传送给Web用户接口模块;
(6) 查询结果存储数据库,与搜索请求处理模块和内容可信度计算模块相连接,接收搜索请求处理模块传来的搜索请求,并返回相应的搜索结果,同时存储经过处理后的具有内容可信度的搜索结果。
如图1所示,本发明的一种基于内容可信的Web搜索引擎系统的搜索方法的实施流程如下:
1 用户通过Web用户接口模块输入搜索关键字,并将该搜索关键字传送给搜索请求处理模块;
2 通过相应的接口,搜索请求处理模块将搜索关键字分发给如Google等传统搜索引擎以及查询结果存储数据库,并接收它们返回的搜索结果,即搜索到的Web网页,然后将返回的搜索结果传送给查询结果去重模块;
3 查询结果去重模块对返回的搜索结果进行去重处理,然后将其传送给内容可信度计算模块;
4 内容可信度计算模块根据内容可信的5个因素,对上述去重后的搜索结果进行内容可信度计算,然后将其传送给查询结果重排序模块;
5 查询结果重排序模块对上述具有内容可信度的查询结果,根据可信度的高低,按照降序重新进行排序,最后通过Web用户接口模块显示给用户。
如图2所示,本发明的搜索过程如下:
1 用户通过本发明提供的Web用户接口输入搜索关键字;
2 通过相应的API接口,本发明将该搜索关键字分发给Google等搜索引擎以及查询结果存储数据库;
3 本发明对Google等传统搜索引擎以及查询结果存储数据库返回的搜索结果,即搜索到的Web网页,进行去重处理;
4 本发明对去重后的每个web网页,根据本发明的方法依次计算其网页内容的相关性Rev、权威性Auth、外部链接数BN、时间Age和点击率CliR,然后根据公式:
计算web网页的内容可信度;
5 将具有内容可信度的web网页的相关信息存储到本发明的查询结果存储数据库中;
6 最后,本搜索引擎根据内容可信度的高低,按照降序,对查询结果重新进行排序,并通过Web用户接口模块显示给用户。
机译: 基于Web的基于内容的搜索引擎和基于内容的内容搜索引擎的搜索系统及其方法
机译: 具有基于网络的搜索引擎和基于内容的内容搜索引擎的多媒体数据搜索系统及其方法
机译: 用户查询生成的搜索结果是,排名的服务器是基于将每个服务器上的内容与用户查询进行比较而得出的,每个服务器上的内容被使用搜索引擎中的Web爬虫更改的频率