首页> 中国专利> 一种不依赖文档库的多搜索引擎自动化对比评测方法

一种不依赖文档库的多搜索引擎自动化对比评测方法

摘要

本发明提供一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下步骤:A.选择评测词;B.抓取搜索结果并保存为文档;C.提取文档正文;D.计算相关性;E.整合文档并按其相关性排序;F.计算DCG;G.按DCG结果进行排序,总结评测结果。通过本发明可以达到如下效果:自动化,无需人工参与,节省大量人工;快速,可短时间内获得评测结果;灵活,本发明的过程中,多处采用了可配置的模式,相关性计算等还可以自行调整,因此具有很高的灵活性;可应用于多种垂直搜索中,不只是单纯的网页搜索,也可用于新闻搜索,视频搜索等。

著录项

  • 公开/公告号CN103544307A

    专利类型发明专利

  • 公开/公告日2014-01-29

    原文格式PDF

  • 申请/专利权人 北京中搜网络技术股份有限公司;

    申请/专利号CN201310538069.5

  • 发明设计人 张鹏飞;赵毅强;

    申请日2013-11-04

  • 分类号G06F17/30(20060101);

  • 代理机构11271 北京安博达知识产权代理有限公司;

  • 代理人徐国文

  • 地址 100191 北京市海淀区学院路51号首亨科技大厦0902室

  • 入库时间 2024-02-19 21:57:24

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-10-18

    未缴年费专利权终止 IPC(主分类):G06F17/30 专利号:ZL2013105380695 申请日:20131104 授权公告日:20170808

    专利权的终止

  • 2017-08-08

    授权

    授权

  • 2017-05-17

    专利申请权的转移 IPC(主分类):G06F17/30 登记生效日:20170427 变更前: 变更后: 申请日:20131104

    专利申请权、专利权的转移

  • 2014-03-12

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131104

    实质审查的生效

  • 2014-01-29

    公开

    公开

说明书

技术领域

本发明属于搜索引擎领域,具体涉及一种不依赖文档库的多搜索引擎自动化对比评测方 法。

背景技术

如今的网络环境下,搜索引擎已成为网民必不可少的工具;在互联网中,存在许多搜索 引擎。在对比各搜索引擎结果方面,主要有两种方法:一种是人工选择一些关键词在各搜索 引擎上进行搜索,得到结果页面,将每条搜索结果进行打分,然后比对分数来评测出各搜索 引擎间的优劣;另一种方法是依赖文档库的,按照准确率和召回率来进行各搜索引擎算法的 评测。

人工评测搜索引擎的结果需要耗费大量的人力资源和时间。如果一个搜索引擎处于优化 的状态中,需要频繁地进行评测,这无疑会给人工评测带来巨大的难题,使人工评测变得不 现实。

依赖文档库的方法只能用于线下的搜索引擎,由于各搜索引擎间的文档库不同,其无法 对线上运行的搜索引擎进行评测。

发明内容

为了克服上述现有技术的不足,本发明提供一种能够自动化地快速地将线上的搜索引擎 进行评价的方法,通过该方法可以对比各搜索引擎间的结果差异,适合进行各搜索引擎间的 定期对比评测和在优化搜索引擎时频繁地进行评测来查看优化的算法是否成功。

为了实现上述发明目的,本发明采取如下技术方案:

一种不依赖文档库的多搜索引擎自动化对比评测方法,其特征在于,所述方法包括如下 步骤:

A.选择评测词;

B.抓取搜索结果并保存为文档;

C.提取文档正文;

D.计算相关性;

E.整合文档并按其相关性排序;

F.计算DCG;

G.按DCG结果进行排序,总结评测结果。

优选地,所述评测词包括:网页搜索中的页面搜索关键词、视频搜索中的影片名称或演 员姓名。

优选地,其特征在于,所述抓取包括两次抓取过程;

第一次抓取包括:根据关键词生成搜索引擎的搜索结果链接,进行第一次抓取,用模板 从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息的链接,并保存;所述模 板为包括搜索条件的正则表达式;

第二次抓取包括:根据第一次抓取中取得的结果页面详细信息的链接抓取相应页面,并 按顺序分别保存为文档。

优选地,所述正文的提取方法包括:基于DOM树的HTML提取方法、文本最长串的正 文提取法;

所述基于DOM树的HTML提取方法包括:将HTML文本转化成一个DOM树,然后 根据DOM树的节点分析来提取正文相关的内容,以除去页面中无关信息;该无关信息包括: 页面噪音和HTML标签;

所述文本最长串的正文提取法包括:在HTML页面内容中找到最长的文本串,然后再 前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。

优选地,所述相关性的计算方法包括:词频比例法;该方法的表达式为:相关性=词频 在本文档中所占比例*词频在所有抓取结果中所占比例。

优选地,所述按相关性排序包括:将所述文档平分为若干等级,并为每个等级设定相应 的相关系数分数。

优选地,所述计算DCG如下式表达:

DCGs=rel1+Σi=2srelilog2i

式中,s为文档总篇数,i为该文档所在等级的序数,reli为该文档所在等级的相关系数 分数。

优选地,将所述步骤F中所得计算结果进行排序并分析,得出多种输出结果,生成报表; 所述输出结果包括:步骤F中所得计算结果的平均DCG分数排名,总DCG分数排名,所有 关键词中搜索结果优劣个数排名。

与现有技术相比,本发明的有益效果在于:

1)自动化,无需人工参与,节省大量人工;

2)快速,可短时间内获得评测结果;

3)灵活,本发明的过程中,多处采用了可配置的模式,相关性计算等还可以自行调整, 因此具有很高的灵活性;

4)整套方法可应用于多种垂直搜索中,不只是单纯的网页搜索,也可用于新闻搜索,视 频搜索等。

附图说明

图1是本发明评测过程流程图。

具体实施方式

下面结合附图对本发明作进一步详细说明。

根据对各搜索引擎的分析以及用户使用搜索引擎的调研等,可以确认用户对搜索引擎的 关注大多在准确性和排序两方面,准确性是为了确保搜索结果显示出的内容是用户想要的, 排序时为了把越贴近用户需求的结果排在前面,让用户不需要下拉或者翻页就能直接找到想 要的内容,因此本发明主要以这两方面作为出发点来实现各搜索引擎的结果的评测。

具体步骤如下:

1)选择评测词

评测词的选取的好坏直接决定着评测结果和实际效果的契合度,是为了使评测能覆盖更 多的搜索数量,本发明默认选取3000个搜索引擎结果中的高频词作为评测样本,这些词可以 从用户的搜索排行中进行提取。在词语的范围选择和数量选择上,都可以根据实际情况进行 变更,如果是评测网页搜索,则选取页面搜索关键词,如果是视频搜索,则选取高频搜索的 影片名称或演员等。

2)抓取各搜索引擎搜索结果

对用户行为的研究结果表明,大多数用户只关心搜索结果的前2页,也就是大概40个, 因此本发明默认抓取搜索结果中的前40条数据来进行研究分析(数据条数可根据需求自行配 置)。对于搜索引擎中的返回结果,大多数会返回源地址的链接以及摘要,由于是不完全结果, 本发明要进行二次抓取,去源地址抓取完整的结果页面,用于计算该页面与搜索词之间的相 关度。

这两次抓取的具体过程是,先根据关键词生成搜索引擎的搜索结果链接,进行第一次抓 取,用正则表达式的模板从各搜索引擎中提取出每个结果的相关信息和各结果页面详细信息 的链接,并保存起来,此连接用于第二次的抓取。

第二次抓取是从第一次抓取的结果中取得结果页面详细信息的链接,并抓取相应页面, 按顺序保存起来,提供给步骤3使用。

3)正文提取

从源地址抓取来的结果页面,大多会有广告等噪音,因此在计算结果的相关性之前我们 要对结果页的正文内容进行抽取,以免这些噪音对计算结果造成影响。

在正文提取方法上可以采用基于DOM树的HTML提取方法或文本最长串的正文提取法 等常用方法来取得结果页面中的正文,并依此来计算该篇文章与搜索关键词之间的相关性。

DOM树的HTML提取方法首先将HTML文本转换成一个DOM树,然后根据DOM树 的节点分析来提取正文相关的内容,除去页面噪音和HTML标签等无关信息;本方法的重点 是当DOM树不完整时如何正确修复DOM树。

文本最长串的提取方法适用于正文是长文本的页面;先在HTML内容中找到最长的文本 串,然后再前后扩展,直到扩展到阈值,再进行截断,提取,得到文本的正文内容。

4)计算相关性

相关性的计算是本发明流程中的关键一环,之前的步骤2和步骤3都是为了计算相关性 而准备的,只有正确地计算每个搜索结果和搜索关键词的相关性,才能保证最终评价结果的 正确性。

在相关性计算规则的选取上,也会根据不同的垂直搜索而有所改变:如果是网页搜索, 则更注重内容匹配度,如果是新闻搜索,则需要同时关注内容匹配与时间,如果是视频搜索, 则更关注标题和注释等。

在本发明中,相关性的算法是可以灵活调整的,可以以少部分的人工评测的结果为样本, 通过机器学习的方法来动态调整相关性计算所需的权值,也可以直接采用一些成型的相关 性算法。

例如,在新闻搜索的测试中,采用了词频比例方法来计算纯文本的相关性,具体算法是 相关性=词频在本文档中所占比例*词频在所有抓取结果中所占比例,即:

P(T)=P(W)3*P(D);

其中,

P(W)=Σi=0nN(i)*L(i)/L(T),

将其开3次方是为了平衡与P(D)之间的权重;

式中,n为切词后词语数量,N(i)为词语i出现的次数,L(i)为词语i的长度,L(T) 为全文长度;

P(D)=Σi=0nN(i)/T(i),

式中,T(i)为词语i在所有搜索引擎的所有搜索结果中出现的次数;

时间的相关性采用了倒数曲线的方式,为

P(M)=W1+T(n)-T(t),

式中,T(n)为当前时间,T(t)为布时间,分子W为权重值,用来平衡P(M)和P(T) 之间的权重;

最终的相关性采用了两者的调和平均数来计算,

P=21P(M)+1P(T)

这样可以提高相关性低的那一项的权重,使结果更趋向于实际情况。

5)整合并按相关性排序

步骤4为每一篇结果文档算出相关性,这里将单一搜索关键词在所有搜索引擎上返回的 所有结果文档进行整合,按照相关性进行排序,然后将结果平均分为优-中-差三类(此处可 按不同需求分为多类,为自动化操作),并给每一类相应的相关系数分数设定为3—1分(如果 是N类,则分数为N—1)来提供给DCG计算公式,让它来计算最终的DCG分数。

6)计算DCG

DCG是一种验证排序优劣的评测方法,相关性高的文档排在结果页的前面,分数就会高, 否则,相关性低的排在前面,分数就会低。s篇文档的DCG计算公式为:

DCGs=rel1+Σi=2srelilog2i

步骤5已将单个搜索关键词的搜索结果进行了排序,并为每篇文档分配了相应的相关系 数分数,也就是公式中的reli。然后将该关键词所有结果按搜索引擎分组,在单一搜索引擎组 中,根据所有结果在其搜索引擎中的排名i来用公式计算出该关键词在该搜索引擎中的DCG 总分数,以此计算所有组就得到了该关键词在各搜索引擎中的DCG分数。

在DCG的计算过程中,有以下几种情况:

1.搜索引擎A的结果普遍优于搜索引擎B,但排序没有B好,此时由于relA普遍高于 relB,所以DCG的结果是A高于B,符合逻辑。

2.搜索引擎A的结果和搜索引擎B的结果相关性差不多,但A的排序更好,此时分数 高的relB会被排名靠后的排序算法1/log2i拉低,导致B的整体DCG低于A的,符合逻辑。

3.搜索引擎A的结果优于搜索引擎B,排序还比B好,则A的DCG肯定高于B,符合 逻辑。

这3种情况都证明了在本发明的实现过程中,DCG的结果可以用来作为评测搜索引擎结 果好坏的标准。

7)按DCG结果进行排序,总结评测结果

将步骤6中所得结果进行排序并进行详细地分析,可以获得多种输出结果,如所有结果 的平均DCG分数排名,总DCG分数排名,所有关键词中搜索结果优劣个数排名等,生成报 表,以便直观地对比查看。

采用本发明的方法能简单快捷地获得评测结果,完全避免了人工评测所带来的大量时间 和人力消耗。以垂直搜索中的新闻搜索来进行测试,选取3000个新闻热词,百度,搜狗,中 搜,雅虎4个搜索引擎(谷歌因经常屏蔽等问题未加入评测目标),每个搜索引擎选取40个 搜索结果,评测时间大约为2小时(瓶颈为网页抓取);将所得结果和人工评测的结果对比后 发现,本发明的评测结果与人工评测的结果差别在5%以内。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照 上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本 发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等 同替换,其均应涵盖在本发明的权利要求范围当中。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号