首页> 中国专利> 信息检索准确性评估方法、装置及计算机可读存储介质

信息检索准确性评估方法、装置及计算机可读存储介质

摘要

本发明涉及一种信息检索准确性评估方法及系统。其中,信息检索准确性评估方法包括:利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与所述关键词对应的至少一个第二检索结果;根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号及所述第二检索结果对应的第二检索序列号;根据预先确定的准确性分析规则对生成的所述第一检索序列号和所述第二检索序列号进行分析以分析出所述第一检索系统和所述第二减少系统的准确性。本发明在有效避免大规模的人工投入的同时,有效提高了信息检索系统检索结果准确性的评估。

著录项

  • 公开/公告号CN107688595A

    专利类型发明专利

  • 公开/公告日2018-02-13

    原文格式PDF

  • 申请/专利权人 平安科技(深圳)有限公司;

    申请/专利号CN201710327380.3

  • 发明设计人 赵清源;韦邕;吕梓燊;徐亮;肖京;

    申请日2017-05-10

  • 分类号

  • 代理机构深圳市沃德知识产权代理事务所(普通合伙);

  • 代理人高杰

  • 地址 518000 广东省深圳市福田区八卦岭工业区平安大厦六楼

  • 入库时间 2023-06-19 04:31:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2019-03-15

    授权

    授权

  • 2018-12-21

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20170510

    实质审查的生效

  • 2018-02-13

    公开

    公开

说明书

技术领域

本发明涉及信息检索领域,尤其涉及一种信息检索准确性评估方法、装置及计算机可读存储介质。

背景技术

目前,比较通用和流行的信息检索结果的准确性检测方法有以下四种:

1、Precision,即检查召回检索结果中相关结果的比例。

2、MRR(Mean Reciprocal Rank),即区分排序在返回结果中的作用,相关召回排名越靠前结果越好。

3、取平均值MAP(Mean Average Precision),即求每个相关文档检索出的准确率的平均值(即Average Precision)的算术平均值(Mean)。

4、DCG(Discounted Cumulative Gain),即对于某检索词得到的结果进行打分。

就目前常用的这四种方法而言,第一种方法最为简单和通用,但是计算量偏大,需要人工标注所有检索结果的相关性,同时没有考虑结果的排序而影响准确性。

第二种方法虽然也比较简单,但是该方法只考虑检索中的第一个相关结果,而在实际工程应用中,相比于只关注第一个相关结果,用户则可能需要查看多个结果进行综合评估,所以该方法在实际使用中不能很好的满足用户的使用,准确性较低。

第三种方法虽然综合考虑了相关结果的排序和所有的相关性,但是该方法需要考虑存储库中所有结果的排序,需要大规模人工筛选,浪费人力物力,效率低下,容易出错。

第四种方法也是在打分环节上需要的人工因素过多,很难量化。综上,目前常用的信息检索结果的准确性判断方法存在计算量大,需要大规模人工筛选,准确性较低等问题。

发明内容

本发明的目的在于提供一种信息检索准确性评估方法、装置及计算机可读存储介质,旨在解决目前的信息检索准确性评估方法存在的上述问题。

为实现上述目的,本发明提供一种信息检索准确性评估方法,该方法包括如下步骤:

A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与关键词对应的至少一个第二检索结果;

B、根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号、及所述第二检索结果对应的第二检索序列号;

C、根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统相对于第二检索系统的准确性。

优选地,上述步骤B包括如下步骤:

E、根据预先确定的筛选规则从第一检索结果中筛选出与关键词匹配的第三检索结果,从第二检索结果中筛选出与关键词匹配的第四检索结果;

F、确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号;

G、根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。

优选地,预先确定的筛选规则包括:

人工方式从第一检索结果及第二检索结果中筛选出与关键词匹配的检索结果;

或者根据预先确定的关键词与关联词的映射关系,确定关键词对应的关联词,统计各个检索结果中包含关键词及其对应的关联词的总数量;若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与关键词不匹配的检索结果。

优选地,预先确定的准确性分析规则包括:

分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集;

分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集;

对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率;

对第一准确率和第二准确率进行分析,以确定第一检索系统和第二检索系统的准确性。

优选地,对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性的步骤包括:

分析第一准确率和第二准确率之间的大小关系;

若第一准确率大于第二准确率,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确;

若第一准确率小于第二准确率,则确定第二检索系统的检索结果比第一检索系统的检索结果更准确;

若第一准确率等于第二准确率,则确定第一检索系统的检索结果与第二检索系统的检索结果的准确率相同。

为实现上述目的,本发明还提供一种信息检索准确性评估装置,该装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的信息检索准确性评估系统,信息检索准确性评估系统被处理器执行时执行如下步骤:

A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与关键词对应的至少一个第二检索结果;

B、根据预先设定的序列号生成规则,生成第一检索结果对应的第一检索序列号、及第二检索结果对应的第二检索序列号;

C、根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统相对于第二检索系统的准确性。

优选地,处理器执行步骤B时,执行如下步骤:

E、根据预先确定的筛选规则从第一检索结果中筛选出与关键词匹配的第三检索结果,从第二检索结果中筛选出与关键词匹配的第四检索结果;

F、确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号;

G、根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。

优选地,处理器执行信息检索准确性评估系统,执行预先确定的筛选规则包括:

根据预先确定的关键词与关联词的映射关系,确定关键词对应的关联词,统计各个检索结果中包含关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与关键词不匹配的检索结果。

优选地,处理器执行所述信息检索准确性评估系统,执行准确性分析规则包括:分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集;

分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集;

对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率;

对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性。

为了解决上述目的,本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有信息检索准确性评估程序,该信息检索准确性评估程序被处理器执行时实现上述各个实施例中信息检索准确性评估方法。

与现有技术相比,本发明的信息检索准确性评估方法、装置及计算机可读存储介质,首先通过确定检索系统检索出的与预先确定的关键词对应的检索结果,并根据预先设定的序列号生成规则生成与检索结果对应的检索序列号,其次,通过预先确定的准确性分析规则分析检索序列号,以分析出检索系统的准确性。实施本发明的信息检索准确性评估方法、装置及计算机可读存储介质有效避免了人工标注所有检索结果、减少了计算量,同时考虑了检索结果中与预设的关键词相关的检索结果的排序,有效提高了检索系统评估的准确性。

附图说明

图1为本发明一实施例的流程示意图;

图2为图1所示步骤S3中准确性分析规则步骤;

图3为本发明信息检索准确性评估系统一实施例的运行环境示意图;

图4为本发明一实施例的功能模块示意图;

图5为图4所示序列号生成模块的结构示意图;

图6为图4所示准确性判断模块的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。

如图1所示,图1为本发明一实施例的流程示意图,由图1可知,本实施例的信息检索准确性评估方法包括以下步骤:

步骤S1,利用预先确定的检索系统检索出与预先确定的关键词对应的检索结果。

优选地,在本实施例中,预先确定的检索系统包括第一检索系统和第二检索系统。其中,第一检索系统与第二检索系统可以是不相关的检索系统,或第二检索系统为第一检索系统优化之后的升级系统。

进一步地,第一检索系统检索出与预先确定的关键词对应的第一检索结果,并利用第二检索系统检索出与第一检索系统检索出的预先确定的关键词相同的关键词对应的第二检索结果。可以理解地,第一检索结果为多个内容不同的检索结果,第二检索结果也为多个内容不同的检索结果。第一检索结果和第二检索结果的个数可以相同也可以不同。

步骤S2,根据预先设定的序列号生成规则,生成检索序列号。结合步骤S1,可以理解地,在本实施例中,根据预先设定的序列号生成规则,生成与第一检索结果对应的第一检索序列号、及生成与第二检索结果对应的第二检索序列号。

优选地,在本实施中,该步骤包括:

根据预先确定的筛选规则从第一检索结果中筛选出与预先确定的关键词匹配的第三检索结果,从第二检索结果中筛选出与预先确定的关键词匹配的第四检索结果。

确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号。

根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。

其中,检索内容包括与检索关键词匹配的相关网页的名称和链接地址内容、与检索关键词匹配的相关文档的名称和链接地址内容等。

进一步地,预先确定的筛选规则包括,人工方式从第一检索结果及第二检索结果中筛选出与预先确定的关键词匹配的检索结果,或者根据预先确定的关键词与关联词的映射关系,确定预先确定的关键词对应的关联词,统计各个检索结果中包含预先确定的关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与预先确定的关键词匹配的检索结果;若有检索结果对应的总数量小于预设数量,则确定该检索结果为与预先确定的关键词不匹配的检索结果。

步骤S3,根据预先确定的准确性分析规则分析生成的检索序列号,以分析出检索系统的准确性。

对应上述步骤S1和步骤S2,可以理解地,在本实施例中,根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统和第二检索系统的准确性。

与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。

优选地,如图2所示,为图1所示步骤S3中准确性分析规则步骤。由图2可知,在本实施例中,准确性分析规则包括如下步骤:

S31,将生成的检索序列号中的各个号码带入预设的公式,计算出检索序列号中的各个号码对应的折扣值,且各个折扣值的集合为折扣集。

结合上述图1的各步骤可知,在本实施例中,该步骤包括,

分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值;其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集。

分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值;其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集。

进一步地,预设的公式为1/Log(1+N),其中,N代表检索序列号中的号码。

S32,将折扣集中的折扣值求和,得到检索准确率。可以理解地,在本实施例中,该步骤包括对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率。

S23,比较不同检索系统的检索准确率,确定不同检索系统的准确性。在本实施例中,该步骤包括对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性。具体为比较第一准确率和第二准确率之间的大小关系,确定第一检索系统和第二检索系统的准确性。

优选地,确定第一检索系统和第二检索系统的准确性包括:分析第一准确率和第二准确率之间的大小关系,若第一准确率大于第二准确率,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确;若第一准确率小于第二准确率,则确定第二检索系统的检索结果比第一检索系统的检索结果更准确;若第一准确率等于第二准确率,则确定第一检索系统的检索结果与第二检索系统的检索结果的准确率相同。

例如,在一实施例中,分别在两个不同的第一检索系统和第二检索系统中以相同的关键词各进行了一次检索,在第一检索系统中,顺序选取第一检索系统返回的前10个检索结果,根据预设的判断标准得到了5个相匹配的检索结果,且得到的第一序列号为1、2、4、5、9,那么根据预设的公式1/Log(1+N)进行折扣分析,得到的第一折扣集为:1/Log(1+1)、1/Log(1+2)、1/Log(1+4)、1/Log(1+5)、1/Log(1+9)。在第二个检索系统中,顺序选取第二检索系统返回的前10个检索结果,根据预设的判断标准得到了6个相匹配的检索结果,且得到的第二序列号为1、6、7、8、9、10,那么根据预设的公式1/Log(1+N)进行折扣分析,得到的第二折扣集为:1/Log(1+1)、1/Log(1+6)、1/Log(1+7)、1/Log(1+8)、1/Log(1+9)、1/Log(1+10)。

进一步地,对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率为L1。对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率L2。其中,

L1=(1/Log(1+1))+(1/Log(1+2))+(1/Log(1+4))+(1/Log(1+5))+(1/Log(1+9)),

L2=(1/Log(1+1))+(1/Log(1+6))+(1/Log(1+7))+(1/Log(1+8))+(1/Log(1+9))+(1/L og(1+10))。比较L1和L2值的大小,可以看出L1的值大于L2的值,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确。

可以理解地,若第二检索系统是第一检索系统优化后的检索系统,则可以确定对第一检索系统的优化不成功。在这个实施例中,虽然第二检索系统检索出与预设的检索关键词相匹配的检索结果的数量(6个)多于第一检索系统检索出与预设的检索关键词相匹配的检索结果(5个),但第一检索系统检索出与预设的检索关键词相匹配的检索结果在返回的检索结果中的排序整体比第一检索系统检索的相匹配的检索结果在返回的检索结果中的排序靠前,因此,判定第一检索系统的检索结果比第二检索系统的检索结果更准确,实现在计算量很小的情况下,给出了准确的信息检索结果的准确性分析结果。

与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。

请参阅图3,是本发明信息检索准确性评估系统10较佳实施例的运行环境示意图。

在本实施例中,信息检索准确性评估系统10安装并运行于信息检索准确性评估装置1中。信息检索准确性评估装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。信息检索准确性评估装置1可包括,但不仅限于,存储器11、处理器12及网络接口13。图3仅示出了具有组件11-13的信息检索准确性评估装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

存储器11在一些实施例中可以是信息检索准确性评估装置1的内部存储单元,例如该信息检索准确性评估装置1的硬盘或内存。存储器11在另一些实施例中也可以是信息检索准确性评估装置1的外部存储设备,例如信息检索准确性评估装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括信息检索准确性评估装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于信息检索准确性评估装置1的应用软件及各类数据,例如基于数信息检索准确性评估系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片。处理器12通常用于控制信息准确性评估装置1的总体操作,例如,在本实施例中,用于运行存储器11中存储的程序代码或处理数据,例如执行信息准确性评估系统10等。

网络接口13,可包括无线网络接口或有线网络接口,网络接口13通常用于在信息准确性评估装置1与其他电子设备之间建立通信连接。需要说明的是,在一些实施例中,信息准确性评估装置1还包括显示器(显示器图中未示出),在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。例如,在本发明的另一些实施例中,显示器用于显示在信息准确性评估装置1中处理的信息以及用于显示可视化的用户界面,例如信息检索结果显示界面等。

在本实施例中,存储器11与处理器12分别是不同的部件,在本发明的其他实施例中,存储器11与处理器12可以为集成在一起形成一个控制器,在此不做赘述。

请参阅图4,是本发明信息检索准确性评估系统10较佳实施例的功能模块示意图。在本实施例中,信息检索准确性评估系统10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图4中,信息检索准确性评估系统10可以被分割成检索模块101、序列号生成模块102及准确性判断模块103。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述信息检索准确性评估系统10在电子装置1中的执行过程,其中,

检索模块101,用于利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与预先确定的关键词对应的至少一个第二检索结果。

序列号生成模块102,用于根据预先设定的序列号生成规则,生成第一检索结果对应的第一检索序列号、及第二检索结果对应的第二检索序列号。

准确性判断模块103,用于根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统和第二检索系统的准确性。

进一步地,如图5所示,在本实施例中,序列号生成模块102被分割成筛选单元1021、排序号生成单元1022及序列号生成单元1023。

其中,筛选单元1021,用于根据预先确定的筛选规则从第一检索结果中筛选出与预先确定的关键词匹配的第三检索结果,从第二检索结果中筛选出与预先确定的关键词匹配的第四检索结果。

排序号生成单元1022,用于确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号。

序列号生成单元1023,用于根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。

进一步地,如图6所示,在本实施例中,准确性判断模块103被分割成第一计算单元1031、第二计算单元1032、第三计算单元1033及判断单元1034。

其中,第一计算单元1031,用于分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,且计算出的各个第一折扣值的集合即为第一检索系统对应的第一折扣集。

第二计算单元1032,用于分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,且计算出的各个第二折扣值的集合即为第二检索系统对应的第二折扣集;

第三计算单元1033,用于对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率。

判断单元1034,用于对第一准确率和第二准确率进行分析,以确定出第一检索系统和第二检索系统的准确性。

与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。

通过上述各实施例可知,本发明的信息检索准确性评估方法及系统相比于目前比较通用和流行的准确性检测方法,省去了大规模人工标注数据的步骤,在减少人力工作量的情况下、进一步提高了检索系统检索检索结果的准确性。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号