法律状态公告日
法律状态信息
法律状态
2020-08-11
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20160810 终止日期:20190827 申请日:20130827
专利权的终止
2016-08-10
授权
授权
2014-01-15
实质审查的生效 IPC(主分类):G06F17/30 申请日:20130827
实质审查的生效
2013-12-11
公开
公开
技术领域
本发明涉及一种数字论文检索方法,特别涉及一种基于形式概念分析的数字论文检索方法,属于数据挖掘领域。
背景技术
目前,对于学术研究人员,有很多学术论文搜索引擎可以使用,例如公共的GOOGLE SCHOLAR搜索引擎,商业性的ACM搜索引擎,免费的CITESEER搜索引擎等。这些搜索引擎根据用户的请求返回各自的结果,但结果往往存在以下问题:①返回结果过多;②返回结果大部分与请求背离;③用户执行检索得到结果集的时间太长;④检索结果的准确率不高。因此,如何贴合学术用户的检索请求又能够高效的找到其所需要的学术资源(论文),是目前学术搜索领域中的一个重点研究领域。
形式概念分析(Formal Concept Analysis,FCA)是在1982年由R.Wille提出,自1990年之后,FCA开始与信息检索的相关技术进行融合,基于FCA的信息检索方式被正式提出,概念格(Concept Lattice)也被认可来支持信息检索的一类信息或资源组织结构。
目前有很多基于形式概念分析(FCA)的信息检索的研究与应用被提出。Godin等人在文献《Experimental Comparison of Navigation in a Galois Lattice with Conventional Information Retrieval Methods》(International Journal of Man-Machine Studies,1993,38,747-767.)中对使用概念格结构的信息检索进行了讨论,并进行实验与比较,得出结论:基于概念格结构的检索是非常有吸引力的,因为它将主题检索的良好性能和浏览的潜力结合在了一起。U.Krohn和N.J.Davies在文献《Concept lattices for knowledge management》(BT Technology Journal17,4(October1999),108-116.)中提出了一种基于概念格结构的网上资源查询机制,试图去分析和找出各类资源对象间的内在联系,并将其应用于知识管理和信息检索,实现新知识的获取和己有知识的共享及可视化。Neuss和Kent在文献《Conceptual Analysis of Resource Meta-Information》(Computer Networks and ISDN Systems1995,27(6):973-984)中使用概念格进行Internet文档信息的自动分类和分析。Carpineto等在文献《ULYSSES:A Lattice-Based Multiple Interaction Strategy Retrieval Interface》(EWHCI 1995:91-104)中对基于概念格的文本数据库的自动组织和混合导航进行了研究,设计了一个检索系统ULYSSES,其中数据的概念格结构为系统的导航阶段提供辅助,并基于格结构的信息检索与传统的布尔查询在两个数据集上进行了比较,结果表明基于概念格的检索性能要优于布尔检索机制。
在基于FCA的学术检索中,论文可视作形式概念中的对象,而从论文中抽取的术语(短语/关键词)可被认为是形式概念中的属性,由此,可以构建一个数字论文的形式背景,以表格(Table)的形式表达,其中,行代表数字论文,列代表术语,两者之间的关系通过表中的交叉点进行表达。
表1是一个数字论文集合的形式背景,其中,每一行代表一个论文(共有六篇论文,分别以1,2,3,4,5,6表示),每一列代表术语(有a、b、c、d、e五个术语)。在形式背景表中,某一论文与某一术语确定的表项值为0或1两种取值中的一种,1代表该行的论文拥有该列的术语,0则代表不拥有。根据表1所构建的概念格如图1所示。
表1一个数字论文集合的形式背景
但是,目前已有的基于FCA的信息检索的研究和应用当中,大多处理的是小规模或微规模的数字资源,更多的是探索FCA在信息检索中的可被利用性,并没有构建出一个可实际应用的框架或实例,而其中存在的一个普遍性问题是无法处理海量的数字资源,当数字资源过多,属性数目在一定的情况下,会造成构建格的时间耗费过多,格的节点数太过庞大,以致后期的检索在概念格中进行检索的时间太长。
发明内容
本发明的目的是针对学术论文搜索领域,已有的结合FCA理论的学术论文检索方法中存在的检索结果的准确率不高以及FCA信息检索传统框架无法处理大规模论文检索的问题,提出一个新的形式背景规模缩减机制以及基于概念格的学术论文获取和排序方法,对学术论文进行检索。
本发明是通过以下技术方案实现的。
一种基于形式概念分析的数字论文检索方法,其具体操作步骤包括预处理阶段和检索阶段的操作。
所述预处理阶段的操作是:对被检索的某一领域(用符号
步骤1:针对领域
步骤2:在步骤1操作的基础上,构建领域
步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序。
步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序。
步骤5:选定一个顺序间隔,用符号s表示,其中,3≤s≤20并且s为整数。 然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示。
步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将领域
步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格,用符号Ls表示。种子论文概念格Ls中的每一个节点均称为一个种子形式概念。所述种子形式概念中包含一个对象集和一个属性集;所述对象集为领域
所述构建种子论文概念格的方法包括增量建格算法、批量建格算法。
步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念格Ls中每个种子形式概念中的种子论文确定其重要性权值。具体为:在种子论文概念格Ls中任意选取一个种子形式概念,用符号cs表示,在种子形式概念cs中选取一个种子论文,用符号x表示,通过公式(1)计算种子论文x在种子论文概念格cs中的重要性权值,用符号Context_Score(x,cs)表示。
>
其中,N是种子论文概念格Ls里种子形式概念cs中属性集包含的属性个数;M是种子论文概念格Ls里种子形式概念cs中对象集包含的对象个数,即论文数;S是种子论文x拥有的属性个数;这里,weight是种子论文概念格Ls里种子形式概念cs的属性集中某个属性在领域
步骤9:通过公式(2)依次计算种子论文x的依附论文(用符号y表示)的相关度,用符号AContext_Score(y,cs)表示。
>
其中,Sscore是种子论文概念格Ls里形式概念cs中种子论文x在种子论文概念格cs中的重要性权值;SRscore是依附论文y与种子论文x之间的文本相似度值,该相似度通过公式(3)计算得到。
>
其中,s1是论文x的属性向量,s1=(s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′);s2是论文y的属性向量,s2=(s2,1,s2,2,s2,3,...,s2,n′-1,s2,n′),
获取论文x的属性向量s1的操作步骤为:对论文x中的全部关键词按照其TF-IDF值从大到小的顺序排列,然后选取前n′个关键词,5≤n′≤50,分别对应s1,1,s1,2,s1,3,...,s1,n′-1,s1,n′。
获取论文y的属性向量s2的方法与获取论文x的属性向量s1的方法相同。
经过步骤1至步骤9的操作,完成预处理阶段的操作。
所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:
步骤10:用户发出一个检索请求,用符号q表示;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似,用符号Q表示,Q为领域
其中,intent()代表获取属性集的操作,
步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于某一阈值的若干种子形式概念的集合,用符号Cqs表 示。具体操作为:
步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念,用(Q*,Q)表示,其中Q*是Q所对应的对象集。
步骤b:使用公式(5)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(用符号(P2,B2)表示)之间的相似度。
>
其中,Sim((P1,B1),(P2,B2))表示种子形式概念(P1,B1)与(P2,B2)之间的相似度。P1=Q*,B1=Q。ω是一个权值参数,0≤ω≤1,用户可以调整它以获得满意的结果。m是对象集P1和P2中的非共有对象集的势的最大值,B1L和B2L分别是B1和B2在种子论文概念格Ls的下近似,根据公式(4)计算获取。e是属性集B1L和B2L中的非共有属性集的势的最大值,其中“势”指用来度量集合规模大小的属性,对于有限集合,用集合的元素个数来进行度量。u是对象集P1和P2中的非共有对象集之间的信息内容相似度的和的最大值,r是属性集B1L和B2L中的非共有属性集之间的信息内容相似度的和的最大值。
所述计算对象集P1和P2中的非共有对象集之间的信息内容相似度以及属性集B1L和B2L中的非共有属性集之间的信息内容相似度可通过公式(6)计算得到:
>
其中,isim(m1,m2)为名词m1和m2的信息内容相似度;m1和m2分别为对象集P1和P2中的给定名词,或者是属性集B1L和B2L中的给定名词;m'是一个拥有名词m1和m2共有的最大信息内容的一个名词,>S(m1,m2)是名词m1和m2共有的上限名词集;
步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种 子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于某一阈值(用符号σ表示)的种子形式概念放入集合Cqs中,0.2≤σ≤1。
步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算。任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得。
R(pq,q,cqi)=wcontext.L_Context_Score(pq,cqi)+wmatching.Matching_Score(pq,q)(7)
其中,R(pq,q,cqi)论文pq在形式概念cqi中与检索请求q的相关度。wcontext和wmatching是论文pq在形式概念cqi中的重要性权值和论文pq与检索请求q之间的相似程度的权重,wcontext和wmatching的值由人为选取,wcontext+wmatching=1,并且wmatching>wcontext。L_Context_Score(pq,cqi)是论文pq在形式概念cqi中的重要性的权值,如果pq是种子论文,则重要性权值由公式(1)计算获得,如果pq是种子论文的附属论文,则重要性权值由公式(2)计算获得。Matching_Score(pq,q)是论文pq与检索请求q之间的相似程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作。
步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示。
步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户。
步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度,用符号R(pq,q)表示。
>
其中,np是在形式概念集合Cqs中包含论文pq的形式概念的个数。R1(pq,q,cql)是在形式概念cql中检索请求q与论文pq的相关程度,可由公式(7)计算获得。R2(cql,q)是形式概念cql与检索请求q的相关程度,相似度获取的方法同步骤11中的步骤a至步骤b的操作。wPaperRelevancy和wWcontext是R1和R2各自的权重,wPaperRelevancy和wWcontext的值由人为设定,wPaperRelevancy+wcontext=1,并且wPaperRelevancy>wWcontext。
步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12和步骤15的操作。
步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
有益效果
本发明所述的基于FCA缩减形式背景的论文检索方法,通过“排序隔选”的方式,缩减了构建和搜索概念格的规模和时间,然后将其他被缩减论文附属于被选论文,较大的消除了结果丢失的影响,同时通过概念格的粗糙近似检索机制,解决了论文检索时检索结果过于分散和庞大的问题,同时又能够保证检索结果的召回率和精确度。
附图说明
图1为已有技术中根据表1所构建的概念格。
具体实施方式
根据上述技术方案,下面通过具体实施例对本发明进行详细说明。
本实施例采用本发明提出的方法建立一个基于形式概念分析的数字论文检索系统,该分类系统采用JAVA开发平台,MySql数据库。采用来自CNKI(中国知网)的计算机信息检索领域的10000篇论文进行实验,具体步骤如下:
预处理阶段的操作是:
步骤1:针对计算机信息检索领域的10000篇论文中的全部关键词,依次计算每个关键词在计算机信息检索领域的10000篇论文中的TF-IDF值,并按照TF-IDF值由高到底的顺序对关键词进行排序;然后,将TF-IDF值最高的40个关键词确定为计算机信息检索领域的10000篇论文中的形式背景中的属性。用符号th,g表示第h篇论文中的第g个关键词,则关键词th,g在计算机信息检索领域的10000篇论文中的TF-IDF值可通过公式(9)计算得到。
>
其中,Freqh,g是关键词th,g在第h篇论文中的出现次数,MaxFreqg是第h篇论文中 所有关键词出现的最大次数,G是论文集中所有论文的数目,此处,G=10000,nh是10000篇论文中拥有关键词th,g的论文数目。
步骤2:在步骤1操作的基础上,构建计算机信息检索领域的10000篇论文的形式背景表格,具体为:首先建立一张二维表,用符号F表示;二维表F的每一行分别对应计算机信息检索领域的10000篇论文中的一篇数字论文,二维表F的每一列分别对应步骤1得到的40个关键词中的一个关键词。然后查看每个关键词在计算机信息检索领域的10000篇论文的每篇论文中是否出现,如出现,则数字论文与关键词确定的表项值为1;否则,数字论文与关键词确定的表项值为0。
步骤3:在步骤2操作的基础上,统计形式背景表格F中每篇数字论文对应的表项值为1的个数,将其称为该论文所拥有的属性个数;然后在形式背景表格F中,对所有数字论文及其形式背景按照论文拥有的属性个数由低到高的顺序重新排序。
步骤4:在步骤3操作的基础上,在形式背景表格F中,对于拥有属性个数相同的数字论文,按照关键词在形式背景表格F中出现的顺序进行排序。
步骤5:选定一个顺序间隔s=7。然后,从步骤4得到的形式背景表格F中抽取第1篇论文以及其后依次间隔s的数字论文作为种子论文。将所有的种子论文及其形式背景构成的表格称为种子论文形式背景表格,用符号Fs表示。
步骤6:在步骤5操作的基础上,在种子论文形式背景表格Fs中为每一篇种子论文建立2个依附链表,一个称为前置链表,另一个称为后置链表;并将计算机信息检索领域的10000篇论文的形式背景表格F中该种子论文之前的
步骤7:在步骤5操作的基础上,使用种子论文形式背景表格Fs构建种子论文概念格Ls。种子论文概念格Ls中的每一个节点均称为一个种子形式概念。
所述构建种子论文概念格的方法为Godin增量建格算法。
步骤8:在步骤6和步骤7操作的基础上,使用公式(1)为种子论文概念 格Ls中每个种子形式概念中的种子论文确定其重要性权值。
步骤9:通过公式(2)和公式(3)依次计算种子论文x的依附论文y的相关度AContext_Score(y,cs)。
经过步骤1至步骤9的操作,完成预处理阶段的操作。
所述检索阶段的操作是在预处理阶段操作的基础上进行的,具体为:
步骤10:用户发出一个检索请求q;根据用户的检索请求q,使用公式(4)计算出检索请求q的粗糙集下近似Q。
步骤11:在种子论文概念格Ls中获取与步骤10得到的检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念集合Cqs。具体操作为:
步骤a:根据检索请求q的粗糙集下近似Q,求出检索请求q的属性集的粗糙下近似形式概念(Q*,Q)。
步骤b:使用公式(5)和公式(6)依次计算(Q*,Q)与种子论文概念格Ls中任意一个种子形式概念(P2,B2)之间的相似度。
步骤c:根据步骤b中公式(5)得到的相似度,按照从大到小的顺序对种子论文概念格Ls中的所有种子形式概念进行排序,将相似度大于0.3的种子形式概念放入集合Cqs中。
步骤12:在步骤11操作的基础上,将检索请求q获取到的形式概念集合Cqs中的种子形式概念中的每篇论文与检索请求q进行相关度计算。任意在形式概念集合Cqs中选定一个形式概念,用符号cqi表示,从形式概念cqi所包含的种子论文以及种子论文的依附论文中选择一个论文pq,论文pq在形式概念cqi中与检索请求q的相关度可由公式(7)计算获得。
步骤13:根据步骤12得到的检索请求q获取到的形式概念集合Cqs中的种子形式概念cqi中的每篇论文与检索请求q进行相关度,按照从大到小的顺序对论文进行排序;将排序结果作为检索结果的一部分向用户展示。
步骤14:重复步骤12至步骤13的操作,直到对形式概念集合Cqs中的所有形式概念均进行了步骤12至步骤13的操作,并将结果展示给用户。
步骤15:在步骤12操作的基础上,通过公式(8)计算论文pq针对检索请求q的在形式概念集合Cqs中的全局相关度R(pq,q)。
步骤16:重复步骤12和步骤15的操作,直到对形式概念集合Cqs中的所有 形式概念均进行了步骤12和步骤15的操作。
步骤17:在步骤16操作的基础上,对形式概念集合Cqs中的所有论文按照全局相关度由高到低进行排序,得到一个统一的检索结果列表,将这个检索结果列表作为检索结果的另外一部分向用户展示。
经过上述步骤的操作,采用本发明提出的方法(FBS方法)得到的检索结果的召回率和准确率如表2中的第2行所示。
表2三种检索方式效果比较
为说明本发明的检索效果,在同等条件下,以相同的实验数据分别采用FBSall方法和CNKI自带的论文搜索机制进行比较,得到的检索结果的召回率和准确率分别如表2中的第3行和第4行所示。
其中,FBSall方法与本发明提出的FBS方法相似,其区别仅在于:步骤11中,FBS方法的种子形式概念集合Cqs中仅包含种子论文概念格Ls中与检索请求q的粗糙集下近似Q之间的相似度大于0.3的种子形式概念,而FBSall方法的步骤11中,种子形式概念集合Cqs中包含种子论文概念格Ls中与检索请求q的粗糙集下近似Q之间的相似度不小于0的种子形式概念,其他操作步骤均相同。
通过表2可以得出以下结论:本发明提出的数字论文检索(FBS)及其衍生(FBSall)的方法采用了形式概念分析理论,发挥了概念格对数字论文进行层次化组织的优势,得到了高于CNKI的准确率和召回率,验证了其有效性。
需要强调的是,对于本领域技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些也应视为属于本发明的保护范围。
机译: 一种基于大地水准面系统的数字karten信息的存储和检索方法。
机译: 一种数字移动电话中多媒体数据的存储,检索方法及其数字移动电话
机译: 一种数字移动电话中多媒体数据的存储,检索方法及其数字移动电话