法律状态公告日
法律状态信息
法律状态
2017-08-25
未缴年费专利权终止 IPC(主分类):G06F17/30 授权公告日:20130911 终止日期:20160712 申请日:20110712
专利权的终止
2013-09-11
授权
授权
2012-06-27
实质审查的生效 IPC(主分类):G06F17/30 申请日:20110712
实质审查的生效
2011-10-12
公开
公开
技术领域
本发明涉及一种文献知识分析管理技术领域,特别涉及一种基于关键词共现的研究热点图论分析方法。
背景技术
最近几年来,人们对文献管理的研究不断深入,研究的范围不断扩大,文献中标示的关键词范围越来越广,数量越来越多。文献中的关键词是技术内容的提示符,是作者学术思想及学术观点的凝炼,也是文献计量研究的重要指标。同时,有些关键词常常共同出现,两个或更多关键词在同一篇文献中同时出现的现象,人们称之为关键词共现。关键词共现分析是文献计量学常用的一种重要的量化研究方法,这种方法以文献的关键词为基础,通过描述关键词与关键词之间的关联与结合,提示某一领域学术研究内容的内在相关性和学科领域的微观结构:人们通过关键词的共现分析来了解学科的发展动态和发展趋势。某些关键词频频共现,说明这些关键词所反映的学科领域正在蓬勃发展,而且二关键词关系密切,人们通过比较不同时期共现的关键词便可获得关于学科发展、交叉、渗透和兴衰的趋势的相关知识。
因此,基于关键词共现对现阶段学术界研究热点的分析,对把握学科的发展动态和发展趋势,具有重要的意义。例如,某一时期发现某一学科有相当一部分科学家的论文显示某两个或更多术语频频共现,便认为这种共现展示了该学科的一个新的蓬勃发展的研究领域。基于关键词共现分析还可以用于科技预测,发现新的学科增长点和突破口。例如,如果有文献研究表明术语A与术语B之间存在较强的共现关系,术语A与术语C之间也存在较强的共现关系,那么,可以推测术语B和术语C之间也可能存在某种关联,通过揭示术语B和术语C之间的关系便有可能导致科学上的某种创新性发现。
现阶段基于关键词共现进行研究热点分析的方法主要采用观察值矩阵表面分析,这种分析方法通常只研究观察值矩阵所对应网络图的关联度,其分析的关键词局限于文献所列出的3-5个关键词,通常不能全面反应全文的综合内容及创新观点。且该方法在关键词共现的分析过程中,往往通过出现频次来定义关键词共现权重,对关键词之间的关联度研究分析达不到所想要的结果,分析出的关键词并未能覆盖本领域所需讨论的关键技术问题,难以提炼出有待挖掘的研究热点,更难以通过这种方法来展示学科的发展动态和发展趋势。
发明内容
为了解决上述技术问题,本发明提供一种基于关键词共现的研究热点图论分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的图论分析算法,得到研究热点关键词。
本发明采用的技术解决方案是,一种基于关键词共现的研究热点图论分析方法,包括如下步骤:
a.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤;
b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤;
c.构建各关键词的无向赋权图G的步骤;
d.根据无向赋权图G来求取研究热点关键词的步骤。
进一步的,所述步骤a.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤,包括:
a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
a2.计算每个关键词在文献数据库中的所有文献中出现的频次;
a 3.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,......,nm。
更进一步的,所述步骤a1.从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词,其方法是根据语义分析检索引擎选取每篇文献的若干关键词。
进一步的,所述步骤b.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,包括:
b1.根据语义分析检索引擎计算出关键词ni在语义分析检索引擎中的权重值,权重值介于0到255之间;
b2.计算所述的该关键词ni的权值为
进一步的,所述步骤c.构建各关键词的无向赋权图G的步骤包括:
c1.建立关键词点集为:{n1,n2,n3,......nm},点权值集为:{w1,w2,w3,......wm}。
c2.其中,若两个关键词ni和nj在文献数据库DB的至少一篇文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj。
进一步的,所述步骤d.根据无向赋权图G来求取研究热点关键词的步骤包括:
d1.在无向赋权图G中,计算两顶点ni和nj之间的距离d(ni,nj),所述的两顶点ni和nj之间的距离d(ni,nj)为点ni到点nj之间最短路所经的顶点数加1;
d2.对于点ni,计算点ni的最大距离
d3.根据点ni的权值wi和最大距离di来计算wi/di,再求出满足的热点关键词nt。
进一步的,其特征在于,所述步骤a3、步骤b2、步骤c、步骤d2中的m≥2。
优选的,所述的m=100。选取m=100个关键词,既能保证所选取的关键词能够覆盖本领域所需讨论的关键技术问题,且能够保证计算机进行数据处理时快速有效。
本发明提供一种基于关键词共现的研究热点图论分析方法,在文献数据库DB中的每篇文献中提取若干个关键词,其关键词并不局限于文献自身提供的关键词,再对关键词进行权重分析,结合基于赋权图的距离的关键词共现图论分析算法,得到研究热点关键词。分析出的关键词能覆盖本领域所需讨论的关键技术问题,能够提炼出有待挖掘的研究热点,作为科技预测、发现新的学科增长点的突破口,从而推动学科的进步和发展。本发明的方法适用于文献知识分析管理技术领域,也同样适用于科学研究领域。
附图说明
图1是本发明实施例的流程示意图;
图2是本发明实施例的步骤4的算法的软件实现流程。
具体实施方式
现结合附图和具体实施方式对本发明进一步说明。
下面实施中将主要以Autonomy软件为例进行说明,Autonomy是基于语义计算(MBC)的,以之为例是因为Autonomy是该领域公认的领军者,并且在商业应用领域中名声煊赫,在政府、国防、新闻、金融、电信、教育等领域拥有大量中坚客户;但是,从理论上来说,用其它的相似功能的软件或者方式也是可以的,具体需要实现何种功能或者达到何种效果,相应的实施例中也将给具体说明,因此,Autonomy软件为例仅用于教导本领域技术人员具体如何实施本发明,但不意味仅能使用Autonomy软件,实施过程中可以结合实践需要来确定相应的软件或者方式。
图1是本发明实施例的流程示意图,如图所示,包括如下步骤:
步骤1.从文献数据库DB中获取若干候选关键词n1,n2,n3,......,nm的步骤,其中,步骤1具体包括:
步骤11.运用Autonomy软件从需要进行研究热点分析的文献数据库中选取每篇文献的若干关键词;
步骤12.计算每个关键词在文献数据库中的所有文献中出现的频次;
步骤13.取频次从高到低排列的前m个关键词,依次记为:n1,n2,n3,......,nm,且优选m=100来进行分析计算。
步骤2.根据上述关键词ni在文献数据库DB中所有文献中的权重确定该关键词ni的权值wi的步骤,其中,步骤2具体包括:
步骤21.运用Autonomy软件计算出关键词ni在Autonomy中的APCM值(Adaptive Probabilistic Concept Modeling自适应概率建模),APCM值介于0到255之间;
步骤22.计算该关键词ni的权值为此时关键词ni的权值介于0到2.55之间。
步骤3.构建各关键词的无向赋权图G的步骤,其中,步骤3具体包括:
步骤31.建立关键词点集为:{n1,n2,n3,......n100},点权值集为:{w1,w2,w3,......w100};
步骤32.其中,若两个关键词ni和nj在文献数据库DB的至少一篇文献中共现,则该两个关键词ni和nj为赋权图中的一条边ninj。
步骤4.求取研究热点关键词的步骤,其中,步骤4具体包括:
步骤41.在无向赋权图G中,计算两顶点ni和nj之间的距离d(ni,nj),所述的两顶点ni和nj之间的距离d(ni,nj)为点ni到点nj之间所经的最短路的顶点数加1;
步骤42.对于点ni,计算点ni的最大距离
步骤43.根据点ni的权值wi和最大距离di来计算wi/di,求出满足的关键词ni。
如图2所示,为本发明实施例的步骤41和步骤42部分的算法的软件实现流程,包括如下步骤:
步骤100:赋初值m=0,i=1,执行步骤101;
步骤101:V*=V′={ni},di=0;
步骤102:判断是否N(V*)\V′=Φ,若是,则执行步骤103,否则,执行步骤104;
步骤103:输出di,i=i+1,执行步骤105;
步骤104:V*=N(V*)\V′,V′=V′UV*,di=di+1,执行步骤102;
步骤105:判断是否i=100+1,若是,则执行步骤106,否则,执行步骤101;
步骤106:算法结束。
尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。
机译: 使用图论,分析程序和分析系统的分析方法
机译: 使用图论,分析程序和分析系统的分析方法
机译: 使用图论的分析方法,分析程序和分析系统