首页> 中国专利> 一种基于单篇学术论文的核心文献推荐方法

一种基于单篇学术论文的核心文献推荐方法

摘要

本发明公开了一种基于单篇学术论文的核心文献推荐方法,包括基于单篇学术论文的共引和同被引关系筛选出与该单篇学术论文相似的核心文献;在筛选出的核心文献的基础上根据参考关系筛选出反应该单篇学术论文的研究来源的核心文献以及根据被引关系筛选出反应该单篇学术论文的研究去向的核心文献;从推荐出的核心文献的题名、摘要、关键词中提取出主题词,从语义角度对所有文献进行分组并进行动态交互的可视化展示。本发明不仅从论文之间的引用和被引关系这种客观的角度推荐相似的核心文献,而且从语义的角度对推荐出来的核心文献进行分组和动态可视化展示,有效的揭示了论文的研究来源和发展去向,使研究人员能够迅速的掌握相关研究主题的发展脉络。

著录项

说明书

技术领域

本发明涉及文献推荐技术领域,尤其涉及一种基于单篇学术论文的核心文献推荐方法。

背景技术

随着人类科技的飞速发展,各行各业的科技工作者通过总结分析自己的工作内容以及经验教训,积累了浩如烟海的各种学术文献如期刊论文、会议论文、学位论文、图书等等。海量的文献给研究者带来了诸多可以参考的资源,但是如何从海量的文献快速的寻找到某个研究主题的相关核心文献、熟悉其发展脉络就成为亟待解决的问题。过去的几十年,为了迅速找到某个研究主题的最相关文献,各种各样的方法都被提出来了,有基于搜索的方法、有基于文献推荐的方法、有基于关键词、摘要等从语义角度进行挖掘标引的方法等等。但是上述方法基本都只关注于提取出最相关的文献,对研究主题的研究来源和研究去向的整个发展脉络的研究较少。本发明首先聚类出单篇学术文献的核心文献,然后在核心文献的基础上提取反映研究主题的背景与依据的研究来源文献和反映研究主题的应用与发展的研究去向文献,最后将核心文献与研究来源和研究去向文献关联起来,并通过可视化的方式揭示单篇学术论文的发展脉络。

发明内容

为解决上述技术问题,本发明的目的是提供一种基于单篇学术论文的核心文献推荐方法,该方法首先聚类出单篇学术文献的核心文献,然后在核心文献的基础上提取反映研究主题的背景与依据的研究来源文献和反映研究主题的应用与发展的研究去向文献,最后将核心文献与研究来源和研究去向文献关联起来,通过动态的操作,可视化的揭示单篇学术论文的发展脉络。

本发明的目的通过以下的技术方案来实现:

一种基于单篇学术论文的核心文献推荐方法,包括以下步骤:

步骤A基于单篇学术论文的共引和同被引关系筛选出与该单篇学术论文相似的核心文献;

步骤B在筛选出的核心文献的基础上根据参考关系筛选出反应该单篇学术论文的研究来源的核心文献以及根据被引关系筛选出反应该单篇学术论文的研究去向的核心文献;

步骤C从推荐出的核心文献的题名、摘要、关键词中提取出主题词,从语义角度对所有文献进行分组并进行动态交互的可视化展示。

与现有技术相比,本发明的一个或多个实施例可以具有如下优点:

不仅从论文之间的引用和被引关系这种比较客观的角度推荐相似的核心文献,而且从语义的角度对推荐出来的核心文献进行分组和动态可视化展示,有效的揭示了论文的研究来源和发展去向,使研究人员能够迅速的掌握相关研究主题的发展脉络;

不仅能够根据推荐出来的研究来源文献辨识出某个研究主题的开创性工作和研究背景,而且能够根据推荐出来的研究去向文献追踪当前研究领域的最前沿研究,同时通过对核心文献进行分组实现对同一研究主题寻找不同的研究方法或方向,探索和分析文献研究主题的发展趋势和研究动态。

附图说明

图1是基于单篇学术论文的核心文献推荐方法流程图;

图2是文献耦合和共引分析图;

图3是根据文献耦合推荐核心文献图;

图4是根据文献共引推荐核心文献图;

图5是核心文献的推荐方法流程图;

图6是核心文献的分组效果图;

图7是动态交互的可视化设计图;

图8是点击研究来源文献高亮关联的核心文献图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。

如图1所示,为基于单篇学术论文的核心文献推荐方法流程,包括:

步骤10基于单篇学术论文的共引和同被引关系筛选出与该单篇学术论文相似的核心文献;

步骤20在筛选出的核心文献的基础上根据参考关系筛选出反应该单篇学术论文的研究来源的核心文献以及根据被引关系筛选出反应该单篇学术论文的研究去向的核心文献;

步骤30从推荐出的核心文献的题名、摘要、关键词中提取出主题词,从语义角度对所有文献进行分组并进行动态交互的可视化展示。

上述步骤10中根据文献的耦合和共引分析(如图2所示)推荐出核心的相关文献,图2a中,文献T和文献X相关是因为文献T和文献X都引用了文献R

1)获取目标文献T的所有参考文献集合R={R

2)获取目标文献T的参考文献R集合中每一篇文献对应的引证文献集合RX={{R

获取目标文献T的引证文献C集合中每一篇文献对应的参考文献集合 CY={{C

3)将2)中的所有引证文献RX按文献分组,统计文献出现的次数并降序排列,排除目标文献T后,获得文献有序列表RXO,如图3所示的顺序 {X

将2)中的所有参考文献CY按文献分组,统计文献出现的次数并降序排列,排除目标文献T后,获得文献有序列表CYO,如图4所示的顺序{Y

4)根据共引和同被引的数量确定相关的N*2篇文献,截取至多N*2篇文献;

从有序文献列表RXO和CYO中总共截取至多N*2个文献,即为所要推荐的核心文献列表M。当RXO和CYO的总数量大于N*2时,则进行截取,否则保留RXO和CYO的全部文献。截取总共N*2的方法为:设RXO的数量为N

5)获取4)中N*2篇文献集合M的所有参考文献集合RM和引证文献集合CM;

6)对所有参考文献RM分组,统计文献出现的次数并降序排列,排除目标文献T后,截取前W个文献,作为研究来源的文献列表RMO。同时,对于RMO中的每一篇文献,添加与4)中的M文献的参考文献关系,以及统计M文献中参考该文献的篇数。

对所有引证文献CM分组,统计文献出现的次数并降序排列,排除目标文献T后,截取前W个文献,作为研究去向的文献列表CMO。同时,对于 CMO中的每一篇文献,添加与第四步中的M文献的引证文献关系,以及统计该文献引用了M中的文献篇数。

7)排序,以及添加关联关系;

根据6)中的参考文献集合RMO以及参考关系给4)中的M集合文献中的每一篇文献都关联上对应的参考文献;根据6)中的引证文献集合CMO 以及引证关系给4)中的M集合文献中的每一篇文献都关联上对应的引证文献。

8)排序输出核心文献列表M,研究来源文献列表RMO,研究去向文献列表CMO。

对第4)中的核心文献按参考RMO文献篇数和被CMO引用的文献篇数总和降序排列输出;对6)中的研究来源文献RMO按被M文献参考的篇数降序输出;对6)中的研究去向文献CMO按该文献引用了M中的文献篇数降序输出。

文献分组具体包括:

1)初始值:目标文献,待分组的核心文献;

2)根据文献的标题、关键词、摘要提取所有核心文献和目标文献的主题词,其中,主题词的提取采用LDA(Latent Dirichlet Allocation)算法;

3)计算目标文献与其他未分组文献相同的主题词数量并降序排序,并取至多G个文献分为一组;

4)从剩下未分组的文献集合中取被引数量最大的文献作为新分组的目标文献,重复执行2)到4),直至所有文献都分组完毕。

例如,期刊论文Radiative forcing in the ACCMIP historical and futureclimate simulations的分组效果

https://scholar.cnki.net/zn/Detail/quotation/GARJ2011/SJCO1305160000035 1)如图6所示。

核心文献的可视化

连接线的粗细计算方法:连接线两端的文献的相同参考文献和相同引证文献的数量总和,某种程序上反应了文献的相似程度。有连线表示至少有一篇相同的参考文献或者引证文献。

球形之间的连接线的粗细计算:设两端的文献的相同参考文献m篇,相同的引证文献n篇,wc=m*10+n,连接线的粗细为s

球形大小的计算:代表的是被引数;设被引数为某篇文献的被引数为c,球形的半径大小为r,则相关的计算方法为:

动态交互的可视化设计

整个动态交互页面分为三部分:最左边是单篇学术论文的核心文献列表;中间是单篇学术论文的核心文献的知识图谱,以及揭示研究来源和研究去向的文献列表;最右边是每一篇文献的题录详情信息。具体的效果如图7所示,动态交互操作方法如下所示:

1)最左边列表是根据前面设计的算法计算出来的核心文献列表,加上目标文献,共31篇,并按前面所述的排序规则降序排列。

2)中间的知识图谱是最左边核心文献的可视化,球形大小和连接线的粗细按前面所述的方法进行可视化,相似主题分组的文献都在同一个分组框内并分配同一种颜色,如图6所示。

3)中间的研究来源是按前面设计的算法推荐出来的10篇研究来源文献,反映论文研究工作的背景和依据。单击研究来源的文献,该文献将高亮显示,同时左侧核心文献列表中将同步高亮显示引用了该文献的所有文献,如图7 所示;单击左侧核心文献列表中的文献,该文献将高亮显示,同时将同步高亮显示研究来源中被引用的所有文献,如图8所示。

4)中间的研究去向是按前面设计的算法推荐出来的10篇研究去向文献,反映研究工作的继续、应用、发展或评价。单击研究去向的文献,该文献将高亮显示,同时左侧核心文献列表中将同步高亮显示被该文献引用的所有文献;单击左侧核心文献列表中的文献,该文献将高亮显示,同时将同步高亮显示研究去向中引用了该文献的所有文献。

5)最右边是每一篇文献的题录详情信息,由标题、作者、发表年份、doi、被引次数、摘要等信息组成。鼠标浮动选中最左侧核心文献、中间的研究来源文献以及中间的研究去向文献时,最右侧都会实时显示浮动选中文献的题录详细信息。

虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号