首页> 中国专利> 一种引文数据库中主题文献学术影响力的分析与排序方法

一种引文数据库中主题文献学术影响力的分析与排序方法

摘要

本发明公开一种引文数据库中主题文献学术影响力的分析与排序方法,包括:在引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;根据获取的主题文献元数据信息及主题文献间引用关系构建主题引文网络;基于主题引文网络构建包含文献学术影响力多因素的因子图模型;使用循环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序。本发明公开的引文数据库中主题文献学术影响力的分析与排序方法,能够实现用户给定主题的文献学术影响力排序。

著录项

  • 公开/公告号CN103729432A

    专利类型发明专利

  • 公开/公告日2014-04-16

    原文格式PDF

  • 申请/专利权人 河海大学;

    申请/专利号CN201310732480.6

  • 申请日2013-12-27

  • 分类号G06F17/30(20060101);

  • 代理机构32200 南京经纬专利商标代理有限公司;

  • 代理人朱小兵

  • 地址 211100 江苏省南京市鼓楼区西康路1号

  • 入库时间 2024-02-19 23:23:46

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-01-25

    授权

    授权

  • 2014-05-14

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131227

    实质审查的生效

  • 2014-04-16

    公开

    公开

说明书

技术领域

本发明涉及引文分析技术领域,尤其涉及一种引文数据库中主题文献学术影响力 的分析与排序方法。

背景技术

对科技文献的学术影响力(academic influence)进行排序或排名(ranking),有 利于科技工作者选读高质量文献、获取权威知识、提高科技工作效率和科研成果质量。 文献学术影响力分析与评价属于文献计量学(Bibliometrics)中的引文分析(citation  analysis)技术领域,在图书馆与信息科学等领域有着广泛的应用。科技工作者(或称 为“用户”)检索文献并期待获得高学术影响力文献的需求往往从该用户的兴趣主题 (interested topic)出发。因此,在用户兴趣主题上的学术期刊文章(journal articles) 或会议论文(conference papers)即主题文献(topical literature)的学术影响力排名对 用户更有意义。

引文分析的基本方法是建立引文索引(citation index),并根据被引次数(citation  counts)对文献、作者、出版物进行评价。引文分析方法源于Garfield的相关理论(参 见“Garfield E.Citation indexes for science:a new dimension in documentation through  association of ideas[J].Science,1955,122(3159):108-111.”、“Garfield E,Merton R K. Citation indexing:Its theory and application in science,technology,and humanities[M]. New York:Wiley,1979.”)。基于Garfield的理论,大量引文数据库(citation database) 得以建立,并已提供了Web检索平台,如:Thomson Reuters(原ISI)Web of Science (WOS),Google Scholar,Elsevier Scopus,以及中国科学引文数据库(Chinese Science  Citation Database,CSCD)等。

当前,尽管引文数据库能向用户提供文献的主题检索(topical search)功能,即 当用户使用兴趣主题进行检索时,系统给用户返回与检索主题相关的文献(即主题文 献),并能按相关性(relevance)、被引次数、出版日期、来源出版物等对检索到的 主题文献进行排序。然而,存在的问题是:1、文献与检索主题之间的相关性不能完 全反映文献的学术影响力;2、被引次数也无法完全体现文献学术影响力,这是因为 各个被引文献的诸多施引文献并不能认为具有同等的质量或影响力,而且发表时间长 的文献更容易获得高被引次数,被引次数尤其不能衡量文献在特定主题上的学术影响 力,因为统计被引次数时文献引用并未区分主题;3、文献来源出版物的影响力(例 如,期刊影响因子等)也无法简单地用于评价单个文献的影响力。为建立更为有效的 文献学术影响力分析与评价方法,许多研究以文献引用与被引次数为基础,提出了一 系列改进方法。

与引文数据库中主题检索相类似的是万维网上网页的主题搜索,Web用户在搜索 引擎(如Google)中输入感兴趣的主题检索词后,搜索引擎给用户返回该主题上的相 关网页。Sergey Brin和Lawrence Page提出了用于Google搜索引擎的PageRank方法。 该PageRank方法通过对万维网上相互链接的网页进行链接分析(link analysis),计 算出各网页的权重(weighting),以度量网页的相对重要性。科技文献之间的引用关 系类似于网页间的链接关系,因此,理论上讲,PageRank方法或其思想可运用于文 献的重要性或影响力排序。许多改进方法都运用了PageRank方法或借鉴其思想,大 体可分为以下三类。

第一类方法:采用仅依赖于链接分析的技术方案,主要包括:

Ma等人公开了一种直接使用PageRank方法来对科技文献学术影响力进行排序的 方法(参见“Ma N,Guan J,Zhao Y.Bringing PageRank to the citation analysis[J]. Information Processing&Management,2008,44(2):800-810.”),主要思想是:一篇 文献的重要程度取决于它被多少施引文献所引用及这些施引文献的质量,在随机游走 时以同等概率从施引文献游走到所有被引文献。然而,其主要不足是:1、文献学术 影响力排序与用户的兴趣主题无关;2、仅考虑文献引用关系的纯链接分析并不能合 理评价文献的学术影响力。

Zhou等人公开了一种利用作者与文献关系、文献间引用关系、作者合著关系三 种不同类型的链接,采用PageRank方法思想同时对文献及作者的重要性进行排序的 方法(参见“Zhou D,Orshanskiy S A,Zha H,et al.Co-ranking authors and documents in  a heterogeneous network[C]//Seventh IEEE International Conference on Data Mining (ICDM2007),IEEE,2007:739-744.”)。然而,其主要不足是:不支持给定用户查询 主题的重要性排序,考虑的文献学术影响力因素较为简单。

Yan等人公开了一种利用作者与文献关系、文献间引用关系,文献与期刊关系三 种不同类型的链接,采用PageRank方法思想同时对文献、作者、期刊的学术威望进 行排序的方法(参见“Yan E,Ding Y,Sugimoto C R.P-Rank:An indicator measuring  prestige in heterogeneous scholarly networks[J].Journal of the American Society for  Information Science and Technology,2011,62(3):467-477.”)。然而,其主要不足是: 不支持给定用户查询主题的重要性排序,考虑的文献学术影响力因素较为简单。

中国专利公开号CN102298579A,公开日2011年12月28日,名称为“面向科 技文献的论文、作者和期刊排序模型及排序方法”,公开了一种包含论文(P)、作 者(A)、会议或期刊(J)三种结点及相互间五种关系的有向图模型——PAJ模型, 以及基于PAJ模型的排序方法,基本原理是根据五种链接关系生成转移概率矩阵,利 用矩阵迭代计算结果作为排序的依据。然而,其主要不足是:1、没有提供用户兴趣 主题上的主题文献排序方法;2、论文排序是仅基于链接分析的所谓“热门”度排序, 而非综合考虑多种影响力因素的主题文献学术影响力排序。

第二类方法:采用在链接分析中加入其他因素的技术方案,主要包括:

Krapivin等人公开了一种称为Focused Page Rank(FPR)的基于PageRank的文 献排序方法(参见“KrapivinM,Marchese M.Focused page rank in scientific papers  ranking[C]//Proceedings of the11th International Conference on Asian Digital Libraries: Universal and Ubiquitous Access to Information,2008:122-153.”),基本思想是:具有 较高被引次数的文献更容易被人发现从而被人引用,在随机游走时以更高概率游走到 被引次数高的文献。但其主要不足是:1、文献排序与用户兴趣主题无关;2、仅考虑 被引次数不能产生合理的文献学术影响力排序。

Walker等人公开了一种文献排序的CiteRank方法(参见“Walker D,Xie H,Yan K  K,et al.Ranking scientific publications using a model of network traffic[J].Journal of  Statistical Mechanics:Theory and Experiment,2007,DOI 10.1088/1742-5468/2007/06/P06010.”);Li等人公开了一种文献排序的TS-Rank方 法(参见“Li X,Liu B,Philip S Y.Time sensitive ranking with application to publication  search[M]//Link Mining:Models,Algorithms,and Applications.Springer New York,2010: 187209.”)。这两种方法的共同思想是:引入一个关于文献出版年的时间衰变因素, 在引文网络上随机游走时以更大概率游走到较近出版的文献。然而,这两种排序方法 的共同缺陷在于:1、文献排序与用户兴趣主题不相关;2、在文献引用关系的基础上, 仅考虑了文献出版时间因素,是一种理想化的随机游走模型,但实际中,科技工作者 在选择文献时还会同时考虑其他多种因素,如:文献来源出版物的影响力、文献的被 引次数等。因此,这类文献排序方法难以产生合理的文献学术影响力排序。

Hwang等人和Yan等人分别提出了同时将文献的出版年、来源出版物两个因素融 合到PageRank方法中,以实现一种更精准的文献权威性排序的方法(参见“Hwang W  S,Chae S M,Kim S W,et al.Yet another paper ranking algorithm advocating recent  publications[C]//Proceedings of the19th International Conference on World Wide Web, ACM,2010:11171118.”、“Yan E,Ding Y.Weighted citation:An indicator of an article's  prestige[J].Journal of the American Society for Information Science and Technology, 2010,61(8):1635-1643.”)。这类方法的主要思想是:在随机游走时以更大概率游走 到来源出版物学术影响力大且出版年份近的文献。然而,这类改进方法的主要不足是: 未考虑文献引用的主题相关性,而且不支持用户指定主题的文献学术影响力排序。

Wang等人公开了综合利用作者与文献关系、文献间引用关系、文献与期刊关系 三种不同类型的链接以及文献的作者、来源出版物、出版年因素,实现一种将PageRank 方法与HITS方法相结合的文献排序方法(参见“Wang Y,Tong Y,Zeng M.Ranking  scientific articles by exploiting citations,authors,journals,and time information[C] //Twenty-Seventh AAAI Conference on Artificial Intelligence.2013.”)。然而,其不足 之处是:未考虑文献引用的主题相关性,也不支持用户指定主题的文献学术影响力排 序。

第三类方法:采用概率主题建模与链接分析相结合的技术方案,主要包括:

Wu等人公开了一种基于PageRank思想的主题层特征向量(Topic-level eigenfactor,TEF)方法(参见“Wu H,He J,Pei Y.Scientific impact at the topic level:A  case study in computational linguistics[J].Journal of the American Society for Information  Science and Technology,2010,61(11):2274-2287.”)。该TEF方法的基本思想是:首 先根据LDA概率主题模型自动抽取隐含在文献集里的所有主题并确定所有文献的主 题概率分布,在随机游走时优先游走到主题概率高的文献结点。然而,其不足之处是: 1、只能在概率主题建模分析得出的主题上进行文献相对重要性排序,无法实现用户 给定兴趣主题的文献学术影响力排序;2、概率主题建模采用文本分析技术,所生成 的主题太多(几百甚至几千个)且主题往往不合理或不符合实际,难以实用;3、文 献重要性排序只考虑了主题相关度因素,因此排序结果不够合理。

Nallapati等人公开了一种称为TopicFlow的文献影响力分析方法(参见“Nallapati  R,Mcfarland D A,Manning C D.Topicflow model:Unsupervised learning of  topic-specific influences of hyperlinked documents[C]//International Conference on  Artificial Intelligence and Statistics.2011:543-551.”),基本思想是:结合概率主题模 型(topic model)及网络流(network flow)思想推理出文献集中隐含的主题,同时通 过非监督学习出文献在隐含主题上的影响力。然而,该方法的主要缺陷是:1、只能 在概率主题建模分析得到的主题上进行文献影响力排序,无法实现用户给定兴趣主题 的文献学术影响力排序;2、所考虑的影响力因素仅为文献间引用关系。

除了各自的不足之处外,以上列出的所有方法还有一个共同缺陷:未能充分利用 现有引文数据库的主题检索功能去收集用户兴趣主题上的相关文献及多种影响力因 素数据,并对诸多因素进行系统建模与科学分析。

因此,有必要提出一种更为有效的主题文献学术影响力的分析与排序方法,以充 分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种影 响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素进行 系统建模与科学分析,从而克服现有文献学术影响力排序方法不能针对用户兴趣主题 产生排序结果或者因未综合考虑多种学术影响力因素而产生不合理与不准确排序结 果的缺陷,以提高用户的科技工作效率和科研成果质量。

发明内容

本发明的目的旨在提供一种引文数据库中主题文献学术影响力的分析与排序方 法,能够提高用户给定主题上文献学术影响力排序的有效性、准确率,以提高用户的 科技工作效率和科研成果质量。

本发明提供一种引文数据库中主题文献学术影响力的分析与排序方法,包括:在 引文数据库中进行主题检索,获取主题文献元数据信息及主题文献间引用关系;根据 获取的主题文献元数据信息及主题文献间引用关系构建一个主题引文网络;基于主题 引文网络构建一个包含文献学术影响力多因素的因子图(factor graph)模型;使用循 环最大和算法在因子图上近似推理,确定因子图中所有变量的边缘概率值;根据边缘 概率值的降序排序结果,获取并输出所有主题文献的学术影响力排序。

本发明提出的一种引文数据库中主题文献学术影响力的分析与排序方法,能够充 分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种学 术影响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素 进行系统建模与科学分析,从而可以实现用户给定主题的文献学术影响力排序。

本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变 得明显,或通过本发明的实践了解到。

附图说明

图1示出了根据本发明技术方案的引文数据库中主题文献学术影响力的分析与排 序方法的流程示意图;

图2示出了根据本发明技术方案的不同范围的文献、文献间引用关系及主题引文 网络示意图;

图3示出了根据本发明技术方案的主题引文网络中文献结点的标示信息的示意 图;

图4示出了根据本发明技术方案的引文数据库中主题文献学术影响力分析过程中 的因子图建模的示意图。

具体实施方式

下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始 至终相同或类似的标号表示相同或类似的概念、对象、要素等或具有相同或类似功能 的概念、对象、要素等。下面通过参考附图描述的实施方式是示例性的,仅用于解释 本发明,而不能解释为对本发明的限制。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术 术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。 还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上 下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含 义来解释。

本发明提出的改进现有技术的基本方案是:1、充分利用引文数据库的主题检索 功能及检索结果;2、引入能对诸多因素进行综合建模与分析的模型。优选地,本发 明采用因子图(factor graph)模型对引文数据库中主题文献学术影响力排序进行综合 建模与分析。

因子图作为一种新型的概率图模型(probabilistic graphical model),已成为机器 学习(machine learning)的新方法,适合于建模现实世界的复杂系统并导出相关识别 与估算问题的消息传递(message passing)方法。例如,因子图可应用于概率建模, 并可简化贝叶斯网络(Bayesian networks)、马尔可夫随机场(Markov random fields) 等传统概率图模型的推理。

数学上,因子图是描述定义在某个变量集上的一个全局函数被因式分解为定义在 该变量集的若干变量子集上的局部函数的乘积,即公式(1)表示的因式分解。

h(x1,...,xn)=ΠjJfj(Xj)---(1)

其中:h(x1,...,xn)是定义在变量集{x1,...,xn}上的全局函数;J是离散索引集;Xj是{x1,...,xn}的子集,即fj(Xj)是以Xj中元素为自变量的局部函数(也 称因子)。

因子图是由两类结点构成的二部图(bipartite graph):每个变量xi对应一个变量 结点(用小圆圈表示),每个局部函数fj(Xj)对应一个因子结点(用小矩形表示), 当且仅当xi是函数fj(Xj)的自变量时,相应变量结点与相应因子结点之间才有一条无 向边相连。

因子图是一种通用模型框架,在运用因子图时,需根据特定的实际问题来确定合 适的变量集、局部函数、全局函数及其因式分解,并根据因子图中是否有环(cycles 或loops)来设计合适的精确推理(exact inference)或近似推理(approximate inference) 方法,尤其是确定推理方法中合适的消息传递规则与调度策略等。

图1示出了根据本发明一实施方式的引文数据库中主题文献学术影响力的分析与 排序方法的流程示意图。如图1所示,本发明公开一种引文数据库中主题文献学术影 响力的分析与排序方法,包括:步骤S1,在引文数据库中进行主题检索,获取主题 文献元数据信息及主题文献间引用关系;步骤S2,根据获取的主题文献元数据信息 及主题文献间引用关系构建一个主题引文网络;步骤S3,基于主题引文网络构建一 个包含文献学术影响力多因素的因子图模型;步骤S4,使用循环最大和算法在因子 图上近似推理,确定因子图中所有变量的边缘概率值;步骤S5,根据边缘概率值的 降序排序结果,获取并输出所有主题文献的学术影响力排序。

进一步地,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引 用关系,包括:在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结 果按主题相关性降序排序;从检索结果中获取主题文献元数据信息及主题文献间引用 关系。

进一步地,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题 引文网络,包括:基于主题文献间引用关系构建一个以文献为结点、文献间引用为有 向边的有向无环图(directed acyclic graph);基于主题文献元数据信息对有向无环图 的结点进行标示,形成一个结点标示的有向无环图作为主题引文网络。

进一步地,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模 型,包括:确定因子图的变量集;确定定义在因子图变量集的子集上的局部函数,其 中:所述局部函数包括:文献特征局部函数和文献间引用特征局部函数;用获得的局 部函数来确定因子图全局函数的因式分解。

进一步地,确定因子图的局部函数中的文献特征局部函数,包括:将文献的主题 相关性降序排序序号通过线性变换映射为实数闭区间上的主题相关性因素的取值;将 文献来源期刊的学术影响力通过线性变换映射为实数闭区间上的来源出版物学术影 响力因素的取值;将文献来源会议论文集的学术影响力通过线性变换映射为实数闭区 间上的来源出版物学术影响力因素的取值;将文献在引文数据库内的被引次数通过线 性变换映射为实数闭区间上的被引次数因素的取值;为每个文献引入一个年龄阻尼系 数因素;综合考虑以上四个因素,确定文献特征局部函数。

进一步地,确定因子图的局部函数中的文献间引用特征局部函数,包括:根据施 引文献与被引文献的相关性降序排序序号线性变换映射值,确定主题上引用因素的取 值;根据施引文献与被引文献的出版年份差进行线性变换后映射为实数闭区间上的出 版年份差因素的取值;综合考虑以上两个因素,确定因子图中文献间引用特征局部函 数。

进一步地,用获得的局部函数来确定因子图全局函数的因式分解,包括:使用马 尔可夫随机场中联合分布的计算方法来确定因子图全局函数被因式分解为局部函数 乘积的方法。

进一步地,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有 变量的边缘概率值,包括:在因子图的边上进行迭代式消息传递,直至迭代收敛或近 似收敛;找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定配置; 计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定配置下的边缘 概率值。

进一步地,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影 响力排序,包括:获得已确定的因子图变量集特定配置下的所有变量的边缘概率值, 将各边缘概率值进行降序排序;排序好的因子图变量所分别对应的全部主题文献构成 了主题文献的学术影响力排名榜,将其作为结果输出。

本发明提出的一种引文数据库中主题文献学术影响力的分析与排序方法,能够充 分利用现有引文数据库的主题检索功能来收集用户兴趣主题上的相关文献及多种学 术影响力因素数据,并利用因子图的概率建模与推理计算功能对诸多学术影响力因素 进行系统建模与科学分析,从而可以实现用户给定主题的文献学术影响力排序。

下文将对上述各步骤具体展开描述。为便于理解,如下表1中列出了各步骤统一 使用的主要数学符号及其含义:

表1:主要数学符号及其含义一览表

步骤S1,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引 用关系,具体包括:

步骤S1-1,在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结 果按主题相关性(topic relevance)降序排序,具体如下:

如图2所示,图中三个椭圆分别表示了不同范围的文献、文献间引用关系的集合, 包括:虚线椭圆表示的所有文献及其引用关系、细实线椭圆表示的引文数据库内文献 及其引用关系、粗实线椭圆表示的主题引文网络内文献及其引用关系。本发明的技术 方案仅需要粗实线椭圆表示的主题引文网络内文献及其引用关系,其中的文献(即主 题文献)来自主题检索的结果(图中d1,…,d7),其中的引用关系是主题文献之间的 引用关系(图中d2引用d1,d2引用d3,d2引用d4,d1引用d3,d5引用d6),而不需 要引文数据库中的非主题文献(图中d8,…,d11)以及主题文献与非主题文献之间的引 用关系(图中d8引用d1,d2引用d9,d7引用d11)和非主题文献之间的引用关系(d9引用d10)。引文数据库不对图中虚线表示的文献及文献间引用关系建立索引。

步骤S1-2,从检索结果中获取主题文献元数据信息及主题文献间引用关系,具体 包括:

(1)主题文献集{dn|n=1,…,N},其中,dn是任一主题文献的标识符,N是主 题文献总篇数;

(2)主题文献的主题相关性值(如果引文数据库向用户提供相关性值的话)或 相关性降序排序序号(如果引文数据库不向用户提供相关性值的话)构成的集合 {rn|n=1,…,N};

(3)主题文献的来源出版物(期刊或会议论文集)学术影响力构成的集合 {in|n=1,…,N};

(4)主题文献在引文数据库内的被引次数构成的集合{cn|n=1,…,N};

(5)主题文献出版年构成的集合{tn|n=1,…,N};

(6)主题文献间引用关系构成的集合{eij|i,j=1,…,N且di引用dj}。

步骤S2,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题 引文网络,具体包括:

步骤S2-1,基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向 边的有向无环图(directed acyclic graph),如图2(其中的粗轮廓线内部分)所示, 具体如下:

有向无环图G=(D,E),其中,D={dn|n=1,…,N}是主题文献集, E={eij|i,j=1,…,N且di引用dj}是主题文献间引用关系集,N是图中结点个数(即主题 文献总篇数)。

步骤S2-2,基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结 点标示的有向无环图即主题引文网络(topical citation network),具体如下:

主题引文网络是一个结点标示的(node-labeled)有向无环图Gl=(D,E,R,I,C,T), 标示信息如图3所示,其中,D={dn|n=1,…,N},E={enm|n,m=1,…,N且dn引用dm}, R={rn|n=1,…,N}是主题文献的主题相关性值或相关性降序排序序号, I={in|n=1,…,N}是主题文献的来源出版物(期刊或会议论文集)学术影响力, C={cn|n=1,…,N}是主题文献在引文数据库内的被引次数,T={tn|n=1,…,N}是主题 文献出版年,rn,in,cn,tn用于标示dn,n=1,…,N,N是图中结点个数(即主题文献总 篇数)。

步骤S3,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型, 如图4所示,具体包括:

步骤S3-1,确定因子图的变量集,具体如下:

为每篇主题文献定义一个隐含变量,即为标识全部主题文献的观察变量集 {dn|n=1,…,N}定义相应的隐含变量集{xn|xn=0或1,且n=1,…,N},作为因子图的变量 集,当xn=0时表示文献dn不是主题上的有学术影响力论文,当xn=1时表示文献dn是 主题上的有学术影响力论文。

步骤S3-2,确定定义在因子图变量集的子集上的局部函数,具体包括:

步骤S3-2-1,确定因子图的局部函数中的文献特征局部函数,具体如下:

由于文献与检索主题的相关性越高就越有可能在给定主题上具有较高学术影响 力,因此需要考虑文献的主题相关性因素。具体计算方法是,将主题文献的主题相关 性值(如果引文数据库向用户提供相关性值的话)或相关性降序排序序号(如果引文 数据库不向用户提供相关性值的话)r1,…,rN按公式(2)通过线性变换映射为实数闭区 间[αrr]上的取值称主题相关性因素,其中,常量αr和βr分别取信息检索 (information retrieval)领域的搜索引擎排序算法中相关性的最小值(也称阈值 (threshold))和最大值(如:αr=0.5,βr=0.8)。

由于文献来源出版物(包括期刊或会议论文集)的学术影响力可以在一定程度上 反映所刊发文献的(平均)学术影响力,因此需要考虑文献来源出版物影响力因素。 当前的引文数据库均提供了期刊学术影响力的评价指标,例如,WOS采用期刊影响 因子(impact factor),Google Scholar采用期刊的h5指数(h5-index),Scopus采用 SJR(SCImago Journal Rank)指标。对于学术会议,国际学术界针对不同学科领域提 供了会议学术影响力排名,例如,Microsoft Academic Search: http://academic.research.microsoft.com/和Academic Influence Ranking: http://137.189.97.151/。这样,我们就可以利用期刊学术影响力评价指标值和会议学术 影响力排名来衡量文献来源出版物学术影响力因素。具体计算方法是,首先,文献来 源期刊的学术影响力评价指标值im,m∈{1,…,N}(注:dm的来源出版物是期刊)按公 式(3a)通过线性变换映射为实数闭区间[αii]上的取值m∈{1,…,N},称来源出版 物学术影响力因素,其中,常量αi和βi应分别取变换映射后的最小值和最大值(如: αi=0.001,βi=1.0)。

式中:dm的来源出版物是期刊。

其次,文献来源会议论文集学术影响力排名ik,k∈{1,…,N}(注:dk的来源出版 物是会议论文集)按公式(3b)通过线性变换映射为实数闭区间[αii]上的取值 称来源出版物学术影响力因素,其中,常量αi和βi应分别取变换映 射后的最小值和最大值(如:αi=0.001,βi=1.0)。

式中:dk的来源出版物是会议论文集。

一篇文献的来源出版物要么是期刊,要么是会议论文集。当文献来源于期刊时, 来源出版物学术影响力因素按公式(3a)计算而得;当文献来源于会议论文集时,来源 出版物学术影响力因素按公式(3b)计算而得。这样,公式(3a)和(3b)的计算结果正好确 定了全部的即:且

由于文献被引次数是衡量文献学术影响力的常用指标,引文数据库都提供这种文 献评价指标,因此需要考虑文献在引文数据库内的被引次数因素。具体计算方法是, 将文献在引文数据库内的被引次数c1,…,cN按公式(4)通过线性变换映射为实数闭区间 [αcc]上的取值称被引次数因素,其中,常量αc和βc应分别取变换映射后 的最小值和最大值(如:αc=0.001,βc=1.0)。

由于发表年代久远的文献往往比新近发表的文献更有机会被别的文献引用,也就 是说,仅用文献被引次数来衡量其学术影响力对新近发表的文献很不“公平”,因此 需要为每个文献引入一个年龄阻尼系数(age damping factor)因素a1,…,aN,其计算 公式(5)如下:

an=exp(-agen/τ),n=1,…,N     (5)

式中:agen是文献dn已发表的年数,即主题检索的当年年份减去该文献的出版年 份tn;τ是衰变时间(decay time),通常根据不同学科领域或主题的不同技术发展(或 老化)速度取不同的常数,例如,计算机科学学科可以取τ=4,物理学科可以取τ=8, 文献计量学界有大量相应研究成果,可借鉴已有研究成果选取合适的τ值。

综合考虑以上四个因素,文献特征局部函数定义公式(6)如下:

式中:是归一化常数(normalization constant)。

步骤S3-2-2,确定因子图的局部函数中的文献间引用特征局部函数,具体如下:

由于对于主题引文网络中的每个文献引用关系,当施引文献与被引文献的主题相 关性差异较小且两篇文献的主题相关性均较大时,表明被引文献很可能是给定主题上 有影响力的文献,反之,当两篇文献的主题相关性差异较大或它们的主题相关性均较 小时,表明被引文献不太可能是给定主题上有影响力的文献,因此需要引入一个主题 上引用因素qnm,n,m∈{1,…,N},且enm∈E,其计算公式(7)如下:

由于对于主题引文网络中的每个文献引用关系,当施引文献与被引文献的出版年 份差较大时,表明被引文献的学术影响力较为持久,因此需要引入一个出版年份差因 素且enm∈E。具体计算方式是:对两篇文献的出版年份差 snm=tn-tm按公式(8)进行线性变换后映射为实数闭区间[αss]上的取值,称出版年份 差因素,其中,常量αs和βs分别取变换映射后的最小值和最大值(如:αs=0.001, βs=1.0)。

综合考虑以上两个因素,文献间引用特征局部函数定义公式(9)如下:

式中:是归一化常数。

步骤S3-3,用获得的局部函数来确定因子图全局函数的因式分解,具体如下:

本发明的因子图模型所表示的是一种称为马尔可夫随机场的概率图模型,因子图 的全局函数就是马尔可夫随机场中的联合分布(joint distribution)。根据马尔科夫随 机场中联合分布的计算方法,联合分布是图中所有最大团(maximal clique)上势函数 (potential function)相乘后进行归一化;而最大团上的势函数可定义为该团所包含的 全部局部函数的乘积。因此,因子图全局函数即联合分布p(x1,…,xN)的因式分解公式 (10)如下:

p(x1,...,xN)=1ΔΠn=1Nf(xn)ΠenmE,n,m{1,...,N}g(xn,xm)

式中:是归一化常数,亦称配分函数 (partition function);常数可看成是定义在变量空集上的一个局部函数。

步骤S4,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有 变量的边缘概率值,具体包括:

本发明的因子图是有环因子图,这种因子图上只能进行近似推理(approximate  inference),最适合使用循环最大和(loopy max-sum)推理算法。

因子图上进行循环最大和推理的计算任务是:在因子图的变量集配置空间 (configuration space)中找到全部变量(x1,…,xN)的一个特定配置,使得公式(10)所定 义的联合分布值达到最大,并计算此时因子图变量集中所有变量在所获得的特定配置 下的边缘概率值(marginal probability)。推理计算的步骤包括:

步骤S4-1,在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛,具 体如下:

首先,定义因子图中变量结点与因子结点之间的消息传递规则(message passing  rules):

从变量结点到因子结点的边上传递的消息由公式(11)及(12)定义:

μxnf(xn)=Σhne(xn)\{f}μhxn(xn),n{1,...,N}---(11)

式中:ne(xn)\{f}表示变量结点xn的相邻因子结点集去除因子f后的因子结点集;

μxng(xn)=Σhne(xn)\{g}μhxn(xn),n{1,...,N}---(12)

式中:ne(xn)\{g}表示变量结点xn的相邻因子结点集去除因子g后的因子结点集。

从因子结点到变量结点的边上传递的消息由公式(13)及(14)定义:

μfxn(xn)=lnf(xn),n{1,...,N}---(13)

μgxn(xn)=maxxmne(g)\{xn}[lng(xn,xm)+μxmg(xm)],n,m{1,...,N}---(14)

式中:ne(g)\{xn}表示因子结点g的相邻变量集去除变量xn后的变量集(对于本因子 图,只剩一个变量)。

从(变量或因子)叶子结点传递出的初始消息由公式(15)及(16)定义:

μxnf(xn)=0---(15)

μfxn(xn)=lnf(xn)---(16)

然后,按串行调度(serial schedule)方式迭代传递消息,选择因子图中的任一变 量结点xn作为根结点,利用公式(11)、(12)、(13)、(14)定义的消息传递规则,反复从 叶子结点到根结点进行消息传递,并按照公式(17)计算联合分布的最大值,直到前后 两次迭代过程中所有因子图边上传递的新旧消息差均小于事先设定的很小的收敛公 差(convergence tolerance)值为止(当新旧消息差均为0时,迭代收敛;否则,迭代 近似收敛)。

pmax=maxxn[Σhne(xn)μhxn(xn)],n{1,...,N}---(17)

步骤S4-2,找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定 配置,具体如下:

当推理算法(近似)收敛时,可得根结点xn在联合分布达到最大值pmax时的一个 特定配置如公式(18)所示:

xnmax=argmaxxn[Σhne(xn)μhxn(xn)],n{1,...,N}---(18)

式中:ne(xn)表示变量结点xn的所有相邻因子结点集。

当根结点xn的特定配置确定后,将公式(18)运用于因子图变量集中的剩余变量, 以确定它们在联合分布达到最大值pmax时的特定配置。

步骤S4-3,计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定 配置下的边缘概率值,具体如下:

对每个变量xn,将其所有相邻的因子结点最新传递到该变量上的所有消息进行相 乘,即可计算出该变量的边缘概率值,由公式(19)定义:

p(xn)=Πhne(xn)μhxn(xn),n=1,...,N---(19)

步骤S5,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影 响力排序,具体如下:

获得已确定的因子图变量集特定配置中所有xn=1,n∈{1,…,N}的变量边缘概率 值p(xn=1),将各边缘概率值进行降序排序;排序好的因子图变量所分别对应的全部 主题文献构成了主题文献的学术影响力排名榜,将其作为结果输出。

由于因子图方法具有可扩展性,因此因子数量可以根据实际需要进行增加或减 少。本发明实施例中提出的因子及其数量基本囊括了本领域目前涉及的主要因素,但 本发明实施例中的因子及其数量并不以此为限。

下文将以汤森路透集团(Thomson Reuters)的著名引文数据库Web of Science (WOS)为实例,以当前热门研究“大数据(big data)”为检索主题进行举例说明。 需说明是,本发明的技术方案同样也可用其他引文数据库(如Google Scholar、Elsevier  Scopus等)或其他用户兴趣主题来实施。

图1为本发明技术方案的流程图,具体实施步骤如下:

步骤S1,在引文数据库中进行主题检索,获取主题文献元数据信息及文献间引 用关系,具体包括:

步骤S1-1,在引文数据库中使用用户感兴趣的主题进行主题检索,并设置检索结 果按主题相关性降序排序,具体实施方式如下:

在引文数据库WOS的“基本检索”服务中设定检索范围为“主题”,在检索式 中输入“big data”(带引号)字符串,限制引文索引数据库为Science Citation Index  Expanded(SCI-EXPANDED)和Conference Proceedings Citation Index-Science (CPCI-S),限制时间跨度为“从1996至2013”,在检索结果设置中选择排序方式为 “相关性”。

步骤S1-2,从检索结果中获取主题文献元数据信息及主题文献间引用关系,具体 实施方式如下:

在以上检索结果中下载全部608篇文献的全记录与引用的参考文献(注:本实施 例的检索时间为北京时间2013年12月5日20:01),并保存为ISI格式的纯文本文件 作为检索结果集文件,加上引文数据库提供的其他必要信息以及其他必要的来源信息 (见下),可提取出如下信息:

(1)主题文献集:直接从检索结果集文件中提取;

(2)主题文献的相关性降序排序序号构成的集合:由于文献与检索主题的相关 性值不能直接从WOS检索结果中获得,因此需要手工从检索结果中获取文献的主题 相关性降序排序序号;

(3)主题文献的来源出版物(期刊或会议论文集)学术影响力构成的集合:从 检索结果集文件中获取文献的来源出版物名称与类型;若来源出版物类型为期刊,则 从WOS数据库提供的《期刊引证报告(Journal Citation Reports,JCR)》中获取相关 期刊的影响因子(Impact Factor)作为主题文献来源出版物的学术影响力(注:其他 引文数据库也提供了相应的期刊学术影响力的评价指标),若来源出版物类型为会议 论文集,则从Microsoft Academic Search(http://academic.research.microsoft.com/)提 供的计算机科学领域的3521个学术会议排名中获取相关会议的领域评价分(Field  Rating)作为主题文献来源出版物的学术影响力(注:其他评价系统也提供了各个学 科领域的会议学术影响力排名);

(4)主题文献在引文数据库内的被引次数构成的集合:直接从检索结果集文件 中提取;

(5)主题文献出版年构成的集合:直接从检索结果集文件中提取;

(6)主题文献间引用关系构成的集合:直接从检索结果集文件中提取。

步骤S2,根据获取的主题文献元数据信息及主题文献间引用关系构建一个主题 引文网络,具体包括:

步骤S2-1,基于主题文献间引用关系构建一个以文献为结点、文献间引用为有向 边的有向无环图,具体实施方式如下:

首先,将所保存的ISI格式纯文本文件导入到美国Indiana大学Katy团队 开发的Sci2工具(参见“Sci2Team:Science of Science(Sci2)Tool[EB/OL].Indiana  University and SciTech Strategies,http://sci2.cns.iu.edu,2009.”)中,生成一个以以上 608篇主题文献以及这些文献所引用的WOS数据库内的参考文献为结点、以结点文 献之间的引用关系为边的有向无环图;然后,再从该图中删除非主题文献结点以及主 题文献与非主题文献之间的引用关系,得到一个以608篇主题文献为结点,以这些文 献之间的97个引用关系为边的有向无环图(注:其他构建引文网络的类似软件工具 也可用于实施本步骤)。

步骤S2-2,基于主题文献元数据信息对有向无环图的结点进行标示,形成一个结 点标示的有向无环图即主题引文网络,具体实施方式如下:

用步骤S1-2获取的主题文献元数据信息及主题文献间引用关系对步骤S2-1构建 的有向无环图的结点进行标示(结点标示信息的示意见图2所示),形成“big data” 主题引文网络。

步骤S3,基于主题引文网络构建一个包含文献学术影响力多因素的因子图模型, 具体包括:

步骤S3-1,确定因子图的变量集,具体实施方式如下:

为步骤S2-2形成的主题引文网络中608篇主题文献结点定义相应的608个隐含 变量,作为因子图的变量集。

步骤S3-2,确定定义在因子图变量集的子集上的局部函数,具体包括:

步骤S3-2-1,确定因子图的局部函数中的文献特征局部函数,具体实施方式如下:

将文献的主题相关性降序排序序号按公式(2)通过线性变换映射为实数闭区间 [0.5,0.8]上的主题相关性因素的取值。

将文献来源期刊的学术影响力按公式(3a)通过线性变换映射为实数闭区间 [0.001,1.0]上的来源出版物学术影响力因素的取值;将文献来源会议论文集的学术影 响力按公式(3b)通过线性变换映射为实数闭区间[0.001,1.0]上的来源出版物学术影响 力因素的取值。

将文献在引文数据库WOS内的被引次数按公式(4)通过线性变换映射为实数闭区 间[0.001,1.0]上的被引次数因素的取值。

设置衰变时间τ=4,计算agen=2013-文献出版年份,n=1,…,608,按公式(5)计算 文献的年龄阻尼系数因素。

综合考虑以上四个因素,按公式(6)确定因子图中608个文献特征局部函数。

步骤S3-2-2,确定因子图的局部函数中的文献间引用特征局部函数,具体实施方 式如下:

根据施引文献与被引文献的相关性降序排序序号线性变换映射值,按公式(7)计算 主题上引用因素的取值。

根据施引文献与被引文献的出版年份差,按公式(8)计算出版年份差因素的取值。

综合考虑以上两个因素,按公式(9)确定因子图中97个文献间引用特征局部函数。

步骤S3-3,用获得的局部函数来确定因子图全局函数的因式分解,具体实施方式 如下:

按公式(10)确定联合分布即因子图全局函数的因式分解。

步骤S4,使用循环最大和算法在因子图上近似推理,确定因子图变量集中所有 变量的边缘概率值,具体包括:

本发明的因子图是有环因子图,使用循环最大和(loopy max-sum)算法进行近似 推理。因子图上近似推理及因子图变量的边缘概率值计算(即以下步骤S4-1、4-2、 4-3)可全部借助libDAI软件包(参见“Mooij J M:libDAI:A free and open source C++ library for discrete approximate inference in graphical models[J].The Journal of Machine  Learning Research,2010,11:2169–2173.”)来实现(注:其他能进行因子图上循环最 大和推理的软件包也可实施本步骤)。

步骤S4-1,在因子图的边上进行迭代式消息传递,直至迭代收敛或近似收敛,具 体实施方式如下:

首先,准备满足libDAI软件包格式的因子图文件输入,设置libDAI软件包中的 迭代传递消息方式为串行调度,迭代收敛公差为1E-9;然后,运行libDAI软件包中 的循环最大和近似推理模块。

该libDAI推理模块能根据已输入因子图文件自动按公式(15)、(16)进行消息初始 化,并按公式(11)、(12)、(13)、(14)定义的消息传递规则在因子图的边上进行迭代式 消息传递,同时按公式(17)计算联合分布的最大值,直至迭代收敛。

步骤S4-2,找到使得联合分布值达到最大时因子图变量集中所有变量的一个特定 配置,具体实施方式如下:

以上libDAI推理模块能自动按公式(18)找到使得联合分布值达到最大时因子图变 量集中所有变量的一个特定配置。

步骤S4-3,计算联合分布值达到最大时因子图变量集中所有变量在所获得的特定 配置下的边缘概率值,具体实施方式如下:

以上libDAI推理模块能自动按公式(19)计算联合分布值达到最大时因子图变量集 中所有变量在所获得的特定配置下的边缘概率值。

步骤S5,根据边缘概率值的降序排序结果,获取并输出所有主题文献的学术影 响力排序,具体实施方式如下:

从以上libDAI推理模块的运行结果中获得已确定的因子图变量集配置中取值为1 的所有变量的边缘概率值,将这些变量的边缘概率值进行降序排序;根据步骤S3-1 中定义的因子图变量与文献的对应关系以及步骤S1-2中获得的检索结果集文件,生 成“big data”主题文献的学术影响力排名榜,将其作为结果输出。表2为从输出结果 中选取的“big data”主题文献学术影响力排序前15的文献清单(限于篇幅,这里仅 给出排序位于前15位的文献)。

本实施例的输出结果表明,本发明的技术方案是可实施的;从表2给出的实施结 果中可看出,本发明的方法显著改进了WOS中仅以“被引次数”来衡量主题文献学 术影响力的不合理结果。

表2:产生的“big data”主题文献学术影响力排序(前15)

本发明充分利用了现有引文数据库提供的主题检索功能及检索结果,能方便有效 地收集用户兴趣主题上的相关科技文献、文献间引用关系、以及多种学术影响力因素 数据进行分析,从而提高了主题文献学术影响力的排序方法的有效性与实用性。进一 步地,本发明通过构建一种结点标示有向无环图的主题引文网络,并据此采用因子图 对文献的主题相关性、文献来源出版物学术影响力、文献被引次数、文献年龄阻尼系 数、施引文献与被引文献的主题相关性关系以及出版年份差等反映文献学术影响力的 诸多因素及其复杂关系进行综合建模,并发挥因子图简化概率建模及推理求解的优 势,从而增强了主题文献学术影响力排序结果的客观性与合理性。

本技术领域技术人员可以理解,本发明可以涉及用于执行本申请中所述操作中的 一项或多项操作的设备。所述设备可以为所需的目的而专门设计和制造,或者也可以 包括通用计算机中的已知设备,所述通用计算机有存储在其内的程序选择性地激活或 重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在 适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括 但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、随即存储 器(RAM)、只读存储器(ROM)、电可编程ROM、电可擦ROM(EPROM)、电 可擦除可编程ROM(EEPROM)、闪存、磁性卡片或光线卡片。可读介质包括用于 以由设备(例如,计算机)可读的形式存储或传输信息的任何机构。例如,可读介质 包括随即存储器(RAM)、只读存储器(ROM)、磁盘存储介质、光学存储介质、 闪存装置、以电的、光的、声的或其他的形式传播的信号(例如载波、红外信号、数 字信号)等。

本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或 框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。可以将 这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处 理器来生成机器,从而通过计算机或其他可编程数据处理方法的处理器来执行的指令 创建了用于实现结构图和/或框图和/或流图的框或多个框中指定的方法。

本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中 的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经 讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重 排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、 方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人 员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润 饰也应视为本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号