首页> 中国专利> 基于PageRank和时间衰减的科技文献重要度评价方法

基于PageRank和时间衰减的科技文献重要度评价方法

摘要

本发明为基于PageRank和时间衰减的科技文献重要度评价方法,将与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科技文献的链接网络。基本思想:将与科技文献相关的会议/期刊—发表年份、发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根据得到的权威值进行加权处理对科技文献进行权威值排序,从而提高了计算科技文献权威值的可靠性与准确性,可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权威的科技文献。

著录项

  • 公开/公告号CN105740452A

    专利类型发明专利

  • 公开/公告日2016-07-06

    原文格式PDF

  • 申请/专利权人 北京工业大学;

    申请/专利号CN201610076847.7

  • 发明设计人 李玉鑑;张甫;

    申请日2016-02-03

  • 分类号G06F17/30;

  • 代理机构北京思海天达知识产权代理有限公司;

  • 代理人沈波

  • 地址 100124 北京市朝阳区平乐园100号

  • 入库时间 2023-06-19 00:02:20

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-01-17

    未缴年费专利权终止 IPC(主分类):G06F16/953 专利号:ZL2016100768477 申请日:20160203 授权公告日:20190419

    专利权的终止

  • 2019-04-19

    授权

    授权

  • 2016-08-03

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20160203

    实质审查的生效

  • 2016-07-06

    公开

    公开

说明书

技术领域

本发明属于数据挖掘领域,涉及一种基于PageRank和时间衰减的科技文献 重要度评价方法。

背景技术

随着数字化信息资源的迅速发展,大量的数字资源不断涌现,科技文献(科 技论文)作为科研成果的载体是科研人员重要的学习和参考资料。科技文献检索 系统是科研人员常用的文献检索工具,然而面对海量的科技文献资源,用户要获 取全面的、满意的科技文献变得更加困难。为了提供用户科技文献检索的满意度, 将系统返回的科技文献按重要度高低排序后显示给检索者是一个非常重要的问 题,这将改善检索服务质量。

PageRank算法最早是由搜索引擎公司Google提出的链接分析算法。PageRank 算法的核心思想是网页间PageRank权威值的传递与再分配,A网页发出指向B网 页的链接相当于A对B的重要性投了一票,B网页得到的票数(超链接)越多说明 其重要性得到了越多的网页认可。除此之外,PageRank算法还会考虑链入网页的 重要程序(权威值),也就是说,A网页的重要程度(权威值)越高,它对其他 网页投票(超链接)的权重就越高。

目前对科技文献重要度的评价方法通常是使用引文分析中的评价方法,即根 据文献的被引用次数来判断一篇科技文献重要度的高低。这种评价方法有明显的 缺点:没有考虑到不同引用之间的差异;没有考虑到科技文献年龄的影响;没有 考虑到期刊影响因子的影响;没有考虑到作者权威的影响。科技文献链接网络与 网页链接网络十分相似,它们都是由节点和节点间的链接组成,可以通过网络中 的现有的链接来分析节点的价值。将PageRank和时间衰减应用在科技文献重要 度评价方法中,引入引用科技文献次数、作者、发表会议/期刊等影响因子,构 建科技文献的网络链接,对文献质量进行评价,既能减少文献的检索数量,又能 满足用户对文献质量的要求,同时也能在一定程序上优化web信息搜索领域。

发明内容

本发明提供一种基于PageRank和时间衰减的科技文献重要度评价方法,将 与科技文献相关的引用科技文献、作者、发表会议/期刊等影响因子共同构建科 技文献的链接网络。

本发明方法的基本原理:本发明将与科技文献相关的会议/期刊—发表年份、 发表年份—科技文献、科技文献—科技文献、科技文献—作者的关系网络转换成 有向图,然后基于该有向图计算每个节点的PageRank值,对科技文献和科技文 献引用链接进行时间衰减处理,“引用”时间发生时间越近,权值越高,最后根 据得到的权威值进行加权处理对科技文献进行权威值排序。

一种基于PageRank和时间衰减的科技文献重要度评价方法,其特征在于包 括以下步骤:

步骤一:收集科技文献数据集,所述科技文献数据集包括科技文献的会议/ 期刊信息、发表年份信息、科技文献信息及作者信息。

步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科 技文献、科技文献—作者的邻接关系。

步骤三:基于PageRank和时间衰减的科技文献链接网络结构的定义:

定义基于PageRank和时间衰减的科技文献链接网络结构的有向图为 G<V,E>,V是节点(顶点)集,该网络中含有的节点有会议/期刊(Conference, 简称“c”)、发表年份(Year,简称“y”)、科技文献(Paper,简称“p”)、作者(Author, 简称“a”);E是边(弧)集,E={<v,w>|v,w∈V},<v,w>表示从v到w的一 条边(弧),代表节点之间的权威值传递方向及传递权威值的比例。会议/期刊与 发表年份之间的链接关系:<c,y>和<y,c>;发表年份与科技文献之间的链接关系: <y,p>和<p,y>;科技文献与科技文献之间的链接关系:<p,p>;科技文献与作者 之间的链接关系:<p,a>和<a,p>;

步骤四:连接数据库逐个打开数据库中的信息表,读出基本节点信息(节点 ID、节点名称、节点链接状况等),对于读取进来的每个数据元组的数据都需要 先进行判断,如果哈希表内已经存在其对应的节点,便直接将该元组的信息整合 进节点信息内,而如果不存在对应节点则创立新节点并存入内存中,按步骤三的 结构定义构建科技文献链接网络;

步骤五:根据构建的基于科技文献和时间衰减的链接网络,将PageRank公 式应用到科技文献链接网络的权威值计算中,前半部分表示节点的固有价值,后 半部分表示邻接节点传递给它的权威值。d表示衰减因子,0<d<1,一般可取值 为0.85,它决定了一个节点固有权威值和通过被转移获得的权威值所占的比重;

(1)PR(c)表示会议/期刊的权威值,计算公式如下所示:

PR(c)=(1-d)+d*ΣyByPR(y)N(y)*tyc---(1)

PR(y)表示发表年份的权威值,N(y)表示该发表年份对应的会议/期刊的总 数,By表示会议/期刊对应的发表年份集,tyc表示发表年份的权威值传递给会议 /期刊的转移比例,tyc表示发表年份的权威值传递给会议/期刊的转移比例, 0<tyc<1,一般可取值为0.3;

(2)PR(y)表示发表年份的权威值,计算公式如下所示:

PR(y)=(1-d)+d*(ΣcBcPR(c)N(c)*tcy+ΣpBpPR(p)*tpy)---(2)

PR(c)表示发表的会议/期刊的权威值,N(c)表示会议/期刊对应的发表年份 的总数,PR(p)表示科技文献p的权威值,Bc表示发表年份对应的会议/期刊集, Bp表示发表年份对应的科技文献集,tcy表示会议/期刊的权威值传递给发表年份 的转移比例,tpy表示科技文献的权威值传递给发表年份的转移比例,tpy表示科 技文献的权威值传递给发表年份的转移比例,0<tcy,tpy<1,tcy一般可取值为0.3, tpy一般可取值为0.1;

(3)PR(p)表示科技文献p的权威值,wvp表示科技文献v将自身的权威值 传递给被引文献p时的传递权重,其计算公式如下:

Wvp=1Xp+bΣp=1n1Xp+b---(3)

其中Xp是科技文献p被引用时的年龄,Xp=yv-yp+1,yv是科技文献v的 发表年份,yp是科技文献p的发表年份,n是科技文献v所引用的科技文献总数。 b是一个平滑因子,用于调整不同年龄的被引用科技文献获得的权重大小,使年 龄很小的被引用的科技文献不会获得过多的权值,对于老化快的文献,b应取较 小的值,对老化慢的科技文献,b应取较大的值,计算机类科技文献一般取b=5;

科技文献p的权威值PR(p)计算公式如下:

PR(p)=(1-d)+d*(PR(v)*Wvp+ΣaBaPR(a)N(a)*tap+ΣyByPR(y)N(y)*typ)---(4)

令p、v表示科技文献,PR(v)是科技文献v的权威值,其中科技文献v引用 了科技文献p,Bv是引用科技文献p的文献集,Ba是科技文献的作者集,By是科 技文献的发表年份集,tap表示作者的权威值传递给科技文献的转移比例,typ表 示发表年份传递给科技文献的转移比例,0<tap,typ<1,tap一般可取值为0.2,typ一般可取值为0.3;

(4)PR(a)表示作者的权威值,计算公式如下所示:

PR(a)=(1-d)+d*ΣpBpPR(p)N(p)*tpa---(5)

PR(p)表示科技文献p的权威值,N(p)表示科技文献对应的作者的总数,Bp表示作者对应的科技文献集,tpa表示科技文献的权威值传递给作者的转移比例, tpa表示科技文献的权威值传递给作者的转移比例,0<tpa<1,一般可取值为0.2;

(5)经过多次迭代之后,科技文献链接网络中节点的PR值趋近于固定值时 输出结果,即得到与科技文献相关的会议/期刊、发表年份、科技文献及作者的 PR值;

步骤六:综上一篇科技文献的权威值由会议/期刊、发表年份、科技文献及 作者的权威值加权计算的公式如下:

NR(u)=α*ΣaBaPR(a)+β*ΣvBpPR(p)+γ*PR(c)+δ*PR(y)---(6)

其中:α+β+χ+δ=1,α、β、χ、δ代表贡献给科技文献u的百分比, 0<α,β,χ,δ<1,一般α、β、χ、δ分别取值为0.4、0.3、0.2、0.1;其中PR(a)表 示作者的权威值,Ba表示科技文献p的作者总数,PR(p)表示科技文献p被引用 的参考文献的权威值,Bp表示科技文献p被引用的科技文献总数,PR(c)表示会 议/期刊的权威值,PR(y)表示发表年份的权威值;

步骤七:结果排序输出,将权威值排序,得到节点即科技文献的排序列表, 权威越大,表示该科技文献越权威。

本发明与现有技术相比,具有以下明显的优势和有益效果:

本发明应用PageRank和时间衰减构建科技文献的链接网络时引入了与科技 文献相关的四类节点:会议/期刊(Conference,简称“c”)、发表年份(Year,简 称“y”)、科技文献(Paper,简称“p”)、作者(Author,简称“a”),同时基于科技 文献的年龄进行权重分配,从而提高了计算科技文献权威值的可靠性与准确性, 可以使用户检索目标科技文献时,在搜索结果数量大的情况下迅速地找到最有权 威的科技文献。

附图说明

图1为本发明所涉及的科技文献节点构建的网络链接关系结构示意图。

图2为本发明提供的基于PageRank和时间衰减的科技文献链接网络的构建 流程图。

图3为本发明四类数据节点权威值转移比例示意图。

图4为本发明提供的基于PageRank和时间衰减的科技文献链接网络算法的 流程图。

具体实施方式

下面结合相关附图对本发明进行解释和阐述:

一种基于PageRank和时间衰减的科技文献重要度评价算法的流程图如附图 4所示,其特征在于包括以下步骤:

步骤一:收集科技文献数据集,包括科技文献的会议/期刊信息、发表年份 信息、科技文献信息及作者信息。

步骤二:构建会议/期刊—发表年份、发表年份—科技文献、科技文献—科 技文献、科技文献—作者的邻接关系。

步骤三:定义基于PageRank和时间衰减的科技文献链接网络结构。

步骤四:反复执行数据读取方法,从每个图表中读出基本节点信息(节点ID、 节点名称、节点链接状况等)生成基本节点图,按照附图2的步骤构建科技文献 链接网络。

步骤五:根据构建的基于PageRank和时间衰减的科技文献链接网络,采用 时间衰减的PageRank链接分析方法计算各个节点的权威值。

步骤六:对步骤五得到的四类节点的权威值进行加权处理。

步骤七:结果排序输出,将权威值(按公式计算得出)按照排序进行输出。

下面给出一个应用本发明对科技文献重要度进行计算的实例。

本发明采用的数据集是DBLP数据库,DBLP是计算机领域内对研究的成果 以作者为核心的一个计算机类英文文献的集成数据库系统按年代列出了作者的 科研成果,包括国际期刊和会议等公开发表的论文。选取的数据集如下表1所示: 包含了DBLP数据库中的1936年~2004年发表的论文,共有519931篇论文、

363329个引用链接、341623位作者。

表1实验数据集

发表年份 论文数量 引用链接 作者 1936年~2004年 519931篇 363329个 341623位

根据公式(4)计算科技文献重要度,输入题名为“DatabaseSupport”的查询, 从中选取10条记录的标题、得分情况及排名,如下表2所示:

表2基于PageRank算法的科技文献权威值

根据本发明基于时间衰减的方法计算科技文献重要度,输入题名为 “DatabaseSupport”的查询,从中选取10条记录的标题、得分情况及排名,如下 表3所示:

表3本方法基于PageRank和时间衰减的科技文献权威值

比较表2和表3会发现:科技文献的排名发生了变化,发表在1997年的科 技文献200750因为发表时间比较近,其排名由表2中的第9位上升至表3中的 5位。发表在1994年的科技文献123524因为发表时间比较近,其排名上升至表 3中的前2位。发表在1988年的科技文献111626因为发表时间较早,其排名由 表2中的第5位下降至表3中的第9位。

根据公式(1)计算出的会议/期刊的权威值,从中选取PR较高的10条记录, 如下表4所示:

表4本方法会议/期刊的权威值

在2014年计算机刊物SCI影响因子排名中,CognitiveScience影响因子1.38 排名135,IBMSystemsJournal影响因子0.48排名635,AustralianComputer Journal影响因子0.17排名951,AdvancesinComputers:0.52排名594,表明该 方法基本能反应会议/期刊的影响因子排序。

根据公式(5)计算出的作者的权威值,从中选取PR较高的10条记录,如 下表5所示:

表5本方法作者的权威值

作者ID 作者姓名 作者PR值 排名 538713 GrzegorzRozenberg 2.537 1 849791 Bill Hancock 2.261 2 546939 Micha Sharir 2.209 3 556395 Kang G.Shin 2.122 4 543130 Joseph Y.Halpern 2.076 5 543364 Hermann A.Maurer 2.01 6 570184 Sudhakar M.Reddy 1.983 7 835577 Diane Crawford 1.917 8 542206 Kurt Mehlhorn 1.913 9 571653 Christos H.Papadimitriou 1.867 10

作者GrzegorzRozenberg排名在第一位,该作者总共发表了294篇科技文献, 位居发表科技文献总数的第四位,作者SudhakarM.Reddy排名在第七位,该作 者总共发表了229篇科技文献,作者BillHancock排名在第二位,该作者总共发 表了161篇科技文献,因为作者BillHancock发表在了比较权威的期刊上,导致 排名发生了变化。

由实验结果可知,本发明实现的基于PageRank和时间衰减的科技文献重要 度评价方法,使得排名的变化更加符合用户的检索要求。由此可见在考虑了科技 文献的会议/期刊、发表年份、被引用科技文献的权威、作者及时间因素后,本 发明的评价算法更好的反应出科技文献的重要度,能够帮助用户在较短的时间内 找到最新的、最权威的研究成果。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号