首页> 中国专利> 一种基于时间序列的科技文献被引用数目预测方法

一种基于时间序列的科技文献被引用数目预测方法

摘要

本发明的一种基于时间序列的科技文献被引用数目预测方法,先统计科技文献的被引用数目,然后计算每个月份里文献的平均被引用数目;结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到被引用时间序列;根据时间序列进行聚类分析,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用预测最优模型得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。

著录项

  • 公开/公告号CN104462215A

    专利类型发明专利

  • 公开/公告日2015-03-25

    原文格式PDF

  • 申请/专利权人 大连理工大学;

    申请/专利号CN201410618173.X

  • 发明设计人 姚念民;李梦阳;谭国真;战福瑞;

    申请日2014-11-05

  • 分类号G06F17/30(20060101);

  • 代理机构21200 大连理工大学专利中心;

  • 代理人梅洪玉

  • 地址 116024 辽宁省大连市甘井子区凌工路2号

  • 入库时间 2023-12-18 09:04:05

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-07-11

    授权

    授权

  • 2015-04-22

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20141105

    实质审查的生效

  • 2015-03-25

    公开

    公开

说明书

技术领域

本发明属于计算机技术领域,涉及一种基于时间序列的科技文献被引用数目预测方法。

背景技术

被引用数目是指在一段指定的时间段内科技文献被其他文献引用的次数,是评估科技文献影响力和质量的重要方法。但被引用数目的统计易受到当前时间点的限制,很难获得未来时间段内的被引用情况,进而影响对科技文献在科技贡献力方面的评估。亟待提供一种基于时间序列的科技文献被引用数目预测方法,更快的识别有潜力的文献,促进科学研究和新知识的传播。

发明内容

本发明的目的在于提供一种基于时间序列的科技文献被引用数目预测方法,通过获取并分析科技文献的被引用时间序列,预测未来一段时间内的被引用数目,帮助评估文献的科技潜力,提供快速高效的阅读建议。

实现本发明目的技术方案:

步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。

步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount(month);

步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;

步骤4:根据被引用时间序列相似度对文献集合聚类,对每类中的时间序列建立多个回归模型,利用误差分析选出性能最优模型;

步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目。

步骤1中,利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及出版年月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用数目。

步骤4中,首先根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长度。对长度超过N的时间序列,要对超长部分进行截断。对长度低于N的时间序列,舍弃。N值由用户设定。

步骤4中,进行聚类分析时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树。

被引用时间序列Xi=(Xi1,Xi2,…Xi8):表示文献i的被引用时间序列向量值;

被引用时间序列Xj=(Xj1,Xj2,…Xj8):表示文献j的被引用时间序列向量值;

距离d(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离;

距离计算公式如下:

>d(Xi,Xj)=[Σk=18(Xik-Xjk)2]1/2>

通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。

类间距离Dpq:表示类别Gp,Gq之间的距离。其中Gp的元素个数为np,Gq的元素个数为nq.

元素间距离dij:表示时间序列i,j之间的距离。

类间距离计算公式如下:

>Dpq=1npnqΣiGpΣjGqdij>

通过聚类分析,将集合中的各个文献划分成不同的类。

步骤4中,对类中时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集。在训练集上建立模型,在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型。

步骤5中,对于两个文献p与文献pj,分别用(Xi1,Xi2,…Xi8)和(Xj1,Xj2,…Xj8)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,pj)的计算公式如下:

>Similarity(p,pj)=cosθ=ΣkXik×Xjk(ΣkXik2)(ΣkXjk2)>

通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。

计算待测文献与各类文献时间序列的相似度的公式如下:

>Similarity(p,Ci)=1n×[Σj=1nSimilarity(p,pj)]>

Similarity(p,Ci)表示待测文献p与Ci类文献时间序列的相似度值;

Similarity(p,pj)表示待测文献p与文献pj的时间序列的相似度值,由余弦夹角函数求得。文献pj∈Ci类,j=1,2,…,n(n表示Ci类中文献的总个数)。

本发明具有的有益效果:

本发明利用数据库统计科技文献出版时间及出版后每个月份的被引用数目;在数据预处理阶段,计算每个月份里所有文献被引用的数目之和以及被引用的文献总数,相除获得该月份的平均被引用数目;对于每个文献,自出版当月起,结合每个月的平均被引用数目对该月份的被引用数目做归一化处理,得到该文献的被引用时间序列;根据被引用时间序列的相关度对文献集合进行聚类分析,在每个类中,通过划分训练集和验证集、构建回归模型、进行误差分析,得到被引用数目预测性能最优模型;最后根据待测文献与各类文献时间序列的相似度分析,得到相似度最高的类,用该类的预测最优模型进行计算,得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况,获得每个月份的平均被引用数目,还通过聚类挖掘出文献的不同引用模式,进而根据待测文献的已有时间序列预测出未来的被引用数目。

本发明在数据预处理阶段即步骤2中计算得出各个月份的平均被引用数目,在构建每个文献的被引用时间序列时,使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值,能够有效消减因季节性学术活跃度差异而对预测造成的误差,提高预测准确率。在步骤4中通过被引用时间序列聚类分析和回归模型的建立,能够充分挖掘出文献的不同被引用模式,在误差分析获得最优模型后,将训练集和验证集再度合并并重新运行最优模型,能够在预测中充分应用到最新数据,有效提高预测模型的精确度。

具体实施方式:

步骤1:收集各文献出版年月及索引列表,统计各文献在出版后各月被引用的数目。

利用数据库检索各文献的索引列表,根据数据库中每个文献的标号及出版年月,统计文献被引用的具体时间和次数,获取每个文献出版后每个月份的被引用数目。

遍历集合中的每个文献,读取出版时间(time)及索引列表中的引文标号(refid1,refid2,…,refidn)。对每个引文标号refidi,统计自出版后每个月内引用refidi的文献个数即为该月份的被引用数目。

步骤2:以月份为单位,计算每月所有要分析的文献被引用的总数及被引用的文献总数,相除得该月份平均被引用数目avecitecount;

平均被引用数目Avecitecount(month):表示在month月内的平均被引用数目值。

月被引用数目Citecount(Pi,month)(Pi∈N)(N表示在month月被引用的文献集合):表示文献Pi在month月的被引用数目值。

月平均被引用数目计算公式如下所示:

>Avecitecount(month)=1n×[Σi=1nCitecount(Pi,mounth)]>

通过月平均被引用数目计算公式可得到相应月份的平均被引用数目,在构建每个文献的时间序列时,使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值,能够有效消减因季节性学术活跃度差异而对预测造成的误差。

步骤3:对每个文献,自出版当月起,计算此后每月的被引用数目与avecitecount(month)的差,得到该文献的被引用时间序列;

步骤4:根据被引用时间序列相似度对文献集合聚类,对每类中的时间序列建立多个回归模型,利用误差分析选出性能最优模型;

首先,根据被引用时间序列对参与聚类的文献进行筛选,筛选的依据是时间序列的长度。对长度超过N的时间序列,要对超长部分进行截断。对长度低于N的时间序列,舍弃。N值由用户设定。本实验中N=8。

进行聚类分析时,首先计算各被引用时间序列的距离,距离计算采用欧几里得距离,然后使用未加权平均距离法生成聚类树。

被引用时间序列Xi=(Xi1,Xi2,…Xi8):表示文献i的被引用时间序列向量值;

被引用时间序列Xj=(Xj1,Xj2,…Xj8):表示文献j的被引用时间序列向量值;

距离d(Xi,Xj):表示文献i和j的被引用时间序列的欧几里得距离;

距离计算公式如下:

>d(Xi,Xj)=[Σk=18(Xik-Xjk)2]1/2>

通过计算被引用时间序列之间的距离,得到一个距离矩阵。根据谱聚类方法,使用未加权平均距离法生成聚类树。

类间距离Dpq:表示类别Gp,Gq之间的距离。其中Gp的元素个数为np,Gq的元素个数为nq.

元素间距离dij:表示时间序列i,j之间的距离。

类间距离计算公式如下:

>Dpq=1npnqΣiGpΣjGqdij>

通过聚类分析,将集合中的各个文献划分成不同的类。然后对类中的时间序列构建多个回归模型。本实验中构建了线性趋势模型,指数趋势模型和多项式趋势模型。

设某个月被引用数目为输出变量Yt,预测变量为月份t(t=1,2,3,…),则线性趋势模型为:

Yt=β01×t+ε

其中Yt是月份t内的被引用数目,β0,β1,ε分别对应时间序列的水平、趋势和噪声。

指数趋势模型为:

log Yt=β01×t+ε

二次多项式趋势模型为:

Yt=β01×t+β2×t2

在对类中的时间序列构建回归模型时,首先划分训练集和验证集,选中时间序列中的一个时间点t,把该时间点以前的数据作为训练集,该时间点以后的数据作为验证集。在训练集上建立模型,在验证集上评估模型准确性。评估时使用均方根误差RMSE作为评估指标。

均方根误差计算公式为:

>RMSE=1vΣt=1vet2>

其中,et表示时间t的真实值与预测值的差值,v表示验证集的时间段数目。

最后将训练集和验证集数据合并为一个数据集,并在该数据集上运行在训练集上得到的最优预测模型。

步骤5:利用向量相似度计算待测文献与各类文献时间序列的相似度,用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目。

对于两个文献p与文献pj,分别用(Xi1,Xi2,…Xi8)和(Xj1,Xj2,…Xj8)表示对应的时间序列向量值,则文献间时间序列相似度Similarity(p,pj)的计算公式如下:

>Similarity(p,pj)=cosθ=ΣkXik×Xjk(ΣkXik2)(ΣkXjk2)>

通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。

计算待测文献与各类文献时间序列的相似度的公式如下:

>Similarity(p,Ci)=1n×[Σj=1nSimilarity(p,pj)]>

Similarity(p,Ci)表示待测文献p与Ci类文献时间序列的相似度值;

Similarity(p,pj)表示待测文献p与文献pj的时间序列的相似度值。文献pj∈Ci类,j=1,2,…,n(n表示Ci类中文献的总个数)。

筛选出相似度最高的类后,将待测文献已有的时间序列作为输入变量,使用该类的回归模型即可预测出该文献未来的被引用数目。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号