首页> 中国专利> 一种基于时间序列的科技文献被引用数目预测方法

一种基于时间序列的科技文献被引用数目预测方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明的一种基于时间序列的科技文献被引用数目预测方法，先统计科技文献的被引用数目，然后计算每个月份里文献的平均被引用数目；结合每个月的平均被引用数目对该月份的被引用数目做归一化处理，得到被引用时间序列；根据时间序列进行聚类分析，通过划分训练集和验证集、构建回归模型、进行误差分析，得到被引用数目预测性能最优模型；最后根据待测文献与各类文献时间序列的相似度分析，得到相似度最高的类，用预测最优模型得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况，获得每个月份的平均被引用数目，还通过聚类挖掘出文献的不同引用模式，进而根据待测文献的已有时间序列预测出未来的被引用数目。

著录项

公开/公告号CN104462215A

专利类型发明专利
公开/公告日2015-03-25

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN201410618173.X
发明设计人姚念民;李梦阳;谭国真;战福瑞;
展开▼

申请日2014-11-05
分类号G06F17/30(20060101);
代理机构21200 大连理工大学专利中心;
代理人梅洪玉
地址 116024 辽宁省大连市甘井子区凌工路2号
入库时间 2023-12-18 09:04:05

法律信息

法律状态公告日

法律状态信息

法律状态
2017-07-11

授权

授权
2015-04-22

实质审查的生效 IPC(主分类):G06F17/30 申请日:20141105

实质审查的生效
2015-03-25

公开

公开

说明书

技术领域

本发明属于计算机技术领域，涉及一种基于时间序列的科技文献被引用数目预测方法。

背景技术

被引用数目是指在一段指定的时间段内科技文献被其他文献引用的次数，是评估科技文献影响力和质量的重要方法。但被引用数目的统计易受到当前时间点的限制，很难获得未来时间段内的被引用情况，进而影响对科技文献在科技贡献力方面的评估。亟待提供一种基于时间序列的科技文献被引用数目预测方法，更快的识别有潜力的文献，促进科学研究和新知识的传播。

发明内容

本发明的目的在于提供一种基于时间序列的科技文献被引用数目预测方法，通过获取并分析科技文献的被引用时间序列，预测未来一段时间内的被引用数目，帮助评估文献的科技潜力，提供快速高效的阅读建议。

实现本发明目的技术方案：

步骤1：收集各文献出版年月及索引列表，统计各文献在出版后各月被引用的数目。

步骤2：以月份为单位，计算每月所有要分析的文献被引用的总数及被引用的文献总数，相除得该月份平均被引用数目avecitecount(month)；

步骤3：对每个文献，自出版当月起，计算此后每月的被引用数目与avecitecount(month)的差，得到该文献的被引用时间序列；

步骤4：根据被引用时间序列相似度对文献集合聚类，对每类中的时间序列建立多个回归模型，利用误差分析选出性能最优模型；

步骤5：利用向量相似度计算待测文献与各类文献时间序列的相似度，用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目。

步骤1中，利用数据库检索各文献的索引列表，根据数据库中每个文献的标号及出版年月，统计文献被引用的具体时间和次数，获取每个文献出版后每个月份的被引用数目。

步骤4中，首先根据被引用时间序列对参与聚类的文献进行筛选，筛选的依据是时间序列的长度。对长度超过N的时间序列，要对超长部分进行截断。对长度低于N的时间序列，舍弃。N值由用户设定。

步骤4中，进行聚类分析时，首先计算各被引用时间序列的距离，距离计算采用欧几里得距离，然后使用未加权平均距离法生成聚类树。

被引用时间序列X_i＝(X_i1,X_i2,…X_i8)：表示文献i的被引用时间序列向量值；

被引用时间序列X_j＝(X_j1,X_j2,…X_j8)：表示文献j的被引用时间序列向量值；

距离d(X_i,X_j)：表示文献i和j的被引用时间序列的欧几里得距离；

距离计算公式如下：

$> d (X_{i}, X_{j}) = {[Σ_{k = 1}^{8} {(X_{ik} - X_{jk})}^{2}]}^{1 / 2}$ >

通过计算被引用时间序列之间的距离，得到一个距离矩阵。根据谱聚类方法，使用未加权平均距离法生成聚类树。

类间距离D_pq：表示类别G_p,G_q之间的距离。其中G_p的元素个数为n_p,G_q的元素个数为n_q.

元素间距离d_ij：表示时间序列i,j之间的距离。

类间距离计算公式如下：

$> D_{pq} = \frac{1}{n_{p} n_{q}} \underset{i \in G_{p}}{Σ} \underset{j \in G_{q}}{Σ} d_{ij}$ >

通过聚类分析，将集合中的各个文献划分成不同的类。

步骤4中，对类中时间序列构建回归模型时，首先划分训练集和验证集，选中时间序列中的一个时间点，把该时间点以前的数据作为训练集，该时间点以后的数据作为验证集。在训练集上建立模型，在验证集上评估模型准确性。最后将训练集和验证集数据合并为一个数据集，并在该数据集上运行在训练集上得到的最优预测模型。

步骤5中，对于两个文献p与文献p_j，分别用(X_i1,X_i2,…X_i8)和(X_j1,X_j2,…X_j8)表示对应的时间序列向量值，则文献间时间序列相似度Similarity(p，p_j)的计算公式如下：

$> Similarity (p, p_{j}) = \cos θ = \frac{Σ_{k} X_{ik} \times X_{jk}}{\sqrt{(Σ_{k} {X_{ik}}^{2}) (Σ_{k} {X_{jk}}^{2})}}$ >

通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。

计算待测文献与各类文献时间序列的相似度的公式如下：

$> Similarity (p, C_{i}) = \frac{1}{n} \times [Σ_{j = 1}^{n} Similarity (p, p_{j})]$ >

Similarity(p，C_i)表示待测文献p与C_i类文献时间序列的相似度值；

Similarity(p，p_j)表示待测文献p与文献p_j的时间序列的相似度值，由余弦夹角函数求得。文献p_j∈C_i类，j＝1,2,…,n(n表示C_i类中文献的总个数)。

本发明具有的有益效果：

本发明利用数据库统计科技文献出版时间及出版后每个月份的被引用数目；在数据预处理阶段，计算每个月份里所有文献被引用的数目之和以及被引用的文献总数，相除获得该月份的平均被引用数目；对于每个文献，自出版当月起，结合每个月的平均被引用数目对该月份的被引用数目做归一化处理，得到该文献的被引用时间序列；根据被引用时间序列的相关度对文献集合进行聚类分析，在每个类中，通过划分训练集和验证集、构建回归模型、进行误差分析，得到被引用数目预测性能最优模型；最后根据待测文献与各类文献时间序列的相似度分析，得到相似度最高的类，用该类的预测最优模型进行计算，得到待测文献未来一个月的被引用数目。本发明不但能够自动分析每个文献出版后的被引用情况，获得每个月份的平均被引用数目，还通过聚类挖掘出文献的不同引用模式，进而根据待测文献的已有时间序列预测出未来的被引用数目。

本发明在数据预处理阶段即步骤2中计算得出各个月份的平均被引用数目，在构建每个文献的被引用时间序列时，使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值，能够有效消减因季节性学术活跃度差异而对预测造成的误差，提高预测准确率。在步骤4中通过被引用时间序列聚类分析和回归模型的建立，能够充分挖掘出文献的不同被引用模式，在误差分析获得最优模型后，将训练集和验证集再度合并并重新运行最优模型，能够在预测中充分应用到最新数据，有效提高预测模型的精确度。

具体实施方式：

步骤1：收集各文献出版年月及索引列表，统计各文献在出版后各月被引用的数目。

利用数据库检索各文献的索引列表，根据数据库中每个文献的标号及出版年月，统计文献被引用的具体时间和次数，获取每个文献出版后每个月份的被引用数目。

遍历集合中的每个文献，读取出版时间(time)及索引列表中的引文标号(refid₁，refid₂,…,refid_n)。对每个引文标号refid_i，统计自出版后每个月内引用refid_i的文献个数即为该月份的被引用数目。

步骤2：以月份为单位，计算每月所有要分析的文献被引用的总数及被引用的文献总数，相除得该月份平均被引用数目avecitecount；

平均被引用数目Avecitecount(month)：表示在month月内的平均被引用数目值。

月被引用数目Citecount(P_i，month)(P_i∈N)(N表示在month月被引用的文献集合)：表示文献P_i在month月的被引用数目值。

月平均被引用数目计算公式如下所示：

$> Avecitecount (month) = \frac{1}{n} \times [Σ_{i = 1}^{n} Citecount (P_{i}, mounth)]$ >

通过月平均被引用数目计算公式可得到相应月份的平均被引用数目，在构建每个文献的时间序列时，使用相应月份的被引用数目与平均被引用数目的差值作为该月份的实际值，能够有效消减因季节性学术活跃度差异而对预测造成的误差。

步骤3：对每个文献，自出版当月起，计算此后每月的被引用数目与avecitecount(month)的差，得到该文献的被引用时间序列；

步骤4：根据被引用时间序列相似度对文献集合聚类，对每类中的时间序列建立多个回归模型，利用误差分析选出性能最优模型；

首先，根据被引用时间序列对参与聚类的文献进行筛选，筛选的依据是时间序列的长度。对长度超过N的时间序列，要对超长部分进行截断。对长度低于N的时间序列，舍弃。N值由用户设定。本实验中N＝8。

进行聚类分析时，首先计算各被引用时间序列的距离，距离计算采用欧几里得距离，然后使用未加权平均距离法生成聚类树。

被引用时间序列X_i＝(X_i1,X_i2,…X_i8)：表示文献i的被引用时间序列向量值；

被引用时间序列X_j＝(X_j1,X_j2,…X_j8)：表示文献j的被引用时间序列向量值；

距离d(X_i,X_j)：表示文献i和j的被引用时间序列的欧几里得距离；

距离计算公式如下：

$> d (X_{i}, X_{j}) = {[Σ_{k = 1}^{8} {(X_{ik} - X_{jk})}^{2}]}^{1 / 2}$ >

通过计算被引用时间序列之间的距离，得到一个距离矩阵。根据谱聚类方法，使用未加权平均距离法生成聚类树。

类间距离D_pq：表示类别G_p,G_q之间的距离。其中G_p的元素个数为n_p,G_q的元素个数为n_q.

元素间距离d_ij：表示时间序列i,j之间的距离。

类间距离计算公式如下：

$> D_{pq} = \frac{1}{n_{p} n_{q}} \underset{i \in G_{p}}{Σ} \underset{j \in G_{q}}{Σ} d_{ij}$ >

通过聚类分析，将集合中的各个文献划分成不同的类。然后对类中的时间序列构建多个回归模型。本实验中构建了线性趋势模型，指数趋势模型和多项式趋势模型。

设某个月被引用数目为输出变量Y_t，预测变量为月份t(t＝1,2,3,…)，则线性趋势模型为：

Y_t＝β₀+β₁×t+ε

其中Y_t是月份t内的被引用数目，β₀，β₁，ε分别对应时间序列的水平、趋势和噪声。

指数趋势模型为：

log Y_t＝β₀+β₁×t+ε

二次多项式趋势模型为：

Y_t＝β₀+β₁×t+β₂×t²+ε

在对类中的时间序列构建回归模型时，首先划分训练集和验证集，选中时间序列中的一个时间点t，把该时间点以前的数据作为训练集，该时间点以后的数据作为验证集。在训练集上建立模型，在验证集上评估模型准确性。评估时使用均方根误差RMSE作为评估指标。

均方根误差计算公式为：

$> RMSE = \sqrt{\frac{1}{v} Σ_{t = 1}^{v} {e_{t}}^{2}}$ >

其中，e_t表示时间t的真实值与预测值的差值，v表示验证集的时间段数目。

最后将训练集和验证集数据合并为一个数据集，并在该数据集上运行在训练集上得到的最优预测模型。

步骤5：利用向量相似度计算待测文献与各类文献时间序列的相似度，用相似度最高的类的回归模型计算待测文献未来一个月的被引用数目。

对于两个文献p与文献p_j，分别用(X_i1,X_i2,…X_i8)和(X_j1,X_j2,…X_j8)表示对应的时间序列向量值，则文献间时间序列相似度Similarity(p，p_j)的计算公式如下：

$> Similarity (p, p_{j}) = \cos θ = \frac{Σ_{k} X_{ik} \times X_{jk}}{\sqrt{(Σ_{k} {X_{ik}}^{2}) (Σ_{k} {X_{jk}}^{2})}}$ >

通过文献间时间序列相似度可进而计算出测文献与各类文献时间序列的相似度。

计算待测文献与各类文献时间序列的相似度的公式如下：

$> Similarity (p, C_{i}) = \frac{1}{n} \times [Σ_{j = 1}^{n} Similarity (p, p_{j})]$ >

Similarity(p，C_i)表示待测文献p与C_i类文献时间序列的相似度值；

Similarity(p，p_j)表示待测文献p与文献p_j的时间序列的相似度值。文献p_j∈C_i类，j＝1,2,…,n(n表示C_i类中文献的总个数)。

筛选出相似度最高的类后，将待测文献已有的时间序列作为输入变量，使用该类的回归模型即可预测出该文献未来的被引用数目。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于时间序列的科技文献被引用数目预测方法 [P] . 中国专利： CN104462215B . 2017.07.11
2. 一种基于时间序列的科技文献被引用数目预测方法 [P] . 中国专利： CN104462215A . 2015-03-25
3. Fish counting device, fish counting method, fish number prediction device, fish number prediction method, fish counting system and fish number prediction system [P] . 日本专利： JP6624629B2 . 2019-12-25

机译：鱼的计数装置，鱼的计数方法，鱼的数目预测装置，鱼的数目预测方法，鱼的计数系统和鱼的数目预测系统
4. Method of numerical times series prediction based on non-numerical time series [P] . 美国专利： US6532449B1 . 2003-03-11

机译：基于非数值时间序列的数值时间序列预测方法
5. This application system cross-reference with the relevant application and how to generate a 3D audio by up-mix audio, priority of United States Provisional Patent Application No. 61 / 476,395 filed on April 18, 2011 It is intended to assert. This document reference incorporated herein in its entirety. [P] . 日本专利： JP2014515906A . 2014-07-03

机译：本申请系统[与相关申请交叉引用]以及如何通过上混合音频来生成3D音频，2011年4月18日提交的美国临时专利申请No.61 / 476,395的优先权。该文献参考文献全文并入本文。