首页> 中文学位 >基于Hadoop的学术文献排名及作者影响力评价算法
【6h】

基于Hadoop的学术文献排名及作者影响力评价算法

代理获取

目录

第一章 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.2.1 Hadoop大数据平台研究现状

1.2.2 文献排名算法研究现状

1.2.3 作者影响力评价算法研究现状

1.3 本文的主要研究内容

1.4 论文组织结构

1.5 本章小结

第二章 相关技术与理论

2.1 Hadoop平台相关技术

2.1.1 Hadoop平台介绍

2.1.2 分布式文件系统HDFS

2.1.3 分布式计算框架MapReduce

2.1.4 资源协调系统Yarn

2.2 PageRank算法

2.2.1 PageRank算法思想

2.2.2 PageRank算法步骤

2.3 文献半衰期

2.3.1 文献半衰期定义

2.3.2 文献被引半衰期的计算方法

2.4 本章小结

第三章 文献排名算法

3.1 文献排名NTMP算法

3.1.1 问题定义

3.1.2 算法假设

3.1.3 时间因子影响函数

3.1.4 迭代过程优化方法

3.1.5 NTMP算法描述

3.2 实验数据集及环境配置

3.2.1 实验数据集

3.2.2 实验环境配置

3.3 实验结果及分析

3.3.1 算法性能比较

3.3.2 可扩展性度量

3.3.3 计算结果比较

3.4 本章小结

第四章 作者影响力评价算法

4.1 作者影响力MFAI算法

4.1.1 问题定义

4.1.2 合著关系影响因素

4.1.3 作者所著文献影响因素

4.1.4 作者所属机构影响因素

4.1.5 基于灰色关联分析的权重指标确定方法

4.1.6 MFAI算法描述

4.2 实验数据集及环境配置

4.2.1 实验数据集

4.2.2 实验环境及参数配置

4.3 实验结果分析

4.3.1 不同模型作者影响力排名比较

4.3.2 评价模型相关性分析

4.4 本章小结

第五章 总结与展望

5.1 研究总结

5.2 未来展望

参考文献

攻读硕士学位期间发表的论文和科研成果

作者简介

致谢

展开▼

摘要

随着科学技术的飞速发展,研究成果的产出量逐步提高,文献检索系统等电子媒介逐渐成为了学术成果的主要存储方式之一。面对海量电子文献数据,如何从中快速找到研究者们所需要的文献、作者信息,成为当前的一个亟待解决的问题。更准确的对文献进行排名、对学者的学术水平进行评价,可以减少普通研究者在进行文献、作者检索时所花费的代价,节省研究者的时间,使研究者快速了解某一领域内的研究重点、研究热点。传统的文献排名及作者影响力评价方法计算复杂度较高,难以处理海量文献数据。为了更合理的对海量学术数据中的文献进行排名、作者影响力进行评价,本文利用Hadoop云计算平台的数据处理能力,基于MapReduce计算框架对这两个问题进行了深入研究,主要工作包含以下两个方面:  (1)提出了一种文献排名NTMP(Notave-Timefactor-Mapeduce-Pagerank)算法。改进了传统PageRank算法在进行文献排名计算时忽略文献发表时间对价值的影响以及迭代次数过多的问题。该算法基于MapReduce计算框架构建,加入了时间因素对于文献价值排名的影响,优化了迭代过程中NTMP值的分配过程。实验表明NTMP算法,在评价结果上比传统PageRank算法更合理。在进行大规模数据集的计算时,所需要时间少于PageRank算法。  (2)基于NTMP算法并结合其他与作者影响力相关的特征,提出了一种多特征作者影响力评价算法MFAI(Multi Feature Author Influence)。该算法通过计算作者所著文献的价值、作者所属研究机构影响力、作者合作网络等特征,对作者影响力进行综合评价。为了避免主观因素在计算过程中对评价结果有不利影响,采用灰色关联分析法对各相关因素的权重进行求取。使用微软学术图作为数据集进行验证,实验表明在评价过程中,MFAI算法与H-index、作者被引次数等传统方法相比,可以更合理的对作者影响力进行综合评价。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号