首页> 中文学位 >基于共引的科技文献聚类算法的研究与应用
【6h】

基于共引的科技文献聚类算法的研究与应用

代理获取

目录

声明

第1章 绪论

1.1 研究背景

1.2 研究现状

1.3 研究目的与意义

1.4 研究内容及章节安排

第2章 相关理论基础

2.1 共引分析的理论与方法

2.2 文本聚类的理论与方法

2.3 共引聚类的应用领域

2.4 本章小结

第3章 基于共引的聚类算法

3.1 共引分析

3.2 文本信息向量化

3.3 文本相似度计算

3.4 聚类算法分析

3.5 实验结果与分析

3.6 本章小结

第4章 文献推荐系统设计与实现

4.1 需求分析

4.2 系统设计

4.3 系统实现

4.4 本章小结

第5章 结论与展望

5.1 总结

5.2 今后工作展望

参考文献

展开▼

摘要

近年来,各类科技文献著作在数量上呈现迅猛增长的态势,如何在大量文献中找到重要的目标文献、挖掘文献潜在的价值是一个难题,因此数据挖掘相关技术在科技文献领域的研究和应用成为了重要的研究方向。共引关系即文献间共同被引用的关系,体现了科技文献内容上的相关性及知识的传递,共引与传统文本聚类算法相结合对科技文献进行研究,将有助于提高聚类准确性,帮助科研工作者提高文献检索效率。
  本文将对文献共引原理做全面、深入地研究,对文献进行共引分析得到共引度矩阵。在做文本预处理过程中,结合共引度对文献的特征项提取和文献相似度计算方法进行改进,最后用K-Means与谱聚类两种聚类算法对处理后的文献做聚类分析,实验验证改进后的算法一定程度上提高了聚类准确性,能够帮助用户更有效的检索和筛选文献。主要工作如下:
  1、在选取文献特征项时,从文献的标题、摘要与关键词中提取基本特征词,结合共引信息对特征词的重要性评分上进行加权,选取得分最高的词项作为最终的特性项;在计算文献间的相似度时,基于向量夹角余弦相似度计算方法上引入共引度的加权,将改进后的相似度运用到聚类算法中。
  2、使用K-Means聚类算法与基于N-Cut分割准则的谱聚类算法做聚类计算,进行多组实验对原算法与改进后的算法对比分析,选取由准确率与召回率构成的F-Measure值作为评价指标来证明改进后算法的可靠性。
  3、基于Visual Studio2012平台开发一款科技文献推荐系统软件,使用改进后的算法,实现文献检索与管理、引文分析、聚类分析,以及文献推荐等功能。
  最后,总结了全文所做的研究内容,分析目前存在的局限点,并展望了后续进一步的研究。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号