首页> 中文学位 >HITS算法在文本聚类结果特征提取中的应用
【6h】

HITS算法在文本聚类结果特征提取中的应用

代理获取

目录

文摘

英文文摘

英文缩略语

论文 HITS算法在文本聚类结果特征提取中的应用

前言

资料与方法

结果

讨论

结论

本研究创新性自我评价

参考文献

综述 算法用于文本聚类结果特征提取的研究进展

参考文献

在学期间科研成绩

致谢

个人简介

展开▼

摘要

目的:
   本次研究基于HITS(Hypertext-Induced Topic Search)算法,对高被引论文进行同被引聚类分析,提取出聚类结果中每一类的特征词,客观的描述聚类分析结果。开发出能够自动提取关键词的程序,排除分析者的阅读能力、理解能力和归纳能力等主观性,不受所研究的文本量大小的限制,使科研人员更准确更容易的分析聚类结果,为进一步做研究服务。
   材料与方法:
   从SCI-CDROM检索1992-2002年与外伤性脊髓损伤治疗(treatment oftraumatic spinal cord injury)有关的文献,并套录每篇文献的引文。采用书目信息共现挖掘系统(Bibliographic Item Co-Occurrence Matrix Builder, BICOMB)处理引文数据,截取被引次数超过某一阈值的论文,处理得到这些论文的同被引矩阵。导入到SPSS11.5 for Windows进行聚类分析。通过PUBMED分别检索每一类中文献的摘要信息。对摘要中的词汇进行预处理,截词根,去停词。依据TFIDF算法为每个词赋予其在每一类论文集的权重。基于HITS算法提取关键词。然后将算法提取的关键词和PUBMED标引的主题词分别与对照论文相比较。
   结果:
   检索得到219条文献,5320篇引文。得到70篇高频引文,分成四类。通过java程序,JDK版本是JDK1.6_14,web框架是struts1.2开发出关键词提取程序。对于每一类,算法提取的关键词和PUBMED标引的主题词的准确率分别为:30%,40%;50%,50%;10%,20%;20%,0。对于算法提取出的关键词,每一类中的词与其它类中的词均不相同。这说明,HITS算法提取出的词能够区分各类别的特点。而对于PUBMED标引的关键词,除了第三类能够代表该类以外,另外三类都不能与其它两类更好的区分开。
   结论:
   HITS算法用于聚类结果的特征提取是可以实现的,并且能有效的发现关键词,提取出聚类结果中每一类的特征词,客观的描述聚类分析结果。使科研人员更准确更容易的分析聚类结果,为进一步做研究服务。
   关键词 HITS算法;关键词提取;同被引聚类分析;聚类树图

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号