首页> 中文学位 >基于科学文献的数字图书馆中文本聚类的研究
【6h】

基于科学文献的数字图书馆中文本聚类的研究

代理获取

目录

文摘

英文文摘

论文说明:插图目录、表格目录

中国科学技术大学学位论文相关声明

第一章绪论

§1.1课题背景和研究意义

§1.2与文本分类的区别

§1.3本课题解决的问题

§1.4本文结构

第二章文本聚类技术介绍

§2.1聚类分析

§2.2聚类任务的组成

§2.3文本聚类的关键技术探讨

§2.3.1文本表示

§2.3.2特征提取

§2.3.3特征空间的降维

§2.3.4相似性度量

§2.3.5聚类方法

§2.4本章小结

第三章关键短语的提取

§3.1短语的意义

§3.2文本预处理

§3.2.1 N-Gram模型

§3.2.2分词

§3.2.3停用词过滤

§3.2.4 Stemming

§3.3关键短语的评价属性集

§3.4关键短语属性值计算和排列

§3.5实验评估

§3.5.1属性比较

§3.5.2学习方法比较

§3.5.3输入文档数分析

§3.5.4时间复杂度分析

§3.6本章小结

第四章基于模糊聚类的科学文献检索结果分类研究

§4.1科学文献聚类研究的现状

§4.2科学文献聚类系统模型

§4.2.1网络爬虫

§4.2.2信息提取

§4.2.3文本预处理和特征提取

§4.3权重评价

§4.4引入模糊C均值聚类

§4.5基于主题子空间的模糊C均值聚类(TS2FCM)

§4.6聚类结果的反馈调节

§4.7实验评估

§4.7.1评价度量

§4.7.2实验结果和分析

§4.8后续相关工作

§4.9本章小结

第五章基于聚类的文献自动综述研究

§5.1自动综述的概念

§5.2文献自动综述系统模型

§5.3系统实现关键步骤

§5.3.1相似语义句聚类

§5.3.2综述生成

§5.4实验评估

§5.5本章小结

第六章总结与展望

参考文献

致谢

攻读硕士学位期间的研究成果

展开▼

摘要

随着Internet网络的日益普及,人们越来越依赖网络来获取各种信息,传统的信息发布和获取模式受到了巨大的冲击。同时,随着电子出版物的盛行,网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。 作为传统的知识获取主途径,图书馆也面临着数字传媒的挑战。人们可以借助互联网来方便、快捷地下载各种文档、教材,甚至是图书的电子版本。因此,数字图书馆的建设成为图书馆发展的大势所趋。为了使用户得到更加良好的使用体验,不断地完善查询结果的质量是数字图书馆建设的关键。 现今的数字图书馆中的查询系统基本上是以文本搜索引擎为模板,仅仅根据关键词的出现与否来给出查询结果。如果结果过于庞大,使用者往往浪费大量的精力在寻找需要的文献上,从而降低了科学研究的效率。那么,如何做到让使用者快速定位自己需要的文献呢?在现今的一些主流的商用搜索引擎上,已经出现了解决的方法:文本的分类/聚类。 本论文重点研究文本聚类在改善数字图书馆查询系统性能上的应用。论文的主要研究内容和创新成果如下: 1.阐述了文本聚类的基本概念和任务组成,针对聚类过程中的各个步骤分节介绍了关键技术要点,如文本表示、特征提取和相似度计算等。在了解基本的流程后,介绍了几种主要的聚类方法,分析了其优缺点。 2.提出了一种基于模糊C均值聚类的文本聚类方法(TS2FCM)。通过对代表文献主题的关键短语的提取来建立主题子空间,利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵。为了适应科学文献的特点,选取文献的标题、摘要和参考文献作为处理的对象,利用学习的方法来获得不同的词频权重。实验表明,所提出的TS2FCM算法取得了良好的聚类效果。 3.为了使用户对聚类后的各个类主题有更详细的了解,提出了一种基于聚类的文献自动综述方法,利用对文献摘要各个单句的重要性分析,抽取代表句来组成每个类的综述文本。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号