基于科学文献的数字图书馆中文本聚类的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着Internet网络的日益普及，人们越来越依赖网络来获取各种信息，传统的信息发布和获取模式受到了巨大的冲击。同时，随着电子出版物的盛行，网络作为学习和科研的主要手段也越来越为广大的学生和科研工作者所推崇。作为传统的知识获取主途径，图书馆也面临着数字传媒的挑战。人们可以借助互联网来方便、快捷地下载各种文档、教材，甚至是图书的电子版本。因此，数字图书馆的建设成为图书馆发展的大势所趋。为了使用户得到更加良好的使用体验，不断地完善查询结果的质量是数字图书馆建设的关键。现今的数字图书馆中的查询系统基本上是以文本搜索引擎为模板，仅仅根据关键词的出现与否来给出查询结果。如果结果过于庞大，使用者往往浪费大量的精力在寻找需要的文献上，从而降低了科学研究的效率。那么，如何做到让使用者快速定位自己需要的文献呢?在现今的一些主流的商用搜索引擎上，已经出现了解决的方法：文本的分类/聚类。本论文重点研究文本聚类在改善数字图书馆查询系统性能上的应用。论文的主要研究内容和创新成果如下： 1．阐述了文本聚类的基本概念和任务组成，针对聚类过程中的各个步骤分节介绍了关键技术要点，如文本表示、特征提取和相似度计算等。在了解基本的流程后，介绍了几种主要的聚类方法，分析了其优缺点。 2．提出了一种基于模糊C均值聚类的文本聚类方法(TS2FCM)。通过对代表文献主题的关键短语的提取来建立主题子空间，利用主题子空间中的文本向量来提取初始中心和初始隶属度矩阵。为了适应科学文献的特点，选取文献的标题、摘要和参考文献作为处理的对象，利用学习的方法来获得不同的词频权重。实验表明，所提出的TS2FCM算法取得了良好的聚类效果。 3．为了使用户对聚类后的各个类主题有更详细的了解，提出了一种基于聚类的文献自动综述方法，利用对文献摘要各个单句的重要性分析，抽取代表句来组成每个类的综述文本。

著录项

作者
吉翔华;
展开▼
作者单位

中国科学技术大学;

展开▼
授予单位中国科学技术大学;
学科信号与信息处理
授予学位硕士
导师姓名邵正荣,俞能海;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类电子图书馆、数字图书馆;
关键词
文本聚类; 数字图书馆; 文献检索; 文献聚类; 主题子空间; 自动综述;

相似文献

中文文献
外文文献
专利

1. 基于LDA改进的K-means算法在短文本聚类中的研究 [J] . 冯靖 ,莫秀良 ,王春东 . 天津理工大学学报 . 2018,第003期
2. 文本聚类中基于密度聚类算法的研究与改进 [J] . 苏喻 ,郑诚 ,封军 . 微型机与应用 . 2011,第001期
3. 基于WEB数据挖掘中的文本聚类权重对偶性研究 [J] . 杨军 . 福建电脑 . 2010,第008期
4. 数字图书馆中基于内容的视频拷贝检测关键技术研究 [J] . 徐彤阳 ,张国标 . 现代情报 . 2016,第002期
5. 基于OAI-PMH协议数字图书馆中数据提供者的研究 [J] . 周莉 . 现代电子技术 . 2016,第009期
6. 印尼科学研究院科学文献和信息中心的数字图书馆系统发展 [C] . Sjaeful Afandi ,Sjaeful Afandi ,Danarsiwi Tri Lastiwi . 第六届上海国际图书馆论坛 . 2012
7. 基于密度峰值的聚类算法研究及其在文本聚类中的应用 [A] . 卜秋瑾 . 2019

基于科学文献的数字图书馆中文本聚类的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅