Web信息检索结果聚类系统的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

在这个信息化时代，由于互联网的迅速发展和电脑的普及，万维网已成为具有无穷潜力的信息索取和信息交换能力的全球信息资源中心，它对人类的各方面行为将产生日益重要的影响。搜索引擎能自动地对互联网上的信息进行动态的收集和存储，并按照用户的检索返回相关的结果集。它的出现大大提高了人类检索信息的能力。不过，随着网络信息量的迅速增长，传统的搜索引擎技术也只能为用户提供越来越长的检索结果列表。用户不得不从中进行按照自己标准的二次检索，浪费了时间和效率。可以通过将检索结果依据内容划分为相应的类别，使得用户能够更快捷准确地对检索结果进行浏览。这种引入了聚类分析技术的方法是对传统搜索引擎工作方式的一种改进。本文首先对数据挖掘的概念和应用领域进行简要介绍，并比较系统和详细的总结了聚类方法的概念、特点，重点阐述了几种经典聚类算法的实现方式，并分别分析了它们的优势和不足之处。在总结本领域的相关工作的基础上，本文提出了一种新的结合了基于短语显著性分值的特征项提取和K-means算法的文本聚类方法，显著性分值的确定考虑了传统的TFIDF相对词频以及短语的上下文独立性等因素，通过实验确定了显著性分值公式的系数。使用Java语言实现了一个基于上述思想的比较完整的文本聚类系统，包括文档预处理，特征项抽取，文档向量化和聚类过程等。通过实验，对聚类效果进行测试并对结果做了分析。从实验结果看，本系统能达到令人满意的聚类效果，并且与现有方法相比，在时间复杂度方面有一定的优势。

著录项

作者
孟庆顺;
展开▼
作者单位

天津大学;

展开▼
授予单位天津大学;
学科计算机应用技术
授予学位硕士
导师姓名张钢;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP393.09;
关键词
Web信息检索; 搜索引擎; 数据挖掘; K-means算法; 文本聚类;

相似文献

中文文献
外文文献
专利

1. Web检索结果快速聚类方法的研究与实现 [J] . 王志梅 ,张俊林 ,李秋山 . 计算机工程与设计 . 2004,第012期
2. 基于超链接信息的搜索引擎检索结果聚类方法研究 [J] . 夏斌 ,徐彬 . 电脑开发与应用 . 2007,第005期
3. 基于WebGIS的可聚类农业产业从业人员管理信息系统研究 [J] . 张华 ,余晓 ,张一博 . 软件导刊 . 2014,第010期
4. 基于WebGIS的可聚类农业产业从业人员管理信息系统研究 [J] . 张华 ,余晓 ,张一博 . 软件导刊 . 2014,第010期
5. 基于模糊聚类的个性化Web信息检索系统研究 [J] . 罗金增 . 电脑知识与技术 . 2005,第012期
6. Web检索结果的层次聚类研究 [C] . 杨建武 . 第二十一届中国数据库学术会议 . 2004
7. 关系数据库对象级别检索结果的聚类展现方法研究 [A] . 郑海燕 . 2013

Web信息检索结果聚类系统的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅