首页> 中文学位 >Web信息检索结果聚类系统的研究
【6h】

Web信息检索结果聚类系统的研究

代理获取

目录

文摘

英文文摘

声明

第一章绪论

1.1选题背景和研究意义

1.2国内外研究现状

1.3本文的主要研究工作

1.4本文的组织结构

第二章文本聚类相关研究

2.1数据挖掘简介

2.2聚类方法概述

2.2.1平面划分方法

2.2.2基于层次的方法

2.2.3基于密度的方法

2.2.4基于网格的方法

2.2.5基于模型的方法

2.3相关工作

第三章系统的设计与实现

3.1设计思想和系统结构

3.1.1文档聚类的基本步骤

3.1.2文档表示

3.1.3特征项抽取

3.1.4应用聚类算法进行处理

3.1.5效果评价

3.1.6文档聚类系统的结构

3.2功能模块的详细实现

3.2.1文本预处理模块

3.2.2特征词提取算法

3.2.3文档向量化模块

3.2.4聚类模块

3.2.5聚类结果的输出

3.2.6聚类结果的评价方法

第四章实验结果与讨论

4.1系统开发环境及使用工具

4.1.1硬件环境

4.1.2编程语言和开发环境

4.2实验数据集

4.3实验分析

4.3.1显著性分值公式参数的确定

4.3.2不同向量维度对聚类结果的影响

4.3.3不同类型的文档类别对聚类结果的影响

4.3.4算法的时间复杂度

4.3.5类别主题词提取实验

4.3.6基于特征项显著性分值预测K值实验

4.3.7搜索引擎返回结果的聚类实验

4.3.8实验结果分析

第五章总结和展望

5.1本文所做工作的总结

5.2进一步的研究工作

参考文献

发表论文和参加科研情况说明

致 谢

展开▼

摘要

在这个信息化时代,由于互联网的迅速发展和电脑的普及,万维网已成为具有无穷潜力的信息索取和信息交换能力的全球信息资源中心,它对人类的各方面行为将产生日益重要的影响。 搜索引擎能自动地对互联网上的信息进行动态的收集和存储,并按照用户的检索返回相关的结果集。它的出现大大提高了人类检索信息的能力。不过,随着网络信息量的迅速增长,传统的搜索引擎技术也只能为用户提供越来越长的检索结果列表。用户不得不从中进行按照自己标准的二次检索,浪费了时间和效率。 可以通过将检索结果依据内容划分为相应的类别,使得用户能够更快捷准确地对检索结果进行浏览。这种引入了聚类分析技术的方法是对传统搜索引擎工作方式的一种改进。 本文首先对数据挖掘的概念和应用领域进行简要介绍,并比较系统和详细的总结了聚类方法的概念、特点,重点阐述了几种经典聚类算法的实现方式,并分别分析了它们的优势和不足之处。 在总结本领域的相关工作的基础上,本文提出了一种新的结合了基于短语显著性分值的特征项提取和K-means算法的文本聚类方法,显著性分值的确定考虑了传统的TFIDF相对词频以及短语的上下文独立性等因素,通过实验确定了显著性分值公式的系数。 使用Java语言实现了一个基于上述思想的比较完整的文本聚类系统,包括文档预处理,特征项抽取,文档向量化和聚类过程等。通过实验,对聚类效果进行测试并对结果做了分析。从实验结果看,本系统能达到令人满意的聚类效果,并且与现有方法相比,在时间复杂度方面有一定的优势。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号