首页> 中文学位 >基于术语簇和关联规则的文档聚类方法
【6h】

基于术语簇和关联规则的文档聚类方法

代理获取

目录

文摘

英文文摘

声明

第1章引言

1.1研究背景

1.2国内外研究现状

1.3本文工作

1.4论文组织结构

第2章传统聚类方法概述

2.1聚类概述

2.2划分方法

2.2.1传统划分方法

2.2.2大型数据集的划分方法

2.3层次方法

2.3.1 BIRCH方法

2.3.2 CURE方法

2.3.3其他层次方法

2.4其他聚类方法

2.4.1基于密度的方法

2.4.2基于网格的方法

2.4.3基于模型的方法

第3章基于术语簇和关联规则文档聚类方法的相关知识

3.1术语簇

3.1.1平均互信息

3.1.2聚丛法

3.1.3术语权重

3.2文档形式化描述

3.2.1文档矢量空间模型

3.2.2文档相似度

3.3关联规则挖掘

3.3.1关联规则概述

3.3.2 APRIORI算法

3.4聚类评价指标

3.4.1类间差异度

3.4.2类内相似度

第4章基于术语簇和关联规则的文档聚类方法

4.1文档分词及预处理

4.2构造术语簇

4.3文档形式化描述

4.3.1术语权重

4.3.2文档与术语簇关联度

4.3.3文档矢量空间模型

4.3.4文档相似度

4.4挖掘初始聚类

4.4.1 DHP算法

4.4.2关联规则挖掘

4.5聚类分析和处理

4.5.1文档聚类评价及处理

4.5.2文档相似度改进

第5章实验过程及结果分析

5.1文档测试集

5.2聚类处理过程

5.3聚类结果分析

第6章总结与展望

参考文献

攻读硕士学位期间发表论文情况

致谢

展开▼

摘要

聚类技术是数据挖掘领域具有重要价值的技术之一,随着网络在社会生活的不断深入,加之数据库技术的迅速发展和普及,Web挖掘日益受到信息科学界的关注和重视,总的来说,Web挖掘可分为三种类型:Web结构挖掘,Web使用挖掘和Web文本挖掘[1],其中,文档聚类属于Web文本挖掘的研究内容,所谓文本挖掘,是指从文档集合中发现隐含的某些未知模式或规则。
   文档聚类不同于传统的文档分类,它不是基于预定的类表或类目体系,而是完全基于文档本身,即先有文档后有类,类的内涵和外延以及整个类目体系完全由需要进行聚类处理的文档集合确定。目前常用的文档聚类方法有层次方法和划分方法等,其中,层次方法通过将文档组织成若干类并形成一个相应的树来进行聚类,其准确度较高,但运行速度较慢,不适合大规模文档集合的聚类;划分方法将文档集合水平的划分为许多类,各类间没有层次性,其运行速度较快,但须事先确定聚类数目,且对噪声和输入顺序较敏感,尤其是当文档形式化表示的维数较高时,该方法的性能和聚类质量都明显下降。
   对此,本文提出一种基于术语簇和关联规则的文档聚类方法,首先对文档集合进行分词得到许多术语,对这些术语进行处理得到一个术语集合,再计算术语之间的平均互信息并以此为依据使用聚丛法形成术语簇,用术语簇来表示文档,并计算术语簇和文档之间的关联度得到一个关联矩阵,使用DHP(Direct Hashing and Pruning)算法从关联矩阵中挖掘出文档的初始聚类,对此进行聚类分析获得最终的文档聚类。此外,还使用了新的术语权重和文档相似度计算方法,在实验数据的计算中使用了加权平均法。实验结果表明,与传统的聚类方法相比,新聚类方法运行速度快,聚类效果和聚类质量都有显著提高。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号