首页> 中文学位 >文档分类和聚类方法及其在信息检索中应用的研究
【6h】

文档分类和聚类方法及其在信息检索中应用的研究

代理获取

目录

文摘

英文文摘

独创性声明及学位论文版权使用授权书

第一章绪论

1.1选题背景和研究意义

1.2本文的主要研究工作和创新点

1.3论文结构

第二章分类和聚类方法及结果评价方法概述

2.1文档分类方法概述

2.1.1文档分类

2.1.2文档分类方法

2.1.3文档分类结果的评价

2.3聚类方法概述

2.3.1平面划分方法

2.3.2层次的方法

2.3.3基于密度的方法

2.3.4基于网格的方法

2.3.5基于模型的方法

2.4文档聚类结果的评价方法

第三章基于统计的文档层次分类方法研究

3.1已有分类方法存在的问题

3.2基于统计的文档层次分类方法

3.2.1文档的向量表示

3.2.2文档特征项抽取

3.2.3文档特征项选择

3.2.4基于统计的层次分类方法

3.3实验与结果讨论

3.3.1实验文档

3.3.2实验对比方法-KNN文档分类方法

3.3.4实验结果与分析

3.4本章小结

第四章基于频繁特征项集的文档聚类方法研究

4.1问题的提出

4.2基于频繁特征项集的文档聚类

4.2.1特征词语的抽取

4.2.2关联规则中频繁特征项集的挖掘

4.2.3基于频繁特征项集的文档聚类方法

4.3实验结果讨论

4.3.1 FTSC方法的定性评价

4.3.2 FTSC方法和FTSHC方法的定量评价

4.4本章小结

第五章基于Pat树全文索引的动态文档聚类方法研究

5.1问题的提出

5.2基于Pat树全文索引的动态文档聚类

5.2.1全文索引的研究现状

5.2.2 Pat树的索引

5.2.3限制深度的Pat树的建立及检索

5.2.4限制深度Pat树的动态调整

5.2.5基于Pat树的文档聚类方法

5.3实验与结果讨论

5.3.1聚类结果实验的比较

5.3.2短语和重叠聚类对聚类结果的影响

5.4本章小结

第六章基于超链接信息的Web文档聚类方法研究

6.1问题的提出

6.2 Web结构挖掘的算法研究

6.2.1 Web结构挖掘

6.2.2 Web结构挖掘中HITS算法及改进

6.3网页超链接信息在Web文档聚类中的应用

6.3.1基于超链接的网站结构抽取

6.3.2基于超链接层次类别的获取

6.3.3基于扩展页面内容挖掘的文档聚类

6.4聚类中心的动态调整

6.5本章小结

第七章总结和展望

7.1全文总结

7.2存在的问题和研究前景展望

参考文献

发表论文和科研情况

致谢

展开▼

摘要

本文对文档分类和聚类方法及其在信息检索中的应用进行了深入研究,主要包括以下几个方面的内容:通过对当前分类方法的分析,提出了基于统计的文档层次分类方法.针对当前文档聚类方法存在的问题,本文提出了基于频繁特征项集文档聚类的FTSC方法和FTSHC方法.对预处理后的文档,通过Apriori算法找出文档频繁特征项集合,依据其子集中频繁特征词语对相关文档进行聚类.为了适应信息检索的需要,针对动态文档库,提出了基于Pat树全文索引的动态文档聚类方法,利用压缩的Pat树建立全文索引的模型,以提高索引的效率.针对信息检索和网页文档聚类,提出了基于超链接信息的Web文档自动聚类模型.利用结构挖掘技术获得主题领域的多个权威网页作为初始聚类中心,通过去除超链接信息中的噪声和多余链接得到网站的简明拓扑结构,并结合内容挖掘,动态调整聚类中心,最终将网页聚成各主题下的不同子类别.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号