基于术语簇和关联规则的文档聚类方法

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

聚类技术是数据挖掘领域具有重要价值的技术之一，随着网络在社会生活的不断深入，加之数据库技术的迅速发展和普及，Web挖掘日益受到信息科学界的关注和重视，总的来说，Web挖掘可分为三种类型：Web结构挖掘，Web使用挖掘和Web文本挖掘[1]，其中，文档聚类属于Web文本挖掘的研究内容，所谓文本挖掘，是指从文档集合中发现隐含的某些未知模式或规则。
　　文档聚类不同于传统的文档分类，它不是基于预定的类表或类目体系，而是完全基于文档本身，即先有文档后有类，类的内涵和外延以及整个类目体系完全由需要进行聚类处理的文档集合确定。目前常用的文档聚类方法有层次方法和划分方法等，其中，层次方法通过将文档组织成若干类并形成一个相应的树来进行聚类，其准确度较高，但运行速度较慢，不适合大规模文档集合的聚类；划分方法将文档集合水平的划分为许多类，各类间没有层次性，其运行速度较快，但须事先确定聚类数目，且对噪声和输入顺序较敏感，尤其是当文档形式化表示的维数较高时，该方法的性能和聚类质量都明显下降。
　　对此，本文提出一种基于术语簇和关联规则的文档聚类方法，首先对文档集合进行分词得到许多术语，对这些术语进行处理得到一个术语集合，再计算术语之间的平均互信息并以此为依据使用聚丛法形成术语簇，用术语簇来表示文档，并计算术语簇和文档之间的关联度得到一个关联矩阵，使用DHP（Direct Hashing and Pruning）算法从关联矩阵中挖掘出文档的初始聚类，对此进行聚类分析获得最终的文档聚类。此外，还使用了新的术语权重和文档相似度计算方法，在实验数据的计算中使用了加权平均法。实验结果表明，与传统的聚类方法相比，新聚类方法运行速度快，聚类效果和聚类质量都有显著提高。

著录项

作者
成岳鹏;
展开▼
作者单位

河北大学;

展开▼
授予单位河北大学;
学科计算机应用技术
授予学位硕士
导师姓名徐建民;
年度 2007
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
数据库技术; 文档聚类; 关联规则; Web挖掘; 术语簇;

相似文献

中文文献
外文文献
专利

1. 一种基于术语簇和关联规则的文档聚类方法 [J] . 徐建民 ,成岳鹏 ,辛丽军 . 计算机工程与应用 . 2007,第005期
2. 基于关联规则和熵聚类方法分析叶天士鲜植物药应用规律 [J] . 陶诗怡 ,张兰鑫 ,宋清雅 . 中国中医药信息杂志 . 2021,第009期
3. 基于关联规则的网络数据动态聚类方法研究 [J] . 王喆 ,宋晓峰 ,王玉芳 . 电脑知识与技术 . 2021,第032期
4. 基于关联规则和复杂系统熵聚类方法探索李维军教授治疗小儿营养不良用药规律 [J] . 高诗宇 ,李维军 ,王健 . 西部中医药 . 2020,第001期
5. 基于关联规则和复杂系统熵聚类方法探索李维军教授治疗小儿营养不良用药规律 [J] . 高诗宇 ,李维军 ,王健 . 西部中医药 . 2020,第001期
6. 基于跨语言广义向量空间模型的跨语言文档聚类方法 [C] . Tang Guoyu ,唐国瑜 ,Xia Yunqing . 第十一届全国计算语言学学术会议 . 2011
7. 基于短语特征的Web文档聚类方法研究 [A] . 杨瑞龙 . 2010

基于术语簇和关联规则的文档聚类方法

目录

摘要

著录项

相似文献

相关主题

期刊订阅