基于文本聚类的特征选择算法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

近年来，我们可以从电子出版物，Email，Web页面获得数目惊人的文档。与此同时，大量的文档也导致了人们搜寻、过滤和管理信息的困难，因此，管理和分析海量文本数据就非常重要了。
　　目前，研究文本聚类技术已经成为文本数据挖掘的一个非常重要的方向。但是为了达到提高识别率的目的，通常会造成原始特征的数量巨大，原始特征可能达到几千维，甚至更高。其中存在着大量的冗余特征，造成维度灾难。同时现有的聚类算法片面强调了效率的提高，忽略了对边界类别模糊样本的处理而导致了聚类结果的正确率不高。
　　本文针对文本聚类面临的维度灾难问题和现有的文本聚类算法进行了分析和研究，主要做了以下工作：
　　首先，总结了现有的特征选择方法和相似度度量，提出一种基于词共现的特征选择方法，提高了文本聚类的正确率，降低了特征选择的冗余度，从而提高聚类算法的整体性能，达到了降维的目的。
　　其次，研究几种比较流行的文本挖掘算法，对这些算法进行了详细的介绍，分析了各自的优缺点，进而提出一种改进算法，针对边界类别模糊点进行了处理，改善了聚类结果。
　　第三，通过选取大量的数据进行了一系列的对比试验，并对实验结果进行了分析，从而证明了改进算法的有效性。
　　最后，对本文所做的工作进行了归纳、总结，并讨论了将来进一步的研究方向。

著录项

作者
樊东辉;
展开▼
作者单位

西北师范大学;

展开▼
授予单位西北师范大学;
学科计算机应用技术
授予学位硕士
导师姓名王治和;
年度 2012
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP391.12;
关键词
特征选择算法; 文本聚类; 相似度度量; 文本挖掘算法;

相似文献

中文文献
外文文献
专利

1. 基于二进制灰狼优化的特征选择及文本聚类 [J] . 王琛 ,董永权 . 计算机工程与设计 . 2021 ,第009期
2. 基于DF算法改进的文本聚类特征选择算法 [J] . 樊东辉 ,王治和 ,陈建华 . 甘肃联合大学学报（自然科学版） . 2012 ,第001期
3. 基于LDA特征选择的文本聚类 [J] . 张梦笑 ,王素格 ,王智强 . 电脑开发与应用 . 2012 ,第001期
4. 基于词干的混合策略维吾尔语文本聚类特征选择方法研究 [J] . 刘源 ,吐尔根·依布拉音 ,阿力木江·艾沙 . 计算机应用与软件 . 2012 ,第012期
5. 基于类信息的文本聚类中特征选择算法 [J] . 严莉莉 ,张燕平 . 计算机工程与应用 . 2007 ,第012期
6. 基于遗传算法的文本聚类特征选择 [C] . 张锋 ,樊孝忠 ,许云 . 第二届全国搜索引擎和网上信息挖掘学术研讨会(SEWM2004) . 2004
7. 文本聚类中特征选择方法研究 [A] . 华珍 . 2016

基于文本聚类的特征选择算法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅