基于TFIDF-GA特征选择的文本模糊聚类方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本聚类是在没有文本类别标记的情况下对文本进行分类,使同类别的文本间相似度尽可能大,不同类别的文本间相似度尽可能小。而今,随着信息的爆炸式增长以及学科类别间的交叉渗透,文本日益大量化和多样化,文本的类别隶属度界限越来越不明确。于是,文本模糊聚类渐渐成为文本聚类的另一个研究方向。
　　本文从特征选择和模糊C均值算法两个方面对文本模糊聚类进行研究:
　　1、无监督特征选择方法。特征选择方法主要有过滤式、封装式和嵌入式三种,本文结合过滤式和封装式方法,即词频-反文档频率(Term Frequency-Inverse Document Frequency,TFIDF)算法和遗传算法(Genetic Algorithm,GA)相结合,提出基于 TFIDF-GA的无监督特征选择方法。该方法通过改进后的 TFIDF公式计算特征权重,然后根据选择规则得到初始特征子集,将该特征子集作为遗传算法的初始种群进行迭代搜索。初始特征子集能够为遗传算法提供较好的搜索起点,加快搜索速度,同时遗传算法的自适应全局搜索能力能够启发式搜索到具有很强分类能力却没有包含在初始特征子集中的特征。
　　2、模糊C均值聚类算法。模糊C均值聚类算法(Fuzzy C-Means,FCM)在基于目标的模糊聚类算法中应用最为广泛。本文对FCM算法进行改进,使用密度参数初始化聚类中心,能在一定程度上降低由于初始聚类中心选取的随机性对算法产生的误差;在FCM算法的约束条件中引入信息熵,更好地描述数据的实际分布情况。
　　本文从特征选择和FCM算法出发,提出基于TFIDF-GA和改进的FCM算法的模糊聚类算法,实验结果表明该算法可以得到较高质量的聚类结果。

著录项

作者
邓高超;
展开▼
作者单位

南昌大学;

展开▼
授予单位南昌大学;
学科计算机软件与理论
授予学位硕士
导师姓名陶俊才;
年度 2014
页码
总页数
原文格式 PDF
正文语种中文
中图分类算法理论;
关键词
文本模糊聚类; 特征选择; 遗传算法; 模糊C均值算法;

相似文献

中文文献
外文文献
专利

1. 基于领域本体的文本特征选择方法研究 [J] . 赵爽 . 福建电脑 . 2016,第007期
2. 基于偏斜数据集的文本分类特征选择方法研究 [J] . 刘振岩 ,孟丹 ,王伟平 . 中文信息学报 . 2014,第002期
3. 基于词干的混合策略维吾尔语文本聚类特征选择方法研究 [J] . 刘源 ,吐尔根·依布拉音 ,阿力木江·艾沙 . 计算机应用与软件 . 2012,第012期
4. 基于粗糙集的中文文本特征选择方法研究 [J] . 张翔 ,周明全 ,耿国华 . 计算机应用与软件 . 2010,第003期
5. 基于量子遗传算法的文本特征选择方法研究 [J] . 邱烨 ,刘培玉 . 计算机工程与应用 . 2008,第025期
6. 基于模糊聚类的文本分类器 [C] . 周永健 ,郑玉明 ,廖湖声 . 2006年全国开放式分布与并行计算学术会议 . 2006
7. 基于模糊聚类的文本挖掘方法研究 [A] . 刘晓斌 . 2009

基于TFIDF-GA特征选择的文本模糊聚类方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅