文本分类特征选取技术研究

代理获取

页面导航

目录
摘要
著录项
引文网络
相似文献
相关主题

摘要

随着Internet的迅速发展,网络信息不断膨胀。为了提供高效、准确的信息服务,我们需要对网络中繁杂的信息进行合理的组织与分类。而文本分类作为信息过滤、搜索引擎、文本数据库、数值化图书馆等领域的技术基础,有着广泛的应用前景,因此也就成为人们研究的热点问题。本文从文本模型的向量模型表示、特征选择、权重公式和分类器训练这个步骤较系统地研究了文本自动分类,同时将粗糙集理论应用到了文本分类中。 1.介绍了文本分类的概念和向量空间模型,分类系统的性能评价参数与粗糙集基本理论。 2.针对文本分类系统中关键技术问题,讨论了文本表示的整个过程--文本预处理,特征选择,权重计算,生成文本向量空间,提出了基于词性筛选的预处理方法,对互信息特征选择算法进行了扩展,引入了改进的权重公式MTF-IDF。对当前性能较好的三种文本分类算法：朴树贝叶斯、KNN法和支持向量机进行了研究,对现有特征选择方法及权重公式进行了对比实验。 3.结合粗糙集的优点,提出了基于粗糙集的特征选择方法,利用粗糙集的约简技术实现了文本的特征选择,通过与其他方特征选择法实验对比,结果表明基于粗糙集的特征选择方法的准确率较高。 4.实现了一个文本分类实验系统,利用该系统可以进行特征选择、权重计算研究,也可以直接对不同的语料进行训练与分类。 5.对本文进行了总结与展望。

著录项

作者
郑伟;
展开▼
作者单位

内蒙古大学;

展开▼
授予单位内蒙古大学;
学科计算机软件与理论
授予学位硕士
导师姓名王俊义;
年度 2008
页码
总页数
原文格式 PDF
正文语种中文
中图分类计算机情报检索系统;文字信息处理;
关键词
文本分类; 特征选取; 粗糙集;

相似文献

中文文献
外文文献
专利

1. 基于资源分配网络和语义特征选取的文本分类 [J] . 何晓亮 ,宋威 ,梁久祯 . 计算机工程与科学 . 2014,第002期
2. 基于CHI值特征选取和覆盖的文本分类方法 [J] . 闫屹 ,张燕平 ,耿筱媛 . 计算机技术与发展 . 2008,第005期
3. 基于信息增益特征选取和覆盖的中文文本分类 [J] . 白云晖 . 福建电脑 . 2008,第007期
4. 面向文本分类的基于最小冗余原则的特征选取 [J] . 张希娟 ,王会珍 ,朱靖波 . 中文信息学报 . 2007,第005期
5. 中文文本分类的特征选取研究 [J] . 胡鑫 . 甘肃科技 . 2006,第005期
6. 面向文本分类的基于最小冗余原则的特征选取 [C] . 张希娟 ,王会珍 ,朱靖波 . 第九届全国计算语言学学术会议 . 2007
7. 基于深度学习的短文本分类技术研究 [A] . 郭腾州 . 2021

文本分类特征选取技术研究

目录

摘要

著录项

引文网络

相似文献

相关主题

期刊订阅