文本分类中基于综合度量特征选择算法的研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

文本分类是一个传统而又历久弥新的话题，在互联网技术日益发达的今天，其应用越来越广泛。在文本分类的过程中，由于用特征向量表示文本时的高维性、高稀疏度等特点，特征选择显得特别重要。
　　在研究文本分类时，发现词频特征选择忽略了特征的类内重要度和类间分散度，而χ2统计量特征选择只考虑了特征的类内重要度。针对词频和χ2统计量两种特征选择算法的不足，提出了三种基于综合度量的特征选择算法：基于平衡因子的词频特征选择、基于平衡因子的χ2统计量特征选择以及基于过滤器的χ2统计量特征选择。改进的前两种算法通过引入权重平衡因子，将特征的类内重要度和类间分散度线性组合起来，通过调节权重平衡因子来调整类内重要度和类间分散度在特征评分中的贡献度，有效地解决了词频和χ2统计量两种特征选择算法的不足。基于过滤器的χ2统计量特征选择在传统的χ2统计量特征选择的结果集上，用类间分散度进行过滤，剔除类间分散度小于给定阈值的特征，从而得到效果更优的特征子集。
　　设计并实现了包含多项式朴素贝叶斯、支持向量机和k最近邻三种分类器的文本分类系统，用于对改进的三种特征选择算法进行试验和验证。最终实验结果表明：这三种特征选择算法具有较好的普适性，是可行的、有效的。

著录项

作者
李铂鑫;
展开▼
作者单位

华中科技大学;

展开▼
授予单位华中科技大学;
学科计算机应用技术
授予学位硕士
导师姓名路松峰;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;算法理论;
关键词
文本分类; 特征选择; 综合度量; 平衡因子; 支持向量机;

相似文献

中文文献
外文文献
专利

1. 文本分类中基于综合度量的特征选择方法 [J] . 杨杰明 ,刘元宁 ,曲朝阳 . 吉林大学学报（理学版） . 2013,第005期
2. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
3. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
4. 文本分类中基于差值思想的多特征选择算法研究 [J] . 李慧 ,李存华 ,王霞 . 网络新媒体技术 . 2009,第010期
5. 文本分类中基于基尼指数的特征选择算法研究 [J] . 尚文倩 ,黄厚宽 ,刘玉玲 . 计算机研究与发展 . 2006,第010期
6. 一种免疫克隆特征选择算法在文本分类中的应用 [C] . 陈绯 ,郑华 . 2009年全国理论计算机科学学术年会 . 2009
7. 基于术语离散因子的特征选择算法在文本分类中的研究 [A] . 韩霜 . 2020

文本分类中基于综合度量特征选择算法的研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅