首页> 中文学位 >文本分类中基于综合度量特征选择算法的研究
【6h】

文本分类中基于综合度量特征选择算法的研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 主要研究内容

1.4 论文组织结构

2 文本分类中基于综合度量的特征选择算法

2.1 准备知识

2.2 基于平衡因子的词频特征选择

2.3 基于平衡因子的x2统计量特征选择

2.4 基于过滤器的x2统计量特征选择

2.5 本章小结

3 文本分类系统的设计与实现

3.1 系统设计

3.2 数据库设计

3.3 预处理模块的实现

3.4 特征选择模块的实现

3.5 分类器训练模块的实现

3.6 分类器测试模块的实现

3.7 本章小结

4 实验与分析

4.1 实验环境

4.2 实验目标

4.3 实验数据集

4.4 文本分类器性能评估

4.5 实验过程与实验结果分析

4.6 本章小结

5 总结与展望

5.1 论文总结

5.2 展望

致谢

参考文献

附录 攻读学位期间参与的科研项目

展开▼

摘要

文本分类是一个传统而又历久弥新的话题,在互联网技术日益发达的今天,其应用越来越广泛。在文本分类的过程中,由于用特征向量表示文本时的高维性、高稀疏度等特点,特征选择显得特别重要。
  在研究文本分类时,发现词频特征选择忽略了特征的类内重要度和类间分散度,而χ2统计量特征选择只考虑了特征的类内重要度。针对词频和χ2统计量两种特征选择算法的不足,提出了三种基于综合度量的特征选择算法:基于平衡因子的词频特征选择、基于平衡因子的χ2统计量特征选择以及基于过滤器的χ2统计量特征选择。改进的前两种算法通过引入权重平衡因子,将特征的类内重要度和类间分散度线性组合起来,通过调节权重平衡因子来调整类内重要度和类间分散度在特征评分中的贡献度,有效地解决了词频和χ2统计量两种特征选择算法的不足。基于过滤器的χ2统计量特征选择在传统的χ2统计量特征选择的结果集上,用类间分散度进行过滤,剔除类间分散度小于给定阈值的特征,从而得到效果更优的特征子集。
  设计并实现了包含多项式朴素贝叶斯、支持向量机和k最近邻三种分类器的文本分类系统,用于对改进的三种特征选择算法进行试验和验证。最终实验结果表明:这三种特征选择算法具有较好的普适性,是可行的、有效的。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号