首页> 中文学位 >网页分类中特征选择方法的研究
【6h】

网页分类中特征选择方法的研究

代理获取

目录

声明

1 绪论

1.1 研究背景及意义

1.2 国内外研究现状

1.3 研究内容与组织结构

2 网页分类系统中的关键技术介绍

2.1 网页预处理

2.2 文本表示

2.3 特征降维

2.4 本章小结

3 CHI特征选择方法的分析与改进

3.1 CHI特征选择方法存在的问题

3.2 CHI特征选择方法改进思路

3.3 本章小结

4 基于改进CHI特征选择方法的中文网页分类系统的实现

4.1 中文网页分类系统框架设计

4.2 网页分类系统主要模块的设计与实现

4.3 本章小结

5 系统测试与结果分析

5.1 系统测试

5.2 测试结果及分析

5.3 本章小结

6 总结与展望

6.1 全文总结

6.2 研究展望

致谢

参考文献

展开▼

摘要

特征降维是网页分类系统中的关键技术,优秀的特征降维方法是实现网页高效分类的一种有效途径。特征选择作为特征降维的一种有效途径,它对特征词的选择效果是影响分类效果的直接因素。在实际网页分类中,数据集规模有限且存在一定缺陷,已有的特征选择方法进行特征词选择时效果一般,导致网页分类效果评价指标MicroF1(F1微平均)值偏低。
  本文对传统CHI(卡方检验)特征选择方法进行详细地分析,发现传统CHI特征选择方法对不同数据集进行特征降维时存在以下缺陷:(1)低频词缺陷;(2)特征词与分类之间存在负相关;(3)易受数据集均衡性和完备性的影响。而已有的改进方法解决了前两个问题,但依然存在受数据集均衡性和完备性影响的问题。针对CHI特征选择方法对不同数据集进行特征降维时存在的缺陷,本文引入词向量对CHI统计量特征选择方法进行改进。改进的主要思路是:首先使用分类词频对CHI统计量的计算公式进行改进,并且忽略特征词和分类的负相关特性,以解决传统CHI特征选择方法忽略特征词词频和特征词和分类之间的负相关带来的问题;使用改进后的CHI特征选择方法对不同数据集的特征词进行特征选择,然后使用词向量对特征选择得到特征词子集进行扩充,以解决CHI特征选择方法的特征词选择结果易受数据集均衡性和完备性影响的问题。
  本文对两种数据集采用不同的特征选择方法对特征词集合中的特征词进行选择,通过多组对比实验来验证本文提出的 CHI改进方法的有效性和可行性。本文使用MicroF1值对测试集所有网页文本的分类效果进行评价,实验结果证明本文提出的CHI特征选择改进方法对不同数据集进行特征词选择都可以得到更好的分类效果。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号