首页> 中文学位 >最优特征选择算法在文本分类上的应用研究
【6h】

最优特征选择算法在文本分类上的应用研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第一章 绪 论

1.1 研究背景

1.2 研究概况

1.3 主要研究内容

1.4 研究目标

第二章 贝叶斯网络与Filter型特征选择算法综述

2.1 贝叶斯网络的基础理论

2.2 朴素贝叶斯分类器

2.3 Filter型特征选择算法

2.4 本章小结

第三章 基于最小联合互信息亏损的最优特征选择算法

3.1 信息论度量

3.2 以联合互信息为基础的最优特征选择算法

3.3 以最小联合互信息亏损为基础的最优特征子集搜索策略

3.4 本章小结

第四章 文本分类及算法设计

4.1 文本分类

4.2 基于文本分类的特征选择算法

4.3 算法设计

4.4 本章小结

第五章 实验分析

5.1 实验平台

5.2文本分类过程

5.3 训练样本处理

5.4 测试样本处理

5.5 特征选择算法运行时间及复杂度比较

5.6 实验总结

第六章 结 论

6.1 工作总结

6.2 研究展望

致谢

参考文献

附录

展开▼

摘要

随着网络技术和数据库技术的成熟,数据库系统逐渐普及。从文字分类搜索、到商业决策分析、更乃至前沿的生物工程。在数据库中储存的大量数据中隐藏着许多信息,这些隐藏的信息对于决策有着十分重要的作用。用作对这些隐藏信息进行分析处理的工具虽有了很大的发展,但是很多隐藏信息的许多重要内涵还远远没有得到足够的利用。数据挖掘作为一种新型的数据处理技术,数据挖掘的过程就是对数据信息的再处理再分析过程。首先需要收集各种相关数据信息,其次通过各项模型化处理方式如取样、分析、结论等获得符合目标的关键因素。所以,数据挖掘及其相关的技术和应用的研究和发展受到了业界的重视与长足的进展。从而研究一种更加高效的Filter型特征选择算法对各个学科领域都有着非常重要的作用。
  文本分类就是根据预先定义的主题类别,按照一定的规则将文档集合中未知类别的文本自动确定一个类别,涉及数据分类、计算机学科,工科,信息学科、管理学等多个学科。至今,大部分的机器学习方法、统计方法、数据分类技术被应用到文本分类里。
  本文首先研究了贝叶斯网络、朴素贝叶斯分类器、Filter型特征选择算法的问题,然后在此基础上详细讨论了基于最小联合互信息亏损的最优特征选择算法,并基于文本分类的应用需求进行了最优特征选择算法在文本分类上的研究及设计。最后通过试验,验证了Filter型算法可有效应用于文本分类的领域。
  本文重点研究了以下内容:首先,阐述了贝叶斯网络与朴素贝叶斯分类的定义。根据特征的不同,归纳了其特点及模型,以及相关应用。其次,阐述了Filter型特征选择算法的含义和基本特征。根据特征的不同,归纳了现有Filter型特征选择算法分为以特征子集搜索为基础的最优特征选择法和特征排序法两种类别,并对每种类别加以深入剖析。力求获得每种算法的特点、基本原理以及存在的缺点。再者,通过文本分类的定义及应用的介绍,引出了特征选择算法在文本分类上的研究。并通过算法的代码及实验过程进行了深入的研究。从而验证了 Filter型算法可有效应用于文本分类的领域,提高了文本分类的效率。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号