最优特征选择算法在文本分类上的应用研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着网络技术和数据库技术的成熟，数据库系统逐渐普及。从文字分类搜索、到商业决策分析、更乃至前沿的生物工程。在数据库中储存的大量数据中隐藏着许多信息，这些隐藏的信息对于决策有着十分重要的作用。用作对这些隐藏信息进行分析处理的工具虽有了很大的发展，但是很多隐藏信息的许多重要内涵还远远没有得到足够的利用。数据挖掘作为一种新型的数据处理技术，数据挖掘的过程就是对数据信息的再处理再分析过程。首先需要收集各种相关数据信息，其次通过各项模型化处理方式如取样、分析、结论等获得符合目标的关键因素。所以，数据挖掘及其相关的技术和应用的研究和发展受到了业界的重视与长足的进展。从而研究一种更加高效的Filter型特征选择算法对各个学科领域都有着非常重要的作用。
　　文本分类就是根据预先定义的主题类别，按照一定的规则将文档集合中未知类别的文本自动确定一个类别，涉及数据分类、计算机学科，工科，信息学科、管理学等多个学科。至今，大部分的机器学习方法、统计方法、数据分类技术被应用到文本分类里。
　　本文首先研究了贝叶斯网络、朴素贝叶斯分类器、Filter型特征选择算法的问题，然后在此基础上详细讨论了基于最小联合互信息亏损的最优特征选择算法，并基于文本分类的应用需求进行了最优特征选择算法在文本分类上的研究及设计。最后通过试验，验证了Filter型算法可有效应用于文本分类的领域。
　　本文重点研究了以下内容：首先，阐述了贝叶斯网络与朴素贝叶斯分类的定义。根据特征的不同，归纳了其特点及模型，以及相关应用。其次，阐述了Filter型特征选择算法的含义和基本特征。根据特征的不同，归纳了现有Filter型特征选择算法分为以特征子集搜索为基础的最优特征选择法和特征排序法两种类别，并对每种类别加以深入剖析。力求获得每种算法的特点、基本原理以及存在的缺点。再者，通过文本分类的定义及应用的介绍，引出了特征选择算法在文本分类上的研究。并通过算法的代码及实验过程进行了深入的研究。从而验证了 Filter型算法可有效应用于文本分类的领域，提高了文本分类的效率。

著录项

作者
王新莹;
展开▼
作者单位

电子科技大学;

展开▼
授予单位电子科技大学;
学科软件工程
授予学位硕士
导师姓名何玲,高学理;
年度 2013
页码
总页数
原文格式 PDF
正文语种中文
中图分类文字信息处理;
关键词
贝叶斯网络; 最优特征选择算法; 文本分类;

相似文献

中文文献
外文文献
专利

1. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程 . 2017,第012期
2. 基于词频信息改进的IG特征选择算法在文本分类中的应用研究 [J] . 牛玉霞 . 软件工程师 . 2017,第012期
3. 基于文本分类的Fisher Score快速多标记特征选择算法 [J] . 汪正凯 ,沈东升 ,王晨曦 . 计算机工程 . 2022,第2期
4. 类依赖特征选择算法在文本分类中的优化研究 [J] . 刘云 ,肖雪 ,黄荣乘 . 计算机与数字工程 . 2021,第010期
5. 最大判别特征选择算法在文本分类的优化研究 [J] . 刘云 ,黄荣乘 . 四川大学学报（自然科学版） . 2019,第001期
6. 一种免疫克隆特征选择算法在文本分类中的应用 [C] . 陈绯 ,郑华 . 2009年全国理论计算机科学学术年会 . 2009
7. 基于术语离散因子的特征选择算法在文本分类中的研究 [A] . 韩霜 . 2020

最优特征选择算法在文本分类上的应用研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅