首页> 中文学位 >基于随机搜索策略的特征选择算法研究
【6h】

基于随机搜索策略的特征选择算法研究

代理获取

目录

声明

1 绪论

1.1 生物信息的发展与应用

1.2 研究的背景及意义

1.3 本文的主要工作

2 生物信息处理中常用的数据挖掘技术

2.1 数据预处理技术

2.2 分类技术

2.3 聚类技术分析

2.4 数据降维技术

2.5 本章小结

3 改进的基于职业网球选手排名的特征选择算法MPTPR

3.1 基于职业网球选手排名的特征选择算法

3.2 MPTPR特征选择算法

3.3 实验与结果讨论

3.4 本章小结

4 基于对称不确定性与k近邻分类器结合的特征选择算法SU-KNN

4.1 对称不确定性

4.2 基于对称不确定性与k近邻分类器结合的特征选择算法

4.3 实验与结果

4.4 两种基于随机搜索策略的特征选择算法比较

4.5 本章小结

结论

参考文献

攻读硕士学位期间发表学术论文情况

致谢

展开▼

摘要

生物科学技术的快速发展,产生了海量复杂的生物数据;同时生物信息数据特征维数通常会比较高。高维、复杂的生物数据的分析处理需求促进了数据挖掘、统计分析等方法的高速发展。生物信息数据中经常包含噪音变量和无关特征,从复杂的高维生物数据中挖掘出富含信息的特征,滤除噪音,对探究生物问题的本质具有重要的意义。在数据挖掘技术中,特征选择技术是一种有效的高维数据的降维方法,近些年已经被广泛地应用到生物信息数据的分析处理当中。
  本文提出的改进的基于职业网球选手排名的特征选择算法(Modified Professional Tennis Player Ranking,MPTPR)是一种基于随机搜索的特征选择算法,它是在基于职业网球选手排名的特征选择算法(Professional Tennis Player Ranking,PTPR)基础上,结合了轮盘赌算法。PTPR算法分别从种子集和非种子集中以等概率抽取特征,而MPTPR算法分别在种子集和非种子集中加入了轮盘赌机制,使得两个集合中得分相对较高的特征有较高的概率被抽取参与下一轮的评价。本文在8个公共数据集上将该算法与原始的算法进行比较,实验结果表明在大部分数据集上,MPTPR算法得到特征的分类性能要优于PTPR算法得到的特征。
  一种基于对称不确定性和 k近邻分类器结合的特征选择算法(Symmetrical Uncertainty-k Nearest Neighbor,SU-KNN)也是基于随机搜索策略的特征选择算法。该算法首先从特征集合中随机抽取多个特征子集,对于每个特征子集,使用 kNN分类器得到的准确率作为评价指标对特征子集进行前向搜索,保留搜索过程中准确率最高的特征子集,计算特征在所有搜索到的子集上的平均准确率得分,结合其对称不确定性对特征进行综合的评价。本文在8个公共数据集上对该算法的性能进行测试,结果表明在大部分数据集上,SU-KNN算法得到特征的分类能力要优于其他常用的Filter特征选择方法所选出的特征。
  本文提出的两种特征选择方法都基于随机搜索策略,相比与SU-KNN算法,MPTPR算法结合了轮盘赌算法对特征进行抽取。在对特征进行重要性评价时,两个算法的评价方式是不同的,MPTPR算法使用决策树来对特征进行评价,SU-KNN算法使用k近邻分类器对特征进行评价。两个算法最终分别对每个特征进行评价打分,根据特征得分给出最后的特征排名,本文在8个公共数据集上对两种算法进行性能上的比较。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号