首页> 中文学位 >基于特征关联关系的生物数据分析方法研究
【6h】

基于特征关联关系的生物数据分析方法研究

代理获取

目录

声明

1 绪论

1.1 研究背景及意义

1.2 本文主要工作

2 数据挖掘常用技术

2.1 数据预处理

2.1.1 缺失值处理

2.1.2 异常值检测

2.1.3 数据标准化

2.2 特征选择

2.3 分类

2.3.1 k近邻

2.3.2 决策树

2.3.3 随机森林

2.3.4 支持向量机

2.3.5 分类器性能评估

2.4 本章小结

3 基于特征关联关系的多角度分类模型构建算法

3.1 k-OD算法

3.1.1 对特征的评分准则

3.1.2 对特征的分类规则

3.2 k-EC算法

3.3 实验

3.3.1 实验设置

3.3.2 实验结果与讨论

3.4 本章小结

4 基于特征关联关系的随机森林分类算法

4.1 RF-EC算法

4.1.1 分类器构建

4.1.2 分类器预测

4.2 实验

4.2.1 实验设置

4.2.2 实验结果

4.3 k-EC算法与RF-EC算法的比较

4.4 本章小结

结论

参 考 文 献

攻读硕士学位期间发表学术论文情况

致谢

大连理工大学学位论文版权使用授权书

展开▼

摘要

近些年来,组学技术发展迅速,产生海量生物数据。数据挖掘技术为从生物数据中发现有价值的信息提供了技术支撑。分类是数据挖掘的关键技术,在生物信息领域常表现为疾病分型、样本预测。如何利用简单、有效的决策规则构建精准的分类模型,从而对生物数据分类预测是生物信息学领域中研究的热点问题之一。在生物系统中,分子之间相互作用,共同完成各项生理活动。本文从特征关联关系入手,研究基于特征关联关系的生物数据分析方法。 提出了一种基于特征对有效区域重叠情况的k-OD分类算法,该算法对一对特征在不同类样本的有效区域进行研究,根据特征对有效区域内重叠情况评价特征对的区分能力,筛选有判别能力的特征对构建分类模型。在8个公共数据集上该算法和TSP、VH-TSP和SF算法比较,实验结果表明该算法在大多数数据集优于其它算法。 提出了一种基于特征关系集成的k-EC分类算法,该算法融合特征对水平关系、垂直关系、有效区域的重叠情况和单特征的区分能力,使用复杂程度挖掘有区分能力的特征对和单特征,构建相应的分类器。在8个公共数据集上,通过与k-TSP、k-OD、k-SF、VH-k-TSP、SVM和RF算法的比较,表明了k-EC分类算法的有效性,说明从不同角度分析特征关联关系和单特征,可以更精准地分析问题。 提出了一种基于特征关联关系的随机森林RF-EC分类算法,该算法在随机森林决策树的生长过程中,保留单特征评价过程,同时融入了特征对的综合评价,考虑样本在特征对水平关系、垂直关系和有效区域的重叠情况。在11个公共数据集的实验上,结果表明RF-EC算法比RF算法有更好的分类性能,说明考察特征对的多种关联关系在分类模型的构建是有效的。 本文所提出的三个分类算法都是基于特征关联关系,k-OD是基于特征对有效区域重叠情况分类算法,k-EC和RF-EC算法是基于特征对多种关联关系的综合数据分析方法,其中,k-EC是特征关联关系集成的分类算法,RF-EC算法相当于特征关联关系的级联分类,两种算法各有优劣。实验结果表明基于特征关联关系的生物数据分析方法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号