首页> 中文学位 >支持向量机在非球形分布数据集和肿瘤基因中的应用研究
【6h】

支持向量机在非球形分布数据集和肿瘤基因中的应用研究

代理获取

摘要

支持向量机是利用最优化方法来解决机器学习问题的新工具,是20世纪90年代中期由Vapnik[1]等人提出的。仅十几年的时间,不论是在理论上还是在应用上都有了突破性的进展。支持向量机作为一种重要的分类工具尤其在处理高维数、小样本等数据集时,表现出了较显著的优势,因此,随着研究的不断深入,其具体工程方面的应用也越来越多。但支持向量机对噪声点过于敏感[2],因此有效地降低噪声干扰可以使支持向量机的分类性能更高。
   在生物学中,利用基因芯片技术可以得到样本数不多、维数却非常高的基因表达谱,从基因表达谱中准确而有效地将肿瘤样本辨识出来对临床医学是极其有意义也是十分有帮助的。在面对小样本、高维数这样的数据集时,支持向量机表现出了明显的优势,因此,研究和构造出一个更适合辨识肿瘤基因表达谱的分类器成为大家研究的热点。
   本文的主要工作如下:
   1.传统支持向量机对噪声点的干扰太过敏感,模糊支持向量机(FSVM)对数据集的分布形状又过分依赖,针对此问题,首先构造一个噪声过滤系统(NFS),将样本集中极可能是噪声的数据点过滤掉;然后将文献[3]中提出的等价类系数作为惩戒因子融入到传统的支持向量机模型中,进一步降低噪声数据对分类的影响。该方法在处理含有较多噪声数据又呈现非球形分布的数据集时,表现出了较好的抗噪性和分类能力。
   2.对肿瘤基因表达谱进行分析,从而有效区分正常样本与肿瘤样本的关键是:准确找出能够决定样本类别的最少特征基因,并用一个性能较好的分类器进行分类预测。针对该问题,首先用修订的特征记分准则(RFSC)去除分类无关基因;然后对两两冗余法进行改进,提出强相关树法用于冗余基因的去除;最后对粗糙支持向量机(RSVM)改进,提出近似等价粗糙支持向量机(AE-RSVM)对样本集进行分类测试。以肿瘤样本集为例进行测试,实验结果表明了上述提出方法的可行性和有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号