首页> 中文学位 >基于基因表达谱的信息基因提取算法
【6h】

基于基因表达谱的信息基因提取算法

代理获取

摘要

基于基因表达谱的肿瘤检测方法有望成为临床医学上一种快速而有效的肿瘤分子诊断方法,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤信息基因选择成为一件有挑战性的工作。
   本文研究结肠癌基因谱数据,寻找与结肠癌有关的特征信息基因及如何确定样本是否患病的方法,其建模依据模式分类法,该分类法主要分五个阶段:数据获取、数据预处理、信息基因选择、分类模型建立以及分类预测与评估。信息基因选择分别采用了信噪比和Bhattacharyya距离两种方法,并对这两种方法作了对比。由于基因表达谱数据之间存在很强的相关性,因此本文提出了K-means聚类法,对信息基因进行了进一步的选择,选取代表基因作为新的信息基因。使用K-means聚类法优点是进一步去除了噪声,降低了维度,为在高性能计算机上进行信息基因子集的搜索奠定了基础。K-means聚类把信息基因分为50类,各类中基因表达相关,可在生物医学研究中提供参考。分类模型采用了加权投票法和支持向量机两分类器,并对这两分类器作了对比。鉴于信息基因众多,本文提出了一种以上述分类器分类性能为评估准则的寻找特征信息基因的启发式宽度优先搜索算法。该方法的优点是能够同时搜索到基因数量尽可能少而分类能力又尽可能强的多个信息基因子集。分类预测与评估阶段采用了留一交叉检验和独立测试集检验。本文发现以Bhattacharyya距离结合K-means聚类来选择信息基因,以支持向量机分类性能为评估准则的启发式宽度优先搜索算法来寻找特征信息基因,结果最优。本文最后得到只需5个特征信息基因就能获得95.2%的留一交叉检验准确率和100%的独立测试集检验准确率。与其它优秀的肿瘤分类方法相比,本文的实验结果在分类性能方面具有明显的优越性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号