首页> 中文学位 >基于模式识别方法的基因表达数据分析研究
【6h】

基于模式识别方法的基因表达数据分析研究

代理获取

摘要

DNA微阵列技术可同时对成千上万个基因的表达水平进行分析,获得海量的基因表达谱信息。如何在全基因组范围内充分利用这些数据,从中提取有效的生物、医学信息已成为后基因组时代的重点研究问题。基因聚类分析能将功能相关的基因按表达谱的相似程度归纳成共同表达类别,以方便从已知基因的功能去推导、补充未知基因的功能。利用基因表达谱可以对形态学上相似的肿瘤亚型进行准确、客观的识别。本文围绕基因表达数据聚类和分类展开分析和研究,具体的研究成果如下:
   (1)为解决传统欧式距离在基因的相似度计算中为所有特征赋予相同权值、导致无法衡量特征重要性的问题,提出了一种基于特征分布的特征权值优化聚类算法。算法首先衡量特征对同类基因的凝聚能力和对不同类基因的区分能力,然后对不同的特征赋予不同的权值,并将此权值引入到基因表达谱与神经元的相似度计算中,以此反映特征在相似度计算及SOM权值调整中的重要性。实验结果表明该方法可以有效提高基因聚类的类内凝聚度和类间区分度,提高了聚类结果的准确率。在对基因聚类时,可能存在某些先验知识。针对使用这些限制数据进行特征权值优化时存在的问题,设计了结合半监督聚类的特征权值优化算法。算法首先根据指定的限制数据对特征进行优化,为那些能够有效区分限制数据的特征赋予较大的权值。为防止在特征的权值优化中引入偏置,算法也考虑了非限制数据的影响和限制数据分布的不均匀性。另外,限制数据还可能存在着不一致性,因此在训练时算法根据概率关系分析不一致的限制数据满足must-link关系的可能性,并将这种可能性引入到特征的权值分析中去。实验结果证明了算法的有效性和可行性。
   (2)为解决无监督聚类中用户对聚类结果无法进行人为控制的问题,提出了一种引入人工反馈的聚类算法。该算法以自组织映射算法作为人工反馈的基准算法,通过极大极小值理论从数据集合中选择多个聚点,同时采用局部密度方法来确定包含每个聚点的密集区域,并以此区域作为一个基因类,通过连接不同的密度区域形成神经元的初始结构。为解决传统自组织聚类算法拓扑结构固定的问题,设计了一种动态的神经元拓扑结构,通过动态的插入和删除神经元间的边使得神经元的拓扑结构能够根据上述反馈数据分布的变化而自动改变其分布。实验结果证明了该基因聚类算法可以有效提高聚类结果的准确率,并且使聚类结果沿着用户需求的方向进行改变。
   (3)针对现有分类方法的不足,提出了一种用于肿瘤亚型识别研究的粒子群神经网络集成算法。算法根据相似性度量函数来滤出分类无关基因,形成候选特征子集。采用基于灵敏度分析的BP神经网络模型作为基分类器,分别对候选特征子集进行学习,将特征基因提取和基分类器训练结合在一起,进一步剔除冗余基因。粒子群优化算法全局优化搜索BP神经网络的权值和阈值。实验结果证明了该算法提取出的特征更有针对性,对肿瘤分型具有良好的识别率。针对肿瘤基因表达谱样本少、维数高的特点,提出一种用于肿瘤信息基因提取和亚型识别的集成分类器算法。算法根据基因的Fisher比率值建立候选子集,再采用相关系数和互信息两种度量方法,分别构造反映基因共表达行为的特征子集。粒子群优化算法分别与SVM和KNN结合构成两个基分类器,从候选子集中提取信息基因并对肿瘤亚型进行分类,最后利用绝对多数投票方法对基分类器的结果进行整合。实验结果表明了算法的有效性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号