首页> 中文学位 >应用数据挖掘算法研究多发性硬化症基因表达谱
【6h】

应用数据挖掘算法研究多发性硬化症基因表达谱

代理获取

目录

声明

封面

中文摘要

英文摘要

英文缩写注解

目录

第一章 前 言

1.1 研究背景及研究目的

1.2 基因芯片与数据挖掘

1.3 数据挖掘实施步骤

第二章 资料与方法

2.1 多发性硬化症基因芯片数据预处理

2.2 特征选择算法应用及实施策略

2.3 疾病分类模型构建及评估

2.4 所甄别的基因生物功能分析

2.5 疾病分类软件cMS开发

第三章 结 果

3.1 基因芯片的数据质量分析

3.2 多发性硬化症相关基因集合

3.3 基因功能的生物信息分析

3.4 疾病分类模型评估结果

3.5 疾病分类软件cMS应用

第四章 讨 论

4.1 数据挖掘技术应用价值及意义

4.2 所甄别基因的疾病关联程度

4.3 本研究创新点、不足之处及展望

第五章 结论

参考文献

综述数据挖掘技术与基因芯片数据分析

1 数据挖掘技术最新发展

2 数据挖掘技术在基因芯片数据分析中的应用

3 展望

参考文献:

附录1:

附录2:

致谢

展开▼

摘要

背景与目的:多发性硬化症(multiple sclerosis)是一种慢性、炎症性中枢神经系统失调疾病,其临床症状主要表现为病灶性脱髓鞘、轴突损伤和髓鞘再生受限。大多数多发性硬化症患者的发病结局是慢性多病灶性硬化斑块。多发性硬化症的群体发病率在全球范围的分布不均匀,依不同国家和特定族群发病率介于每十万人中两人至一百五十人之间。不同族群的多发性硬化症发病率的差异反映了该病的遗传易感基因在不同群体的差异分布。遗传性因子在多发性硬化症发生过程中的作用非常重要,并受到环境因素的影响。现有研究缺乏对多发性硬化症特征基因的了解。虽有一些研究利用基因芯片技术探索多发性硬化症的基因表达模式,但大多数研究所识别基因的数目较多,在实际中难以应用。对多发性硬化症的具有重要生物功能的特征基因进行研究是更好地了解该疾病发病机制的途径。在临床上,腰椎穿刺或核磁共振成像扫描大脑是当前主要的多发性硬化症临床诊断方式,但这两种诊断方式具有损伤性和费用昂贵的缺点。本研究应用数据挖掘算法分析多发性硬化症基因表达谱,寻找与多发性硬化症潜在相关的基因,并基于所识别的基因构建数学模型对样本进行分类,评估模型的分类性能,并确定性能最优的样本分类模型,以辅助临床上对多发性硬化症样本的判定。
  材料与方法:本研究以公共的多发性硬化症基因表达谱数据库作为基础。首先,从基因表达数据库GEO获得支持数据源,并对基因表达谱数据集进行预处理,主要包括背景校正、归一化和过滤等步骤。接着,使用多种特征选择算法筛选疾病特征基因。特征选择算法的基本任务是从众多特征中抽取出那些对分类识别最有效的特征,进而实现特征空间维数的压缩,实际上是寻找将一个高维空间变换为低维空间的最优映射。本研究综合地应用三种著名的特征选择算法(递归特征删除法、ROC特征选择算法与Boruta算法),产生一个特征基因筛选的混成算法程序,识别出一组稳定的多发性硬化症关联基因。然后,应用生物信息学工具对基因的功能进行分析。最后,根据所筛选的基因,构建多种疾病分类预测模型,用交叉验证方法评估模型,并最终确定最优的疾病分类模型,并使用面对对象语言编写界面操作软件,用于新样本数据分类预测。
  结果:综合地应用特征选择算法对预处理后的数据集筛选重要基因,根据特征算法对基因重要性的排序结果,在第一个数据集和第二个数据集中分别确定八个和二十三个基因多发性硬化症潜在相关基因。对两个不同数据集进行基因集合取交集运算,计算结果显示基因TNFSF10是重叠的基因。通过应用GeneCard生物信息数据库分析该基因的生物学功能,进一步确定基因TNFSF10与多发性硬化症的密切关系。本研究通过数据挖掘技术和生物信息学分析方法也发现基因Ccr3与多发性硬化症的相关性高。基因TNFSF10和Ccr3分别涉及的生物功能包括细胞因子激活、信号转导激活等,参与的生物过程涉及包括介导细胞凋亡、信号传导、炎性反应等。在所识别的基因中,其余基因对多发性硬化症样本的分类性能良好,它们与多发性硬化症的关联性证据有待进一步挖掘。对数学模型的分类性能进行验证评估后,确定了支持向量机模型为分类性能最优的疾病样本分类器,以本研究的整个数据挖掘框架为基础,设计和开发一个界面操作软件cMS。
  结论:(1)疾病的基因表达谱数据是海量的,包含成千上万个的基因。数据挖掘技术可以分析疾病的基因表达谱,有效地识别疾病的特征基因。
  (2)本研究通过数据挖掘算法甄别了两个基因TNFSF10和Ccr3,它们与多发性硬化症密切相关。
  (3)基因TNFSF10和Ccr3的生物功能分别涉及细胞因子激活、信号转导激活等,参与的生物过程涉及包括介导细胞凋亡、信号传导、炎性反应等,与多发性硬化症发生关系密切。
  (4)在所识别基因的基础上,构建多种疾病分类数学模型,并通过交叉验证技术确定最优的分类模型作为疾病样本的判定模型,最后使用面对对象语言编写一款界面操作软件实现本文提出的数据挖掘分析框架。该建模分析框架,可以应用于分析和识别其他复杂性疾病的致病性遗传因子。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号