首页> 中文学位 >基于基因表达谱数据和氨基酸序列的特征提取方法研究
【6h】

基于基因表达谱数据和氨基酸序列的特征提取方法研究

代理获取

目录

封面

声明

中文摘要

英文摘要

目录

第1章 引言

1.1 生物信息学的概念

1.2 生物信息学的主要研究内容

1.3 生物信息学研究的现状和趋势

1.4 生物信息学研究的意义

第2章 基础知识

2.1 支持向量机简介

2.2 支持向量机常用核函数及参数

2.3 支持向量机特点

2.4 判别效果的评估

第3章 肿瘤表达数据分析中的特征基因提取

3.1 研究背景和意义

3.2 肿瘤亚型分类问题描述

3.3 特征基因提取过程及方法

3.4 数据集、结果和讨论

3.5 结论

第4章 信号肽及其剪切点预测的特征向量提取

4.1 研究背景和意义

4.2 信号肽及其结构

4.3 数据集

4.4 信息肽及其剪切点的预测

4.5 结果与讨论

4.6 结论

第5章 酶分类问题的特征向量提取

5.1 研究背景和意义

5.2 数据集

5.3 蛋白质特征向量提取方法

5.4 结果与讨论

5.5 结论

结论

参考文献

致谢

个人简历、在学期间发表的学术论文及研究成果

展开▼

摘要

人类基因组计划实施以来已积累了海量的生物序列数据。随着现代生物技术的快速发展,高通量检测工具日趋完善,后基因组研究的瓶颈已不再是生物序列数据的产生和获取,而是如何对现有的生物序列数据进行有效的信息挖掘和分析。只有利用新的、有效的数据挖掘和分析工具才能从海量的生物学数据中提炼出有用的生物学知识,才能弄清楚它们所蕴含的结构和功能信息,进而彻底了解它们所表达的生物学意义。  模式识别技术是揭示核酸和蛋白质序列数据中所蕴含的生物学意义的基本方法之一。其出发点是找出不同序列间的相似片段,从而归结出序列片段中蕴含的特征模式,进而推断出该特征模式与已知的结构和功能之间的内在联系。对于基因表达谱数据而言,模式识别就是利用基因的数据分布特征信息找出相关的特征基因。对于蛋白质序列而言,模式识别就是利用蛋白质序列的某些特征模式识别相关蛋白质的性质。本文通过生物信息学领域三个比较热点的问题介绍了自己在这方面的相关研究和工作。  特征基因提取方法对肿瘤检测来说已经成为当今研究肿瘤分子诊断的热点,但由于基因表达谱数据存在维数过高、样本量很小以及噪音很大等特点,使得肿瘤特征基因选择成为一件有挑战性的工作。本章提出一种新的寻找特征基因的方法,首先基于区间间隔或覆盖比的方法来初步选出一些特征基因,而后删掉其中的冗余基因,达到以最少的基因数得到更高的分类准确率。实验采用了三种肿瘤样本集来验证新算法的有效性。针对这三个样本集,只要2或3个特征基因就能得到100%的5-折交叉验证识别准确率。  基于氨基酸序列的特征向量提取方法对研究蛋白质的结构和功能有着重要的作用。不论在原核生物还是真核生物中,信号肽几乎控制着所有蛋白质的分泌途径,为此它的发现对现代细胞生物学研究有着重大的影响。在建立它的特征向量时,在伪氨基酸模型的基础上加入了局部氨基酸信息,使实验结果有了很大的提高,整体预测结果达到了97%以上。在其剪切点的判断问题上考虑到数据的不平衡性,对位置权矩阵进行了改进,结果也有所改善。酶作为一种重要的生物催化剂在生物代谢过程中扮演着非常重要的角色,并且一种酶的功能与它所属的类或子类有着密切的关系。所以,酶的分类问题就显得非常有用。对于酶的特征向量,是在伪氨基酸模型的基础上引入相邻氨基酸信息同时融入更多的生物化学特征来建立的,同时结合优良的多分类器-最优证据理论-KNN分类器,使分类性能达到83%以上。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号