基于统计特征的DNA序列特征提取方法研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着人类基因组计划的完成,以及各种生物基因序列的研究,人们已经获得了大量的基因组序列。在这些序列中含有丰富的信息,隐藏着复杂的生物学知识。如何从已经产生的海量数据中最大限度的挖掘有价值的信息成为科学家们面临的挑战和机遇。DNA序列的特征提取对于解读人类基因组所隐藏的结构和功能具有非常重要的意义。基于序列统计特征是指运用数学和信息科学理论的方法,从错综复杂的基因组序列中,提取一些体现其本质的具有代表性的特征。本文将提出两种不同的基于统计特征的序列提取方法。两种方法都是不需要序列比对,而且比传统的方法包含更多的信息,时间复杂度也很低。
　　一种新的基于统计特征法添加了6个碱基之间的相关因子与传统的4维核苷酸组成相结合代表一条DNA序列,这比传统的4维核苷酸组成包含更多的序列影响信息。而且为了计算简单,我们使用了对序列进行分段处理,这样减少了时间复杂度,分段值M是任意取值的,不会影响计算结果。
　　另一种新的基于统计特征法是在信息理论基础上提出来的。利用了信息理论中的信息熵和互信息理论,把单个碱基的概率和二联核苷酸的概率作为事件概率,利用信息理论的互信息熵求出四个碱基之间的16个互信息,因此一条DNA序列特征可以用这16个互信息熵表示。这种方法结合信息理论的思想得到了更多的序列影响信息,计算量也很少。
　　基于统计特征法应用广泛。通常用于区分基因的不同功能区域,进行序列比较分析,系统进化分析和基因分类等。本文提出的两种方法主要应用于系统进化分析中,在利用这两种新方法提取出来的特征基础上,对物种进行相似性分析,然后利用基于距离法构建进化树,采用PHYLIP软件中的Neighbor.exe程序来评估进化树的构建,通过做实验来验证这两种方法的应用性。

著录项

作者
胡奇光;
展开▼
作者单位

湖南大学;

展开▼
授予单位湖南大学;
学科计算机技术
授予学位硕士
导师姓名吴蓉晖,蒋智勇;
年度 2011
页码
总页数
原文格式 PDF
正文语种中文
中图分类 Q523.8;TP391.41;
关键词
DNA序列; 特征提取; 统计特征法; 进化树构建; 互信息熵;

相似文献

中文文献
外文文献
专利

1. DNA序列特征提取方法研究 [J] . 蔡春 ,苗立峰 ,邓乃扬 . 北京联合大学学报（自然科学版） . 2008,第004期
2. 基于碱基组成和分布的DNA序列特征提取方法及应用 [J] . 李玉双 ,魏东 ,吕艳芬 . 燕山大学学报 . 2018,第001期
3. 基于EMD的IMF时域统计特征提取及其应用于震动事件源类型识别研究 [J] . 薛思敏 ,黄汉明 ,施佳鹏 . 地震工程学报 . 2022,第1期
4. 基于失真统计特征提取的图像尘雾清晰化算法 [J] . 王尚鹏 . 计算机仿真 . 2020,第006期
5. 基于心理学的图像多分辨率统计特征提取 [J] . 谭南虹 ,施鹏飞 . 仪器仪表学报 . 2006,第z3期
6. 基于心理学的图像多分辨率统计特征提取 [C] . 谭南虹 ,施鹏飞 . 第四届全国信息获取与处理学术会议 . 2006
7. 基于统计特征提取的故障诊断方法研究 [A] . 胡玉成 . 2011

基于统计特征的DNA序列特征提取方法研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅