首页> 中国专利> 一种基于序列比对的分析DNA突变类型的方法

一种基于序列比对的分析DNA突变类型的方法

摘要

本发明公开了一种基因表达中一类遗传变异算法分析突变类型的基于计算机的方法,在计算机中输入野生型DNA1序列和突变型DNA2序列,通过算法直接可以详细输出了突变类型,发生突变的位置,和碱基变化情况,最后,仿真结果验证了该算法的有效性,该遗传变异算法具有准确,高效,省时,省力的优点,而且其结果明确,每个变异基因都有清晰的显示。

著录项

  • 公开/公告号CN108573128A

    专利类型发明专利

  • 公开/公告日2018-09-25

    原文格式PDF

  • 申请/专利权人 山东大学;

    申请/专利号CN201810264214.8

  • 发明设计人 高瑞;赵宇晴;

    申请日2018-03-28

  • 分类号

  • 代理机构济南圣达知识产权代理有限公司;

  • 代理人王志坤

  • 地址 250061 山东省济南市历下区经十路17923号

  • 入库时间 2023-06-19 06:38:41

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2023-03-10

    未缴年费专利权终止 IPC(主分类):G16B20/20 专利号:ZL2018102642148 申请日:20180328 授权公告日:20200807

    专利权的终止

  • 2020-08-07

    授权

    授权

  • 2018-10-26

    实质审查的生效 IPC(主分类):G06F19/22 申请日:20180328

    实质审查的生效

  • 2018-09-25

    公开

    公开

说明书

技术领域

本发明属于遗传变异算法技术领域,具体涉及基因表达中一类遗传变异算法。

背景技术

生物学正处于像其他大多数科学领域一样的数据雪崩时代。“大数据”一词起源于互联网和IT行业,但随着人类基因组计划的完成,生物技术产业的一场革命导致了高通量测序技术的快速发展,使生命科学研究获得了强大的数据输出能力,包括基因组学、转录组学、蛋白质组学、代谢组学等生物数据。大数据具有以下特点:大量、多样、高速、低价值密度和真实性。一个新的领域生物信息学应运而生,以满足对于分析和处理近期涌现的大数据的需求。

生物信息学作为一门新兴的,发展迅速的交叉学科,在过去十年中有着爆炸性的成长。自20世纪80年代末以来,生物信息学这一术语普遍用于遗传数据的比较分析算法中。生物信息学分析主要致力于分子生物学中的三大数据集:基因组序列、大分子结构和功能基因组学实验结果(如表达数据)。其中,序列比对具有重要意义,从信息科学角度看,序列比对从严格意义上讲属于同源分析,同源性分析对生命起源、进化树构建、肿瘤学、精准医学等领域的研究有着重要的影响。序列比对算法是在计算机辅助下生物信息学研究的关键方法。成对序列比对方法通常用来寻找两个给定序列的局部比对或全局比对。为了产生两两比对,有三种基本方法:点矩阵法、动态规划法和词方法。点矩阵法生成一个单一序列区域的对齐序列,尽管在概念上简单易懂,但是当大规模分析时及其耗时。动态规划算法在成对比对中是应用最广泛的算法,但对于长序列或大量序列来说,速度较慢。GA,PSO,ACO,GSA等各种软计算算法在近几年都有发展趋势,词方法也被称为k-词法,它是一种启发式的算法,不能保证找到最佳的对齐方案,但显然比动态规划算法更有效率。虽然以上提到的算法都有各自的优缺点,但是对于精确到碱基变化的突变类型分析还没有实现,此外,当海量数据到时,特定基因突变类型的判定也一直是一个问题,因此,亟待提供一种精确有效的算法来区分特定基因突变类型的功能,同时为以后大量数据的处理提供基础。

发明内容

针对现有技术中存在的不足,本文的目的在于提出了一种基因表达中一类遗传变异算法,该遗传变异算法实现了区分特定基因突变类型的功能,且这里的算法与其他算法不同,具有非常详细的输出,即根据突变的规律,对于输入的DNA序列对,该算法基于计算机输出了突变类型,发生突变的位置,和具体的碱基突变情况。最后,仿真结果验证了该算法的有效性,该遗传变异算法具有准确,高效,省时,省力的优点,而且其结果明确,每个变异基因都有清晰的显示。

为了实现上述目的,本发明提供了一种基于序列比对的分析DNA突变类型的方法,包括以下步骤:

步骤1:在所述计算机中输入野生型DNA1和突变型DNA2序列;

步骤2:比对野生型DNA1和突变型DNA2序列,确定第一个不同的突变碱基i,并比对i后三位碱基i+1、i+2和i+3是否相同,若DNA1和DNA2中i+1~i+3三位碱基比对相同转步骤3;若不同则转步骤4;

步骤3:判断突变碱基i是否导致终止密码子的形成,是则判断突变类型为无意义突变,计算机输出结果,结束;否则判断为错义突变,计算机输出结果,结束;

步骤4:在碱基i的基础上滑动N个碱基,其中N≥1,直到发现DNA1和DNA2中i+1~i+3三位碱基比对相同,则滑动停止,进入步骤5;

步骤5:根据步骤4滑动的碱基个数N进行判断,若滑动碱基个数N=1,则判断突变类型为插入突变和缺失突变,计算机输出结果,结束;若滑动碱基个数N≠1则进行步骤6;

步骤6:判断滑动碱基个数N是否被3整除,是则判断为重复延伸,输出结果,结束;否则判断为复制突变,计算机输出结果,结束。

本发明遗传算法的设计构思:根据突变的长短可以将突变分为三类:错义突变和无意义突变,插入突变和缺失突变,重复延伸和复制突变。其中错义突变和无意义突变都是一个碱基对的变化,两者之间的区别是无意义突变形成了终止密码子(TAG,TAA,TGA)并导致了蛋白质的缩短,而错义突变仅改变一个氨基酸,在本发明算法中通过比对DNA1或DNA2序列确定一个突变碱基i,且DNA1或DNA2中i后的三位碱基都比对相同时,判断该突变是否导致终止密码子的形成来确定突变类型,有终止密码子的形成则为无义突变,没有终止密码子的形成则为错义突变;

插入突变和缺失突变是相对的,两者都改变了一个碱基对,碱基对的插入增加和缺失减少会导致突变点后的碱基对多一个或者少一个,在本发明算法中确定第一个突变碱基i的基础上,通过滑动DNA1或DNA2中一个碱基即可实现DNA1和DNA2中i后的三个碱基比对相同;

而重复延伸和复制突变显著增加了碱基的数量,所以本发明算法中在确定第一个突变碱基i的基础上,需要滑动碱基数N>1个时,才可实现DNA1和DNA2中i后的三个碱基比对相同,由于重复扩增是3碱基对连续重复多次,重复突变则由一段异常复制一次的DNA组成,所以根据滑动碱基个数N是否被3整除判断具体突变类型,若N被3整除被则判断为重复延伸,否则为复制突变。

本发明算法上述所有工作都是由计算机完成的,因此速度更快,准确性更高。

DNA突变中,点突变即错义突变和无意义突变、插入突变和缺失突变在整个DNA序列中只有一点发生突变,但其对其蛋白产物有多种影响,这些蛋白质中可能含有良性或恶性产物,影响蛋白质的成分、生产和功能。大规模突变即重复延伸和复制突变,这些突变可以改变染色体上的许多基因并破坏这些基因产生的蛋白质,可能会影响所有生物系统的生长发育和正常运作。因此,提供一种精确有效的算法来区分特定基因突变类型的功能,对以后研究基因表达有着重要的作用。

所述错义突变和无意义突变以及插入突变和缺失突变是所述重复延伸和复制突变的必要条件。

本发明还提供了一种基于序列比对的分析DNA突变类型的方法在判断突变类型、突变位置和碱基变化情况中的应用。

本发明还提供了一种基于序列比对的分析DNA突变类型的方法的装置,所述装置包括:用于收集识别野生型DNA1和突变型DNA2序列信号的软件,用于比对分析所述DNA序列的计算机,所述计算机被编程以便执行如下步骤:

步骤1:比对野生型DNA1和突变型DNA2序列,确定第一个不同的突变碱基i,并比对i后三位碱基i+1、i+2和i+3是否相同,若DNA1和DNA2中i+1~i+3三位碱基比对相同转步骤2;若不同则转步骤3;

步骤2:判断突变碱基i是否导致终止密码子的形成,是则判断突变类型为无意义突变,结果输出,结束;否则判断为错义突变,结果输出,结束;

步骤3:在碱基i的基础上滑动N个碱基,其中N≥1,直到发现三个相同的碱基滑动停止,进入步骤4;

步骤4:根据步骤3滑动的碱基个数N进行判断,若滑动碱基个数N=1,则判断突变类型为,输出结果,结束;若滑动碱基个数N≠1则进行步骤5;

步骤5:判断滑动碱基个数N是否被3整除,是则判断为重复延伸,输出结果,结束;否则判断为复制突变,输出结果,结束。

本发明还提供了一个存储有计算机程序的计箅机可读存储介质,所述计箅机程序使计箅机执行上述所述的步骤。

本发明的有益效果为:

1)本发明的遗传变异算法实现了区分特定基因突变类型的功能。对于输入的野生型DNA和突变型DNA序列,本发明的算法可以输出非常详细的结果,即突变类型,突变位置和碱基变化情况。最后,发明人通过仿真结果验证了该算法的有效性。

2)本发明的遗传变异算法具有准确,高效,省时,省力的优点,而且其结果明确,每个变异基因都有清晰的显示。

说明书附图

图1为算法流程图。

图2为外显子5的仿真结果。

图3为外显子8的仿真结果。

具体实施方式

结合实施例对本发明作进一步的说明,下述说明仅是为了解释本发明,并不对其内容进行限定。

实施例1

本发明在的目的是提供一种基于序列比对的分析DNA突变类型的方法,该算法实现了区分基因突变类型的功能,且在算法结束时,计算机可以详细的输出突变类型,突变的位置和特定碱基的变化。算法过程如下:

步骤1:在所述计算机中输入野生型DNA1和突变型DNA2序列;

步骤2:比对野生型DNA1和突变型DNA2序列,确定第一个不同的突变碱基i,并比对i后三位碱基i+1、i+2和i+3是否相同,若DNA1和DNA2中i+1~i+3三位碱基比对相同转步骤3;若不同则转步骤4;

步骤3:判断突变碱基i是否导致终止密码子的形成,是则判断突变类型为无意义突变,计算机输出结果,结束;否则判断为错义突变,计算机输出结果,结束;

步骤4:在碱基i的基础上滑动N个碱基,其中N≥1,直到发现DNA1和DNA2中i+1~i+3三位碱基比对相同,则滑动停止,进入步骤5;

步骤5:根据步骤4滑动的碱基个数N进行判断,若滑动碱基个数N=1,则判断突变类型为插入突变和缺失突变,计算机输出结果,结束;若滑动碱基个数N≠1则进行步骤6;

步骤6:判断滑动碱基个数N是否被3整除,是则判断为重复延伸,输出结果,结束;否则判断为复制突变,计算机输出结果,结束。

实施例2

为了验证上述算法,本申请通过仿真数据进行验证。

1.仿真数据

本文的仿真数据来源于人TP53基因。随着经济的发展和人口老龄化的加剧,癌症作为一种与年龄相关的疾病近年来急剧增加。2015年约有9050万人患癌症[17]。每年约发生1410万新病例,造成约880万人死亡,约占死亡总数的15.7%。

TP53是最重要的肿瘤抑制基因之一,抑癌基因有效预防癌症的形成。当TP53基因发生突变时,不仅丧失了野生型TP53基因对肿瘤增殖的抑制作用,而且突变本身也使该基因具有致癌基因的功能。TP53是大多数癌症中突变最严重的基因,约有50%的人类癌症中检测到了TP53基因的突变[19]。TP53有11个外显子和10个内含子,其突变主要位于外显子5到8的位置。大多数TP53突变是错义突变,占所有突变的75%以上。参考文献[20]显示了在TP53基因上发生的一些独立的点突变,约有350多例。由于需要对TP53突变进行研究,在过去的十年中出现了许多TP53突变数据库。国际癌症研究机构(IARC)作为专业的国际癌症研究机构,TP53数据库收集了1989年至今发表的文献中提到的所有TP53基因突变(http://www.iarc.fr/)。本文根据IARC数据库统计的TP53基因突变类型,构建了一套模拟数据。为了简单起见,将外显子5和外显子8中发生的几个突变整合到一对DNA链中。结果如下。

2.仿真结果

根据实施例1,我们给出了野生型和突变型的两个DNA序列,用粗体和下划线标出这两种类型的区别。仿真结果如下所示。

(1)外显子5

(a)野生型(SEQ ID NO.1)

(b)突变型(SEQ ID NO.2)

(b)仿真结果如图2

(2)外显子8

(a)野生型(SEQ ID NO.3)

突变型(SEQ ID NO.4)

(b)仿真结果如图3

(3)仿真分析

从仿真结果可以看出,该算法能准确判断突变类型,突变位置和具体的碱基变化情况。算法的第一阶段是在野生型和突变型中找到不同的碱基。在模拟中,TP53的外显子5,即第31个碱基C/T是第一个不同的碱基。野生型和突变型的碱基C/T的后三碱基都是AAC。因此,可以基本判断为错义突变或无意义突变。而突变类型的三联体密码子TAA是终止密码子。所以C/T替代导致了无意义突变。至于第三个不同的碱基T/A,碱基T/A的后三碱基都是CTA,但是它的突变没有导致终止密码子。所以第三个突变被区分为错义突变。第二个不同的碱基是G/C,碱基G/C的后三碱基不同,但是滑动一个野生型的碱基再次比较,可以找到三个相同的碱基CCC。因此可以判定为插入突变。类似地,对于第四个不同的碱基T/A,可以发现突变类型的一个碱基可以找到三个相同的碱基AGC。因此可以判定为缺失突变。在TP53的外显子8中,第一个不同的碱基是T/C,而野生型的第六个碱基可以找到三个相同的碱基TCC。滑动位N=6可以被3整除,基本可以判断为重复延伸,但仍然需要根据定义进一步判断。由于突变类型的确是3碱基对序列CTG重复,所以模拟2中的第一个突变是重复延伸。第二个不同的碱基是G/C,滑动位N=24也可以被3整除。但是根据定义的进一步判断表明,这个突变不是一个3碱基对的序列重复,它是一个长的DNA序列复制一次。所以可以判断为复制突变。上述所有工作都是由计算机完成的,因此速度更快,准确性更高。

人类基因组计划的完成,导致了生物产业的一场革命。生物信息学获得了强大的数据输出能力,而生物信息学的基础就是序列比对。序列比对作为同源性分析的基础工作,在信息科学研究中占有重要地位,因此需要更高效的算法来处理这些“大数据”。本文的遗传变异算法实现了区分特定基因突变类型的功能。这里的算法与其他算法不同,它具有非常详细的输出。仿真结果显示,对于输入的野生型和突变型DNA序列,该算法输出突变类型,突变位置和特定碱基改变条件。遗传变异算法具有准确,高效,省时,省力的优点,而且其结果明确,每个变异基因都有清晰的显示。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围内。

SEQUENCE LISTING

<110> 山东大学

<120> 基因表达中一类遗传变异算法的研究

<130> 2010

<160> 4

<170> PatentIn version 3.3

<210> 1

<211> 184

<212> DNA

<213> 人工合成

<400> 1

tactcccctg ccctcaacaa gatgttttgc caactggcca agacctgccc tgtgcagctg 60

tgggttgatt ccacaccccc gcccggcacc cgcgtccgcg ccatggccat ctacaagcag 120

tcacagcaca tgacggaggt tgtgaggcgc tgcccccacc atgagcgctg ctcagatagc 180

gatg 184

<210> 2

<211> 184

<212> DNA

<213> 人工合成

<400> 2

tactcccctg ccctcaacaa gatgttttgc taactggcca agacctgccc tgtgcagctg 60

tgggttgatt ccacaccccc cgcccggcac ccgcgtccgc gccatggcca actacaagca 120

gtcacagcac atgacggagg ttgtgaggcg ctgcccccac catgagcgct gctcagaagc 180

gatg 184

<210> 3

<211> 137

<212> DNA

<213> 人工合成

<400> 3

tggtaatcta ctgggacgga acagctttga ggtgcgtgtt tgtgcctgtc ctgggagaga 60

ccggcgcaca gaggaagaga atctccgcaa gaaaggggag cctcaccacg agctgccccc 120

agggagcact aagcgag 137

<210> 4

<211> 167

<212> DNA

<213> 人工合成

<400> 4

tggtaatcta ctgggacgga acagctttga ggtgcgtgtt tgtgcctgct gctgtcctgg 60

gagagaccgg cgcacagagg aagagaatct ccgcaagaaa ggggagcctc accacgacaa 120

gaaaggggag cctcaccacg agctgccccc agggagcact aagcgag 167

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号