首页> 中国专利> 基因组性染色体非同源区域的鉴定方法和装置

基因组性染色体非同源区域的鉴定方法和装置

摘要

本申请提供了一种基因组性染色体非同源区域的鉴定方法和装置。该鉴定方法包括获取XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据,各个体的测序深度为第一测序深度;获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;分别计算XY型或ZW型个体以及XX型或ZZ型个体的二代测序数据与组装基因组的比对结果中每个contig或scaffold测序深度,分别记为第二测序深度和第三测序深度;第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或scaffold是性染色体非同源区域。利用两种性别个体的reads深度共同鉴定的非同源区域更准确。

著录项

  • 公开/公告号CN113205857A

    专利类型发明专利

  • 公开/公告日2021-08-03

    原文格式PDF

  • 申请/专利号CN202110746653.4

  • 发明设计人 周勋;赵勇;陶琳娜;苏亚南;王龙;

    申请日2021-07-02

  • 分类号G16B30/00(20190101);

  • 代理机构11240 北京康信知识产权代理有限责任公司;

  • 代理人路秀丽

  • 地址 301700 天津市武清区武清开发区创业总部基地B07

  • 入库时间 2023-06-19 12:05:39

说明书

技术领域

本申请涉及基因组组装领域,具体而言,涉及一种基因组性染色体非同源区域的鉴定方法和装置。

背景技术

每一个物种的参考基因组序列(reference genome)的产生都要先通过测序的方法,获得基因组的测序读段(reads),然后再进行从头拼接或组装(英文名称为de novogenome assembly),最后还原测序物种的各条染色体的序列,即ATGC四种碱基的排列顺序。

由于目前的高通量测序技术虽然通量较高,但读段较短,无法直接测序获取一整条染色体的序列。其中,一代测序(Sanger测序)一般可测1kb左右的序列;二代测序(next-generation sequencing),一般可测50~500bp;三代测序虽然可测100kb甚至更长的序列,但现在三代测序技术的测序错误率相对较高。

目前基因组测序数据的从头组装过程简单描述为:测序读段(reads)---->重叠群(contig)---->支架(scaffold)---->染色体(chromosome)。具体地,基因组测序产生reads,然后基于reads之间的重叠的区域,对reads进行组装产生长片段的重叠群(contigs),再确定contig的方向和顺序,进一步组装产生更长的片段支架(scaffolds),最后再组装连接scaffold得到完整的染色体序列。

其中,contig是由多个reads通过重叠的区域进行组装而形成的长片段。由于测序读段较短、基因组序列通常含有较多重复序列、而且还有测序错误等原因,除了简单的基因组序列外,大部分物种的基因组序列组装需要先组装成多个contigs。

进一步地,方向和顺序已经确定的多条contig序列连接形成的更长的片段,称为scaffold。scaffold的获得一般主要通过双端测序(如paired-end sequencing或mate-pair sequencing)或者bionano光学图谱技术来确定contig的顺序和方向,以及contig之间的间隔距离。

基因组从头组装过程中,应用二代测序数据结合三代测序数据能够将基因组初步组装到contig水平,通过Hi-C技术(High-through Chromosome conformation capture,高通量测序与染色体构型捕获相结合的技术)能够基于染色体内部互作关系将基因组挂载至近染色体水平,目前已发表的大部分基因组均能够达到近染色体水平,而性染色体非同源区域在组装过程中往往不能进行有效区分。

性染色体分为XY基因型和ZW基因型,所有哺乳类动物、多数雌雄异株植物、昆虫、某些鱼类及两栖类动物的性别决定方式为XY基因型。ZW基因型普遍存在于鳞翅目昆虫、两栖类、爬行类和鸟类之中。XY基因型中,XX基因型为雌性,XY基因型为雄性。ZW基因型中,ZW基因型为雌性,ZZ基因型为雄性。

由于X、Y染色体之间,Z、W染色体之间存在大段同源区段,使得在基因组组装到染色体水平中,性染色体XY基因型的Y染色体,ZW基因型的W染色体,只能组装出部分片段,在进行hic挂载时,对于XY基因型或者ZW基因型的个体,性染色体只能挂载出单条X染色体或Z染色体,相应的Y或者W染色体因存在大量的同源区域,目前的组装技术并不能有效的进行挂载,非同源区域会存在于未挂载的contig片段中,目前已发表的基因组未能将存在于contig片段中性染色体的非同源区域鉴定出来。

综上可知,基因组组装到染色体水平后,性染色体非同源区域因片段化较为严重,同常染色体片段序列共同存在于未挂载到染色体的片段序列中,因此,存在无法将性染色体的非同源区域片段和常染色体的片段鉴定出来的问题。

发明内容

本申请的主要目的在于提供一种基因组性染色体非同源区域的鉴定方法和装置,以解决基因组组装的过程中性染色体非同源区段难以鉴定的问题。

为了实现上述目的,根据本申请的一个方面,提供了一种基因组性染色体非同源区域的鉴定方法,该鉴定方法包括:获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据组装得到;计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;其中,第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold是性染色体非同源区域。

进一步地,计算第二测序深度和第三测序深度包括:对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;对XY型或ZW型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;对XX型或ZZ型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。

进一步地,比对软件为BWA软件。

进一步地,采用samtools软件对第一bam文件和第二bam文件进行排序,并利用samtools软件分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度。

进一步地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。

为了实现上述目的,根据本申请的一个方面,提供了一种基因组性染色体非同源区域的鉴定装置,鉴定装置包括:第一获取模块,用于获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;第二获取模块,用于获取通过三代测序数据组装得到的XY型或ZW型个体的组装基因组;计算模块,用于计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;选取模块,用于选取第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。

进一步地,计算模块包括:索引构建模块,用于对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;第一比对模块,用于对XY型或ZW型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;第二比对模块,用于对XX型或ZZ型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;排序及深度计算模块,用于对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。

进一步地,第一比对模块和第二比对模块为BWA比对模块。

进一步地,排序及深度计算模块为samtools模块。

进一步地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。

根据本申请的另一方面,提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任意一种基因组性染色体非同源区域的鉴定方法。

根据本申请的另一方面,提供了一种电子设备,包括处理器,处理器用于运行程序,其中,程序运行时执行上述任意一种基因组性染色体非同源区域的鉴定方法。

应用本申请的技术方案,提供了一种XY基因型或者ZW基因型基因组鉴定性染色体非同源区域的方法,根据XY或者ZW基因型基因组中,性染色体非同源区域的二代测序reads测序深度为常染色体的二分之一,而XX或者ZZ基因型的二代测序reads在与XY或者ZW基因型基因组比对的结果中,性染色体非同源区域的二代reads的测序深度为0的基本原则,通过分别对雌性及雄性个体测序的二代测序数据进行测序深度计算,并通过性染色体来源的区域片段的测序深度在两种个体中的深度差异,从而将性染色体(Y或者W)的非同源区域鉴定出来。本申请的方法克服了现有方法中利用单一个体中性染色体的非同源区域与众多的同源区域混杂在一起而难以准确鉴定的问题。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:

图1示出了本申请一种优选的实施例中的基因组性染色体非同源区域的鉴定方法的流程示意图。

具体实施方式

需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将结合实施例来详细说明本申请。

BWA,即Burrows-Wheeler-Alignment Tool。BWA 是一种能够将差异度较小的序列比对到一个较大的参考基因组上的软件包。首先需要使用索引命令构建参考基因组的索引,用于后面的比对。所以,使用BWA整个比对过程主要分为两步,第一步建索引,第二步使用BWA MEM进行比对。bwa的使用需要两种输入文件:1)参考基因组序列文件(Referencegenome data)(fasta格式 .fa, .fasta, .fna);2)短读段二代测序数据文件(Shortreads data ) (fastaq格式 .fastaq, .fq)。

bam文件说明:bam文件和sam文件内容其实是一样的,只是bam是二进制的压缩文件,需要通过特定的软件来进行查看,bam文件通常可以理解为12个字段组成。BAM格式分为两个部分:头部(header section,各种注释信息,以@开头)和主体(alignment section,即比对结果)。alignment section由11个字段组成:

1.QNAME: reads的名称, Read ID;

2.FALG: 是一个标记比对结果的数字,具体的FALG值可以查询得到;

3.RNAME:参考序列的名字,也可以理解为比对上的重叠群contig或者scaffold名字或者染色体号;

4.POS:比对到参考序列上的位置;

5.MAPQ:比对质量值(mapping quality);

6. CIGAR:代表比对结果的CIGAR字符串,如5M2D12M1I,这段字符的意思是按照顺序:前5个匹配,其后2个与参考序列相比缺失了,接着12个匹配,最后1个参考序列上的插入。M代表的是alignment match或mismatch (即匹配或错配),可以理解为表示比对的具体情况;

7. MRNM:表示mate 序列匹配上的参考序列(或染色体)的名称,mate一般指大的片段序列;

8. MPOS:表示该read对应的mate pair read在参考序列上的比对位置;

9. ISIZE:估计出的文库插入片段的长度,当mate 序列位于本序列上游时该值为负值;

10.SEQ :read的序列,即该read的序列信息;

11. QUAL:read质量信息,即该read对应的ASCII-33编码格式的碱基质量值;

12.OPT:可选的区域头部分(header section)。

如背景技术所提到的,现有的基因组组装过程中因性染色体中存在大量的同源区域而难以准确鉴定出来,为改善这一问题,发明人对现有的方法进行了研究分析,并发现:对于XY或者ZW基因型的基因组组装后的非同源区段鉴定,选取该个体的测序reads比对回上述基因组,根据性染色体的深度为常染色体的一半,选取数据比对深度为整体基因组比对深度一半的contig片段或scaffold为Y特异性染色体。利用该方法能够对性染色体非同源区域进行部分鉴定,但因为同源区段的影响,性染色体的reads深度并非准确的为整体深度的一半,单个体的鉴定结果准确性会存在误差。在此基础上,发明人进一步提出了本申请的改进方案。

实施例1

在本实施例中,提出了一种基因组性染色体非同源区域的鉴定方法。该鉴定方法包括:

S101,获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,其中,各个体的二代测序数据的测序深度为第一测序深度;

S102,获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据进行组装得到;

S103,计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的组装基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;

S104,选取第二测序深度为上述第一测序深度的1/2~2/3,且第三测序深度小于上述第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。

本发明的鉴定方法,同样利用了性染色体的深度为常染色体的一半的鉴定思路,但采用了对雌性和雄性两种性别个体的二代测序数据,通过两种性别个体的测序reads深度来共同判断性染色体的非同源区域,提高了性染色体非同源区域鉴定结果的准确性,也为基因组性染色体非同源区域鉴定提供一种新的思路和方法。

需要说明的是,通常情况下,三代测序数据的读长较长,用来对基因组序列进行组装。二代测序数据用于鉴定性染色体。本申请中的二代测序数据和三代测序数据可以是同一批次的测序数据,也可以是不同批次的测序数据,均不影响鉴定结果。

上述获取XY型或ZW型个体的组装基因组的步骤,可以根据已有的三代测序数据获得已经组装好的基因组,也可以是与二代测序数据同一批次测得的三代测序数据经过组装得到。

上述步骤S102中,利用三代测序数据对XY型或者ZW型个体的测序数据进行基因组组装的步骤与现有技术相同,均需要经过测序读段(reads)---->重叠群(contig)---->支架(scaffold)---->染色体(chromosome)的组装流程。

对于上述性染色体(本申请中重点指能单独指示性别的Y染色或W染色体)中来源于不同性别的个体的同源区域的测序深度符合理论上的1/2或0的原则,分别对两种性别个体中的Y或W染色体的深度进行统计,具体的统计方法可以采用常规的测序深度的计算方法。

在一种优选的实施例中,计算第二测序深度和第三测序深度包括:对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;对XY型或ZW型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;对XX型或ZZ型个体的二代测序数据使用比对软件比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。

优选地,比对软件为BWA软件。

优选地,采用samtools软件对第一bam文件和第二bam文件进行排序,并利用samtools软件分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度。

需要说明的是,上述两种性别的个体的二代测序数据均为高深度的测序数据,通常需要30×(需要说明的是,代表测序深度的×为乘号)以上。在本申请中,由于测序深度存在一定的差异,优选上述第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。此处所述的测序深度均指平均测序深度,而非单一碱基、单一contig或单一scaffold的测序深度。

下面将结合其他的实施例来进一步说明本申请的有益效果。

实施例2

按照本实施例,根据二代数据reads深度鉴别性染色体的非同源区域,具体方法如图1所示:

(1)选取雌性个体和雄性个体,各个体的基因组测序深度为30×的二代测序reads。

(2)对XY基因型或者ZW基因型组装的基因组(已有的)使用bwa软件构建索引,得到基因组的索引文件。

(3)将XY型或者ZW型的二代测序reads使用bwa软件比对回XY基因型或ZW基因型组装的基因组上,得到比对的bam文件。

(4)使用samtools软件对步骤(3)获得的bam文件进行排序,得到排序后的bam文件。

(5)将XX基因型或ZZ基因型的二代测序reads使用bwa软件比对回XY基因型或者ZW基因型组装的基因组上,得到比对的bam文件。

(6)使用samtools软件对步骤(5)获得的bam文件进行排序,得到排序后的bam文件。

(7)使用samtools软件计算步骤(4)获得的bam文件中每条contig或者scaffold(或染色体)的测序深度,得到XY基因型或者ZW基因型reads对基因组的测序深度。

(8)使用samtools软件计算步骤(6)获得的bam文件中每条contig或者scaffold(或染色体)的测序深度,得到XX基因型或者ZZ基因型reads对基因组的测序深度。

(9)取XY基因型或者ZW基因型中测序深度为15-20×的contig或者scaffold,并且在XX基因型或者ZZ基因型中测序深度为0-3×的contig或者scaffold,即为性染色体非同源区域。

实施例3

鸭子和鹅的性别决定基因型为ZW型,雌性为ZW型,雄性为ZZ型。根据本发明的步骤,对2只鸭子和一只鹅,分别选取雌性个体和雄性个体一只,测30X的二代reads,比对回雌性个体,挑选雌性reads比对覆盖度为15-20×的contig或者scaffold,雄性reads比对覆盖度为0-3×的contig或者scaffold,将得到的这些contig或者scaffold通过hic连接起来,最终得到2只鸭子的W染色体非同源区域长度为15,432,393bp和12,483,884bp,鹅的W染色体非同源区域长度为12,906,554 bp。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

对应于上述方式,本申请还分别提供了一种基因组性染色体非同源区域的鉴定装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

下面结合可选的实施例进一步说明。

实施例4

本实施例提供了一种基因组性染色体非同源区域的鉴定装置,该鉴定装置包括:第一获取模块、第二获取模块、计算模块及选取模块,其中,第一获取模块用于获取XY型或ZW型个体的二代测序数据,同时获取XX型或ZZ型个体的二代测序数据,其中,各个体的二代测序数据的测序深度为第一测序深度;第二获取模块用于获取XY型或ZW型个体的组装基因组,该组装基因组通过对XY型或ZW型个体的三代测序数据进行组装得到;计算模块用于计算XY型或ZW型个体的二代测序数据与XY型或ZW型个体的基因组的比对结果中,每个contig或scaffold的测序深度,记为第二测序深度;并计算XX型或ZZ型个体的二代测序数据与XY型或ZW型个体的基因组的比对结果中,每个contig或scaffold的测序深度,记为第三测序深度;选取模块用于选取第二测序深度为第一测序深度的1/2~2/3,且第三测序深度小于第一测序深度的1/10的contig或者scaffold,作为性染色体非同源区域。

该鉴定装置通过获取模块获取来源于两种不同性别个体的二代测序数据,并利用组装模块对两种性别的个体的基因组进行组装,然后利用计算模块计算出来源于不同性别的个体在每个contig、每个sacffold或每条染色体的测序深度,根据Y或W染色体在两种性别中的测序深度应为基因组平均测序深度的1/2或0的原则,从而筛选出同时满足这两种测序深度的contig或sacffold,从而得到性染色体的非同源区域。该装置对性染色体的非同源区域的鉴定结果更准确。

在一种优选的实施例中,上计算模块包括:索引构建模块,用于对XY型或ZW型个体的组装基因组使用比对软件构建索引,得到基因组的索引文件;第一比对模块,用于对XY型或ZW型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第一bam文件;第二比对模块,用于对XX型或ZZ型个体的二代测序数据比对回XY型或ZW型个体的组装基因组上,得到比对的第二bam文件;排序及深度计算模块,用于对第一bam文件和第二bam文件进行排序,并分别计算第一bam文件和第二bam文件中每条contig或scaffold的测序深度,得到第二测序深度和第三测序深度。

优选地,第一比对模块和第二比对模块为BWA比对模块。

优选地,排序及深度计算模块为samtools模块。

优选地,第一测序深度为30~35×;第二测序深度为15~20×;第三测序深度为0~3×。

实施例5

本实施例提供了一种计算机可读的存储介质,存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行上述任一种基因组性染色体非同源区域的鉴定方法。

本实施例还提供了一种电子设备,包括处理器,处理器用于运行程序,其中,程序运行时执行上述任一种基因组性染色体非同源区域的鉴定方法。

从以上的描述中,可以看出,与现有的基因组组装结果相比,本发明提供一种在现有组装结果鉴定性染色体非同源区域的方法,根据发明的方法,可以将组装结果中性染色体非同源区域根据reads深度鉴别出来,对研究性别决定机制及相关遗传特性提供方法支撑。

与相比现有技术,本申请的方案至少具有以下优点:

(1)使用雌性和雄性个体深度结合判断性染色体,鉴定的结果更准确。

(2)对性染色体同源区域和非同源区区域组装到一起的contig或者scaffold也能很好的鉴定。

需要说明的是,本发明采用了雌性和雄性个体,分别对雌性及雄性个体进行二代测序的方法。雌性和雄性个体选取多个时,性染色体的非同源区鉴定会更加准确。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号