公开/公告号CN104156633A
专利类型发明专利
公开/公告日2014-11-19
原文格式PDF
申请/专利权人 上海美吉生物医药科技有限公司;
申请/专利号CN201410393446.5
申请日2014-08-12
分类号G06F19/18;
代理机构南京同泽专利事务所(特殊普通合伙);
代理人蒋全强
地址 201321 上海市浦东新区国际医学园区康新公路3399弄3号楼
入库时间 2023-12-17 03:09:47
法律状态公告日
法律状态信息
法律状态
2017-03-01
授权
授权
2014-12-17
实质审查的生效 IPC(主分类):G06F19/18 申请日:20140812
实质审查的生效
2014-11-19
公开
公开
技术领域
本发明涉及一种测序结果的处理方法,尤其是基于RAD图谱完善SSR图谱连接并辅助组装的方法,属于生物信息学领域。
背景技术
简单序列重复SSR(Simple Sequence Repeats)标记是近年来发展起来的一种以特异引物PCR为基础的分子标记技术,也称为微卫星DNA(Microsatellite DNA),是一类由几个核苷酸(一般为1~6个)为重复单位组成的长达几十个核苷酸的串联重复序列。每个SSR两侧的序列一般是相对保守的单拷贝序列。目前,该技术广泛应用于遗传连锁图谱构建、种质鉴定、遗传多样性及基因定位与克隆等研究。具有以下优点:(1)数量丰富;(2)具有多等位基因的特性,提供的信息量高;(3)以孟德尔方式遗传,呈共显性;(4)每个位点由设计的引物顺序决定,便于不同的实验室相互交流合作开发引物。但是,SSR标记仍然存在以下不足之处:(1)SSR标记的开发局限于已知基因组信息的物种;(2)序列去冗余拼接软件和SSR搜索及引物设计软件存在一定的局限性,从而影响SSR标记的准确性;(3)SSR标记多态性较低;(4)SSR标记密度一般比较低。
SSR测序方法是现有公知的测序方法,可参见外文文献《High-throughput targeted SSR marker development in peach (Prunus persica)》出版于《Genome》杂志2002年第45卷第2期319~328页,作者为Ying Wang、Laura L Georgi等;外文文献《SSR marker based DNA fingerprinting and diversity study in rice (Oryza sativa. L)》出版于《African Journal of Biotechnology》2006年第5卷第9期684~688页,作者为B. Kalyan Chakravarthi和Rambabu Naravaneni。中国专利文献CN102936627(申请号:201210465639.8)公开了一种香菇香九菌种的SSR标记指纹图谱与应用,该指纹图谱由7对基于香菇基因组序列开发的SSR标记的特异等位片段组合而成。
RAD(Restriction-site Associated DNA)是与限制性核酸内切酶识别位点相关的DNA。基于酶切的简化基因组测序(RAD-Seq)对酶切获得的RAD tag进行高通量测序,大幅降低基因组的复杂度,操作简便,同时不受参考基因组的限制,可快速鉴定出高密度的SNP位点。基于高密度的SNP位点通过图谱构建方法得到高密度遗传图谱。RAD-seq技术具有操作简便,周期短,实验成本低,不受参考基因组的限制,一次实验即获得的大量SNP信息,可以用于任何物种的高密度图谱的构建、基因(QTLs)定位及群体遗传分析等优点。但是,RAD图谱准确度相对SSR图谱有些差距。
RAD测序方法是现有公知的测序方法,可参见外文文献《Rapid and cost- effective polymorphism identificationand genotyping using restriction site associated DNA(RAD) markers》出版于《Genome Research》杂志2007年第17卷240~248页,作者为Michael R.Miller、Joseph P.Dunham、Angel Amores等;外文文献《RAD marker microarrays enable rapid mapping of zebrafish mutations》出版于《Genome Biology》杂志2007年第8卷第6期,作者为Michael R Miller、Tressa S Atwood、B Frank Eames等。
发明内容
本发明解决的技术问题是,提出一种将SSR图谱信息和RAD图谱信息整合在一起,相互纠正,相互补充,可以有效地提高图谱精度和图谱长度的基于RAD图谱完善SSR图谱的方法。
为了解决上述技术问题,本发明提出的技术方案是:一种基于RAD图谱完善SSR图谱的方法,包括以下具体步骤:
A.采用现有的SSR测序方法和RAD测序方法分别对样品进行测序获得样品的SSR图谱和RAD图谱;
B.在SSR图谱和RAD图谱中,分别确定标记在各scaffold上的物理位置,统计scaffold在连锁群上的分布,确定scaffold与连锁群的对应关系;
C.在SSR图谱和RAD图谱中,判断各scaffold所对应的真实连锁群和冲突连锁群;当真实SSR连锁群和真实RAD 连锁群有共有的scaffold时,建立真实SSR连锁群和真实RAD连锁群的一一对应关系;当scaffold有冲突连锁群时,去除冲突连锁群中所述scaffold的标记,得到无冲突的scaffold的标记;
D.在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离,确定各scaffold在连锁群内的排列顺序;
E.在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离和标记在scaffold上的物理位置,确定各scaffold在连锁群内的方向;
F. 已建立一一对应关系的SSR连锁群和RAD连锁群,根据SSR图谱和RAD图谱中各scaffold在连锁群内的排列顺序和方向,以SSR图谱中的SSR连锁群内的scaffold为骨架,将RAD连锁群内除共有scaffold外的其他scaffold补充到SSR图谱的SSR连锁群中,组装成整合图谱;
G.将整合图谱中的scaffold连接起来,得到染色体组装序列。
上述技术方案的一种优选是:上述步骤E中,判断所述scaffold在连锁群内的方向的具体步骤是:
分别计算出无冲突的scaffold的标记的遗传距离,将各标记的遗传距离从小到大排列得到标记在连锁群内的遗传距离序号,再根据所述标记在连锁群内的遗传距离序号和在所述scaffold上的物理位置计算出相关系数;
所述相关系数的计算公式是:
,
其中,xi是所述scaffold上的第i个标记的遗传距离序号,yi是所述scaffold上的第i个标记在scaffold上的物理位置,n是所述scaffold上的标记数,rx,y是所述scaffold的相关系数;
当相关系数为正数时,所述scaffold的方向是正向的;当相关系数为负数时,所述scaffold的方向是反向的;当无法计算出相关系数时,所述scaffold的方向默认是正向的。
上述技术方案的一种优选是:上述步骤E中,当共有scaffold在SSR图谱和RAD图谱中都能计算出相关系数时,所述scaffold的方向是scaffold在SSR图谱中的方向;当共有scaffold在SSR图谱和RAD图谱中都不能计算出相关系数时,所述scaffold的方向默认是正向的;当共有scaffold在SSR图谱中能计算出相关系数,在RAD图谱中不能计算出相关系数时,所述scaffold的方向是scaffold在SSR图谱中的方向;当共有scaffold在SSR图谱中不能计算出相关系数,在RAD图谱中能计算出相关系数时,所述scaffold的方向是scaffold在RAD图谱中的方向。
上述技术方案的一种优选是:上述步骤C中,判断所述scaffold所对应的真实连锁群的具体步骤是:
当所述scaffold对应一个SSR连锁群或RAD连锁群时,确定该连锁群为所述scaffold所对应的真实SSR连锁群或真实RAD连锁群;
当所述scaffold对应一个以上的SSR连锁群或RAD连锁群,且其中一个连锁群的标记数比其他连锁群的标记数多时,确定标记数多的连锁群是所述scaffold所对应的真实SSR连锁群或真实RAD连锁群,其他连锁群是所述scaffold的冲突SSR连锁群或冲突RAD连锁群;
当已确定的真实SSR连锁群和真实RAD连锁群有共有的scaffold时,建立真实SSR连锁群和真实RAD连锁群的一一对应关系;
当所述scaffold对应一个以上的SSR连锁群或RAD连锁群,且这些连锁群的标记数相同时,如果 SSR图谱中的scaffold在RAD图谱中有所对应的真实RAD连锁群,则确定与该真实RAD连锁群对应的SSR连锁群是所述scaffold所对应的真实SSR连锁群,其他连锁群是所述scaffold的冲突SSR连锁群;如果RAD图谱中的scaffold在SSR图谱中有所对应的真实SSR连锁群,则确定与该真实SSR连锁群对应的RAD连锁群是所述scaffold所对应的真实RAD连锁群,其他连锁群是所述scaffold的冲突RAD连锁群;否则将所述scaffold在图谱中的信息去除。
上述技术方案的一种优选是:上述步骤D中,判断所述scaffold在连锁群内的排列顺序的具体步骤是:
分别计算出无冲突的scaffold的标记的遗传距离,将各标记的遗传距离从小到大排列得到标记在连锁群内的遗传距离序号,再根据所述标记在连锁群内的遗传距离序号,计算出所述scaffold在连锁群内的平均位置参数,将各scaffold的平均位置参数从小到大排列确定各scaffold在连锁群内的排列顺序;
所述平均位置参数的计算公式是:
,
其中,xi是所述scaffold上的第i个标记的遗传距离序号,n是所述scaffold上的标记数,是scaffold在连锁群内的平均位置参数。
上述技术方案的一种优选是:上述步骤F中,当SSR图谱中的scaffold在RAD图谱上找不到时,根据所述scaffold与共有scaffold之间的遗传距离和所补充的RAD图谱中的scaffold的长度,判断其与共有scaffold之间的距离,从而确定所述scaffold在整合图谱中的位置。
上述技术方案的一种优选是:上述步骤G中,scaffold之间连接一定数量的n,n表示未知序列。
本发明具有积极的效果:
(1)本发明的基于RAD图谱完善SSR图谱的方法用高密度的RAD图谱完善较为稀疏的SSR图谱连接并辅助组装,是一种通过生物信息分析和统计处理SSR图谱和RAD图谱的数据的方法。该方法在SSR图谱的连锁群之间插入SSR测序没到鉴定到的scaffold,从而将SSR图谱和RAD图谱整合在一起,可以有效地提高图谱精度和图谱长度。该方法利用SSR图谱和RAD图谱各自的优势,将两者相互纠正,相互补充,用较小的成本代价,极大程度地提高了遗传图谱的精度和完整度,对后期的QTL定位,功能研究等提高极大的帮助。
(2)本发明的基于RAD图谱完善SSR图谱的方法通过设计数学公式,计算出相关系数,从而判断scaffold在连锁群内的方向。由于通过标记的遗传距离和物理位置判断scaffold在连锁群内的方向情况比较复杂,该方法可以避免人工一个一个的比较每个scaffold里标记的物理位置和遗传位置,可以短时间大批量地判断scaffold在连锁群内的方向,减少了工作量,大大提高了工作效率。
(3)本发明的基于RAD图谱完善SSR图谱的方法SSR图谱中共有scaffold的方向可以通过高密度的RAD图谱中的信息进行修正,进一步地提高了遗传图谱的精度。
(4)本发明的基于RAD图谱完善SSR图谱的方法,通过判断scaffold所对应的真实连锁群和冲突连锁群的具体步骤,解决了一个scaffold对应多个连锁群的问题,通过数据的筛选和再处理,提高了遗传图谱的精度。
(5)本发明的基于RAD图谱完善SSR图谱的方法通过计算标记的遗传距离,得到标记在连锁群内的遗传距离序号,再通过遗传距离序号的平均数的排序,得到scaffold在连锁群内的排列顺序,可以避免人工一个一个的比较每个scaffold里标记的遗传位置,可以短时间大批量地判断scaffold在连锁群内的位置,减少了工作量,大大提高了工作效率。
附图说明
图1为本发明实施例的样品的SSR标记连锁图谱;
图2为本发明实施例的样品的RAD标记连锁图谱;
图3为本发明的SSR图谱中的scaffold定位到多个连锁群信息的示意图;
图4为通过相关系数确定scaffold的方向和位置的示意图;
图5为将RAD图谱中的scaffold和SSR图谱中的scaffold进行组装的示意图。
具体实施方式
下面通过实施例对本发明进行具体的描述,文中未注明具体条件的实验方法,通常按照常规条件或按照仪器制造商所建议的条件进行。除非另行定义,文中所使用的所有专业与科学用语与本领域技术人员所熟悉的意义相同。
reads(读长):高通量测序平台产生的序列。
Contig(重叠群):拼接软件基于reads之间的overlap区(重叠区),拼接获得的序列。
scaffold(长序列):基因组de novo测序(从头测序),通过reads拼接获得Contigs后,基于PE(配对双末端pair-end)连接关系组成的序列。
连锁群(linkage group):在染色体中具有不同的连锁程度并按线性顺序排列的一组基因座位。
实施例
本实施例的DNA样品采自大弹涂鱼,有23对染色体。
本实施例的基于RAD图谱完善SSR图谱的方法,包括以下具体步骤:
A.采用现有的SSR测序方法对样品进行测序获得该样品的SSR图谱(SSR标记连锁图谱),采用现有的RAD测序方法对样品进行测序,获得该样品的RAD图谱(RAD标记连锁图谱)。
B.在SSR图谱中,确定SSR标记在各scaffold上的物理位置,统计scaffold在各SSR连锁群上的分布,确定scaffold与SSR连锁群的对应关系。在RAD图谱中,确定RAD标记在各scaffold上的物理位置,统计scaffold在各RAD连锁群上的分布,确定scaffold与RAD连锁群的对应关系。
如图1所示,采用现有公知的SSR测序方法对样品进行测序后,通过SSR标记在后代之间的碱基型,构建SSR标记之间的连锁图谱,然后通过SSR标记的tag(标签)序列比对回相应的scaffold上,从而确定SSR图谱中SSR标记在各scaffold上的物理位置。例如:本实施例的SSR图谱信息中,SSR标记Sma-E244位于scaffold37上,scaffold37的总读长为4728479bp,Sma-E244的起始点在scaffold37的读长2863077bp处,称为标记在scaffold上的起始位置,Sma-E244的终止点在scaffold37的读长2862244bp处,称为标记在scaffold上的终止位置,Sma-E244在scaffold37上的物理位置即2863077bp至2862244bp的读长区间内的任意位置。
如图2所示,采用现有公知的RAD测序方法对样品进行测序,通过RAD标记在后代之间的碱基型,构建RAD标记之间的连锁图谱,然后通过RAD标记的tag(标签)序列比对回相应的scaffold上,从而确定RAD图谱中RAD标记在各scaffold上的物理位置。从图1和图2中可知,RAD图谱中RAD标记的密度远大于SSR图谱中SSR标记。
表1截取了SSR图谱中的scaffold在各SSR连锁群上的分布情况的部分统计数据。表2截取了RAD图谱中的scaffold在各RAD连锁群上的分布情况的部分统计数据。
表1 SSR图谱中scaffold在SSR连锁群上的分布情况表
表2 RAD图谱中scaffold在RAD连锁群上的分布情况表
C.判断SSR图谱中各scaffold所对应的真实SSR连锁群和冲突SSR连锁群,以及RAD图谱中各scaffold所对应的真实RAD连锁群和冲突RAD连锁群。再通过统计、比较各scaffold所对应的真实SSR连锁群和真实RAD连锁群,找出真实SSR连锁群和真实RAD连锁群共有的scaffold。当真实SSR连锁群和真实RAD 连锁群有共有的scaffold时,建立真实SSR连锁群和真实RAD连锁群的一一对应关系。
当scaffold有冲突SSR连锁群时,去除冲突SSR连锁群中该scaffold的SSR标记,得到无冲突的scaffold的SSR标记。当scaffold有冲突RAD连锁群时,去除冲突RAD连锁群中该scaffold的RAD标记。
判断SSR图谱中各scaffold所对应的真实SSR连锁群和冲突SSR连锁群的具体步骤如下:
当SSR图谱中的某个scaffold对应一个SSR连锁群时,该SSR连锁群是该scaffold所对应的真实SSR连锁群;
当SSR图谱中的某个scaffold对应一个以上的SSR连锁群,且其中一个SSR连锁群的SSR标记数比其他SSR连锁群的SSR标记数多时,SSR标记数多的SSR连锁群是该scaffold所对应的真实SSR连锁群,其他SSR连锁群是该scaffold的冲突SSR连锁群;
当SSR图谱中的某个scaffold对应一个以上的SSR连锁群,且这些SSR连锁群的SSR标记数相同时,如果该scaffold在RAD图谱中有所对应的真实RAD连锁群,则确定与该真实RAD连锁群对应的SSR连锁群是该scaffold所对应的真实SSR连锁群,其他连锁群是该scaffold的冲突SSR连锁群;否则将该scaffold在SSR图谱中的信息去除;
从而确定SSR图谱中各scaffold所对应的真实SSR连锁群和冲突SSR连锁群。
判断RAD图谱中各scaffold所对应的真实RAD连锁群和冲突RAD连锁群的具体步骤如下:
当RAD图谱中的某个scaffold对应一个RAD连锁群时,该RAD连锁群是该scaffold所对应的真实RAD连锁群;
当RAD图谱中的某个scaffold对应一个以上的RAD连锁群,且其中一个RAD连锁群的RAD标记数比其他RAD连锁群的SSR标记数多时,RAD标记数多的RAD连锁群是该scaffold所对应的真实RAD连锁群,其他RAD连锁群是该scaffold的冲突RAD连锁群;
当RAD图谱中的某个scaffold对应一个以上的RAD连锁群,且这些RAD连锁群的RAD标记数相同时,如果该scaffold在SSR图谱中有所对应的真实SSR连锁群,则确定与该真实SSR连锁群对应的RAD连锁群是该scaffold所对应的真实RAD连锁群,其他连锁群是该scaffold的冲突RAD连锁群;否则将该scaffold在RAD图谱中的信息去除。
但是理论上,RAD图谱的标记密度大,RAD图谱中的某个scaffold对应一个以上的RAD连锁群时,不会出现这些RAD连锁群的RAD标记数相同的情况。
从而确定RAD图谱中各scaffold所对应的真实RAD连锁群和冲突RAD连锁群。
表3截取了SSR图谱和RAD图谱共有的scaffold在连锁群上的分布情况的部分统计数据。
表3 SSR图谱和RAD图谱共有的scaffold在连锁群上的分布情况表
如表1所示,判断SSR图谱中各scaffold所对应的真实SSR连锁群和冲突SSR连锁群的具体步骤是:
scaffold2669、scaffold37、scaffold58和scaffold67对应的都只是SSR连锁群LG20,所以SSR连锁群LG20是scaffold2669、scaffold37、scaffold58和scaffold67所对应的真实SSR连锁群;
如图3所示,scaffold16对应三个SSR连锁群分别是LG15、LG09和LG20,而其中SSR连锁群LG15的SSR标记数是5,多于其他两个SSR连锁群的SSR标记数,所以SSR连锁群LG15是 scaffold16所对应的真实SSR连锁群,SSR连锁群LG09和LG20是scaffold16的冲突SSR连锁群;
scaffold36对应两个SSR连锁群分别是LG20和LG15,而其中SSR连锁群LG20的SSR标记数是2,多于SSR连锁群LG15的SSR标记数,所以SSR连锁群LG20是 scaffold36所对应的真实SSR连锁群,SSR连锁群LG15是scaffold36的冲突SSR连锁群;
scaffold41对应两个SSR连锁群分别是LG20和LG01,两个SSR连锁群LG20和LG01的SSR标记数相同都是1,此时必须根据表2和表3中的数据进行判断。
如表2所示,判断RAD图谱中各scaffold所对应的真实RAD连锁群和冲突RAD连锁群的具体步骤是:
scaffold36、scaffold37、scaffold58和scaffold67对应的都只是连锁群LG10,所以RAD连锁群LG10是scaffold36、scaffold37、scaffold58和scaffold67所对应的真实RAD连锁群;
scaffold41对应两个RAD连锁群分别是LG10和LG12,而其中RAD连锁群LG10的RAD标记数是63,多于RAD连锁群LG12的RAD标记数,所以RAD连锁群LG10是 scaffold41所对应的真实RAD连锁群,RAD连锁群LG12是scaffold36的冲突RAD连锁群;
scaffold120对应两个RAD连锁群分别是LG10和LG1,而其中RAD连锁群LG10的RAD标记数是15,多于RAD连锁群LG1的RAD标记数,所以RAD连锁群LG10是 scaffold120所对应的真实RAD连锁群,RAD连锁群LG1是scaffold120的冲突RAD连锁群。
由表2可知,由于RAD图谱中SNP位点的密度高,所以理论上, RAD图谱中的某个scaffold对应一个以上的RAD连锁群时,不会出现这些RAD连锁群的RAD标记数相同的情况。
如表3所示,SSR图谱中scaffold 36、scaffold 37、scaffold58和scaffold67对应SSR连锁群LG20,RAD图谱中scaffold 36、scaffold 37、scaffold58和scaffold67对应RAD连锁群LG10,从而确定SSR连锁群LG20对应RAD连锁群LG10。
由于RAD图谱中RAD连锁群LG10是scaffold41对应的真实RAD连锁群,且SSR连锁群LG20对应RAD连锁群LG10,所以SSR图谱中SSR连锁群LG20是scaffold41对应的真实SSR连锁群。SSR连锁群LG20和RAD连锁群LG10共有的scaffold数量为5,分别是scaffold 36、scaffold 37、scaffold41、scaffold58和scaffold67。
表4 SSR图谱和RAD图谱的连锁群的对应关系表
如表4所示,通过比较各scaffold所对应的真实SSR连锁群和真实RAD连锁群建立SSR连锁群和RAD连锁群的一一对应关系,统计出共有scaffold数。例如:SSR连锁群LG20对应RAD连锁群LG10,共有的scaffold数量为5。部分SSR连锁群没有共有的scaffold,找不到对应的RAD连锁群,所以不能进行组装完善,例如:SSR连锁群LG18。其他SSR连锁群建立与RAD连锁群的一一对应关系,可以将RAD图谱中的部分信息组装到SSR图谱中从而完善SSR图谱信息。
表5截取了RAD图谱去除冲突RAD连锁群中scaffold的RAD标记后,有关各scaffold的实际RAD标记数的图谱信息的部分统计数据。
表5 修正后的RAD图谱信息
如表2和表5所示,RAD图谱中scaffold 36、scaffold 37、scaffold41、scaffold58和scaffold67所对应的SSR连锁群为LG20。RAD图谱中scaffold36的实际RAD标记数为39;scaffold37的实际RAD标记数为60;scaffold58的实际RAD标记数为41;scaffold67的实际RAD标记数为15。scaffold41一共有64个RAD标记,scaffold41在真实连锁群LG10中的63个RAD标记是实际的RAD标记,所以scaffold41的实际RAD标记数为63;scaffold41在RAD图谱中有冲突RAD连锁群LG12,去除scaffold41在冲突RAD连锁群LG12中的1个RAD标记信息。
表6截取了SSR图谱去除冲突SSR连锁群中scaffold的SSR标记后,有关各scaffold的实际SSR标记数以及scaffold的位置和方向的图谱信息的部分统计数据(SSR连锁群LG20中的部分统计数据)。
表6 修正后的SSR图谱信息里scaffold位置和方向(LG20)
如表1和表6所示,SSR图谱中scaffold67、scaffold41、scaffold58、scaffold2669、scaffold37、scaffold36所对应的真实SSR连锁群为SSR连锁群LG20。SSR图谱中scaffold67的实际SSR标记数为2;scaffold41的实际SSR标记数为1,scaffold41在SSR图谱中有冲突SSR连锁群LG01,去除scaffold41在冲突SSR连锁群LG01中的1个SSR标记信息;scaffold58的实际SSR标记数为1;scaffold2669的实际SSR标记数为1;scaffold37的实际SSR标记数为5;scaffold36的实际SSR标记数为2,scaffold36在SSR图谱中有冲突SSR连锁群LG01,去除scaffold36在冲突SSR连锁群LG15中的1个SSR标记信息。
D.在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离,确定各scaffold在连锁群内的排列顺序。
判断SSR图谱中的scaffold在SSR连锁群内的排列顺序的具体步骤是:
计算出SSR图谱中无冲突的scaffold的SSR标记在SSR连锁群内的遗传距离,将某一SSR连锁群内各SSR标记的遗传距离从小到大排列得到SSR标记在该SSR连锁群内的遗传距离序号。再根据SSR标记在该SSR连锁群内的遗传距离序号,计算出scaffold在该SSR连锁群内的平均位置参数,scaffold在该SSR连锁群内的平均位置参数是scaffold中的SSR标记的遗传距离序号的平均数。将各scaffold的平均位置参数从小到大排列确定各scaffold在该SSR连锁群内的排列顺序。
平均位置参数的计算公式是:
,
其中,xi是scaffold上的第i个标记的遗传距离序号,n是scaffold上的标记数,是scaffold在连锁群内的平均位置参数。
SSR图谱中无冲突的scaffold的SSR标记在SSR连锁群内的遗传距离的计算方法参见外文文献《Genetic distance between populations》出版于《The American Naturalist》杂志1972年第106卷第949期283~292页,作者为Masatoshi Nei。
SSR连锁群LG20内各SSR标记的遗传距离从小到大排列得到SSR标记在该SSR连锁群内的遗传距离序号。如表6所示,scaffold67的两个SSR标记的遗传距离序号分别为1和2,scaffold67的平均位置参数是1和2的平均数等于1.5。scaffold41的一个SSR标记的遗传距离序号为3,scaffold41的平均位置参数是3。scaffold58的一个SSR标记的遗传距离序号为4,scaffold41的平均位置参数是4。scaffold2669的一个SSR标记的遗传距离序号为5,scaffold41的平均位置参数是5。scaffold37的五个SSR标记的遗传距离序号分为6、7、8、9和10,scaffold37的平均位置参数是6、7、8、9和10的平均数等于8。scaffold36的两个SSR标记的遗传距离序号分为11和12,scaffold36的平均位置参数是11和12的平均数等于11.5。将平均位置参数按从小到大排列:1.5、3、4、5、8、11.5,从而确定SSR图谱中各scaffold在SSR连锁群内的排列顺序:scaffold67、scaffold41、scaffold58、scaffold2669、scaffold37、scaffold36。
判断RAD图谱中的scaffold在RAD连锁群内的排列顺序的具体步骤和判断SSR图谱中的scaffold在SSR连锁群内的排列顺序的具体步骤相同。
E.如图4所示,在SSR图谱和RAD图谱中,分别根据无冲突的scaffold的标记的遗传距离和标记在scaffold上的物理位置,确定各scaffold在连锁群内的方向。
判断SSR图谱中的scaffold在SSR连锁群内的方向的具体步骤是:
计算出SSR图谱中无冲突的scaffold的SSR标记在SSR连锁群内的遗传距离,将某一SSR连锁群内各SSR标记的遗传距离从小到大排列确定SSR标记在SSR连锁群内的遗传距离序号。再根据SSR标记在SSR连锁群内的遗传距离序号和在scaffold上的物理位置计算出相关系数。
相关系数的计算公式是:
,
其中,xi是所述scaffold上的第i个标记的遗传距离序号,yi是所述scaffold上的第i个标记在scaffold上的物理位置,n是所述scaffold上的标记数,rx,y是所述scaffold的相关系数。
本实施例的SSR标记在scaffold上的物理位置一律取其起始位置的读长值进行计算。
当相关系数为正数时,scaffold的方向是正向的。当相关系数为负数时,所述scaffold的方向是反向的。当无法计算出相关系数时,所述scaffold的方向默认是正向的。
如表6所示,scaffold67的相关系数计算结果是-1是负数,所以方向是反向的(反向reverse的首字母R表示)。scaffold41、scaffold58和scaffold2669只有一个SSR标记,无法计算出相关系数(用n/a表示),方向为未知(用unknow表示),方向未知的scaffold默认为正向(本领域的惯用技术手段)。scaffold37的相关系数计算结果是0.97是正数,所以方向是正向的(正向forward的首字母F表示)。scaffold36相关系数计算结果是1是正数,所以方向是正向的。
判断RAD图谱中的scaffold在RAD连锁群内的方向的具体步骤和判断SSR图谱中的scaffold在SSR连锁群内的方向的具体步骤相同。
当共有scaffold在SSR图谱和RAD图谱中都能计算出相关系数时,scaffold的方向是该scaffold在SSR图谱中的方向;当共有scaffold在SSR图谱和RAD图谱中都不能计算出相关系数时,scaffold的方向默认是正向的;当共有scaffold在SSR图谱中能计算出相关系数,在RAD图谱中不能计算出相关系数时, scaffold的方向是该scaffold在SSR图谱中的方向;当共有scaffold在SSR图谱中不能计算出相关系数,在RAD图谱中能计算出相关系数时,scaffold的方向是该scaffold在RAD图谱中的方向。
如表5和表6所示,SSR连锁群LG20中的scaffold41和scaffold58是共有scaffold,虽然scaffold41和scaffold58在SSR图谱中不能计算出相关系数,但由于scaffold41和scaffold58在RAD图谱中的RAD标记数较多,可以计算出相关系数,从而确定scaffold41和scaffold58在RAD图谱中的方向。
F.如图5所示,已建立一一对应关系的SSR连锁群和RAD连锁群,根据SSR图谱和RAD图谱中各scaffold在连锁群内的排列顺序和方向,以SSR图谱中的SSR连锁群内的scaffold为骨架,将RAD连锁群内除共有scaffold外的其他scaffold补充到SSR图谱的SSR连锁群中,组装成整合图谱。当SSR图谱中的scaffold在RAD图谱上找不到时,根据所述scaffold与共有scaffold之间的遗传距离和该scaffold上的标记的物理位置,判断其与共有scaffold之间的距离,从而确定该scaffold在整合图谱中的位置,该scaffold是紧挨某个共有scaffold,或位于连锁群的开头,或位于连锁群的末尾。
表7是SSR连锁群LG20中,SSR图谱和RAD图谱中的scaffold位置和方向的对照表。
表7 scaffold位置和方向对照表(LG20)
表8是SSR连锁群LG21中,SSR图谱和RAD图谱中的scaffold位置和方向的对照表。
表8 scaffold位置和方向的对照表(LG21)
n.a 表示scaffold在SSR图谱或RAD图谱上找不到。
如表7所示,SSR连锁群LG20中,SSR图谱中的scaffold的排列顺序与RAD图谱中的scaffold的排列顺序相反。将RAD图谱中的scaffold倒序排列,以SSR图谱中的5个共有scaffold为骨架,将RAD图谱中剩余的11个scaffold根据其在RAD图谱中的排列顺序补充到SSR图谱中去,组装成整合图谱。RAD图谱中scaffold41的方向是反向的,scaffold58在RAD图谱中的方向是正向的,由于SSR图谱中的scaffold的排列顺序与RAD图谱中的scaffold的排列顺序相反,所以scaffold41在整合图谱中的方向是正向的,scaffold58在RAD图谱中的方向是反向的,方向仍未知的scaffold默认为正向。其中scaffold2669在RAD图谱中找不到,但是根据scaffold2669和前后scaffold(scaffold58,scaffold37)最近的标记之间的遗传距离,以及所补充的RAD图谱中的scaffold的长度,可以判断出scaffold2669是紧挨着scaffold58的。
如表8所示,SSR连锁群LG21中SSR图谱中的scaffold的排列顺序与RAD图谱中的scaffold的排列顺序一致。以SSR图谱中的两个共有scaffold为骨架,将RAD图谱中剩余的9个scaffold根据其在RAD图谱中的排列顺序补充到SSR图谱中去,组装成整合图谱。其中方向未知的scaffold默认为正向。由于scaffold7976在RAD图谱上找不到,且scaffold7976位于SSR连锁群LG21的末尾,则计算出scaffold7976上的SSR标记与scaffold3上排在末尾的SSR标记之间的遗传距离,以及所补充的RAD图谱中的scaffold的长度,判断出scaffold7976在整合图谱中位于连锁群的末尾。
G.将整合图谱中的scaffold连接起来,得到染色体组装序列。scaffold之间连接一定数量的n,n表示未知序列。
SSR图谱组装的染色体总长度为468553327,基于RAD图谱完善后的SSR图谱得到的组装染色体总长度为538357682,提高染色体长度69804355,比率为14.90%。
显然,上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本发明的精神所引伸出的显而易见的变化或变动仍处于本发明的保护范围之中。
机译: 核医学磁共振图谱,制造此类磁共振图谱的方法以及具有该磁共振图谱的医学核图像的制造方法
机译: 基于AFLP的物理图谱和遗传图谱整合方法
机译: 基于AFLP的物理图谱与遗传图谱整合方法