首页> 中国专利> 一种依据植物双亲基因型信息虚拟合成杂种基因型的方法及应用

一种依据植物双亲基因型信息虚拟合成杂种基因型的方法及应用

摘要

本发明属于植物分子辅助育种领域,公开了一种依据植物双亲基因型信息虚拟合成杂种基因型的方法及应用。包括各类作物和野生植物的父、母亲本(包括自交系、无性系、杂交种、农家品种和天然混交群体)基因组信息(包括DNA全序列数据和基因分型数据,包括来自芯片测序平台数据和简易基因组测序平台GBS的数据),利用生物信息学技术推测或虚拟合成杂交种F1代基因型的方法。解决了在利用全基因组预测技术预测自交系一般配合力、特殊配合力和杂交组合表现型时没有基因型信息可用的问题。

著录项

说明书

技术领域

本发明涉及植物分子辅助育种领域,涉及一种依据植物双亲基因型信息虚拟合成杂种基因型的方法及应用;具体涉及利用生物信息方法根据植物父、母本双亲的基因型信息预测杂种一代(F1)基因型的方法。

背景技术

植物杂交种(hybrid)是由基因型不同父、母亲本自交系之间进行杂交产生的第一代种子(通常称为杂种F1代)。杂交种在生长势、抗逆性和产量方面优于父、母亲本,即,产生杂种优势。然而,不是任何具有遗传差异(基因型不同)的自交系之间杂交都能产生适合农业产生需要的优良杂交种。产生优良杂交种的两个自交系之间不仅要有遗传差异,而且还要优良性状互补。所以,杂交育种者不仅要培育能够产生杂种优势的优良自交系,还要进行自交系之间的杂交组合筛选,从中获得优良杂交种。

传统的优良自交系选择和杂交组合筛选过程除需要大量土地外,还需要大量的田间管理和性状测定;随着育种进程,育种单位的自交系和杂交组合会越来越多,需要的投入也不断增加,成本增大。此外,目前的植物杂交种在产量、抗性和品质方面已经达到较高水平,单纯依靠传统杂交育种方法将难有大的突破性提高。

随着测序技术的发展,基因测序成本大幅度降低,分子辅助育种技术已经发展成为可以实用的技术。将分子辅助育种技术与传统杂交技术结合,将是未来降低杂交育种成本,提高育种效率,提高育种水平的必然途径。分子辅助育种技术包括分子标记辅助育种技术(molecular marker assistance)和全基因组预测技术(genomic prediction)。

分子标记辅助育种技术(molecular marker assistance)利用已知的与特定表型性状相关联的DNA分子标记,不需要经过田间种植和性状测定,直接对欲选择的自交系或杂交种进行分子标记筛选,将不含有特定分子标记的材料淘汰,可以节省大量的人力、物力和时间,提高育种效率。但是,与特定表型性状关联的DNA分子标记会因植物群体的遗传背景变化而变化,没有广泛的通用性。因此,对于没有进行过分子标记研究的植物群体,将无法应用分子标记辅助技术。

全基因组预测(genomic prediction)技术,与分子标记辅助育种技术不同,不依赖于已知的分子标记,而是根据待预测材料的基因型,利用已经建立好的基因型与实测表现型关系的数学模型,来预测表现型,将不符合表现型要求的材料淘汰。这种方法将减少大量的田间种植和性状测定工作,可以节省大量的人力、物力和时间,提高育种效率。与分子标记辅助育种相比,全基因组预测的优势是不需要事先知道表型性状的分子标记,只需知道被预测材料的基因型即可,尤其适合由多基因控制的数量性状。因此,与分子标记辅助技术相比,全基因组预测技术适用性更加广泛。

全基因组预测技术即可用来预测自交系的一般配合力(general combiningability,GCA)特殊配合力(specific combining ability,SCA),也可用来预测杂交组合的性状表现,作为筛选优良杂交组合的依据。某个自交系的GCA是自交系与许多其他自交系(测验种)杂交都产生具有强杂种优势F1的能力;特殊配合力是指自交系与特定遗传背景自交系进行杂交产生强杂种优势的能力。一般配合力和特殊配合力是衡量优良自交系的重要指标。自交系的一般配合力、特殊配合力和杂交组合的表型并不决定于单一亲本自交系的基因型,而是决定于两个亲本自交系基因型的组合。因此,利用全基因组预测技术预测自交系的特殊配合力或杂交组合的性状表现,都需要了解杂交组合的基因型。

然而,全基因组预测技术不管是用来预测自交系的一般配合力和特殊配合力,还是用来预测杂交组合的表现型时,都面临一个没有被预测杂交组合基因型信息的问题。由于在进行全基因组预测时,研究者手里掌握的信息是:全部自交系的基因型,部分杂交组合的表现型,如果不计成本的话,还可以实测这部分杂交组合的基因型。但是,没有待预测杂交组合的基因型,即使不计成本肯花钱也得不到。因为,对于待预测杂交组合,由于没有做真实的杂交,也就没有真实的杂种一代种子用来基因测序。没有待预测杂交组合的基因型,也就不能利用全基因组预测技术高精度的预测自交系的一般配合力、特殊配合力和杂交组合的表现,从而影响了全基因组预测技术在实际育种中的应用。

综上,没有待预测杂交组合的基因型信息,是限制全基因组预测技术在杂交育种中应用的关键障碍。因此,解决问题的关键是必须设法获得待预测杂交组合的基因型信息。单个杂交种的测序费用高于自交系的费用,且杂交组合数量远大于其亲本的数量。解决问题的有效方法是利用父、母亲本自交系基因型信息推测或虚拟合成杂交组合的基因型,目前尚未见到这方面的技术。

需要指出的是,利用父、母亲本自交系基因型信息虚拟合成杂交组合基因型,并不是父、母本自交系基因型数据的简单相加,因为两个自交系基因组重新组合后,某些等位基因位点将会出现杂合性,更为复杂的是为加快自交系选育进度,实践上都是在高代进行测配选择,自交系的很多等位基因还未纯合,这些情况在基因型虚拟合成时必须加以考虑。另外,在一些特殊情况下,育种者会用自交系与杂交种杂交,所产生后代基因型呈现多样化,虚拟合成将会更加复杂。

此外,植物的基因型信息分为DNA全序列信息和基因分型信息:DNA全序列信息反映的是核苷酸在DNA分子上的精确排列;基因分型信息反映的是DNA分子的单核苷酸多态性(SNP,single nucleotide polymorphism),并不是完整的、精确的核苷酸在DNA上的排列信息。因此,在进行杂交组合基因型虚拟合成时,需要对不同形式的基因组信息进行预处理。

发明内容

为解决利用全基因组预测技术预测自交系特殊配合力和杂交组合表现型时缺乏杂交组合基因型的问题,本发明提供一种依据植物,包括各类作物和野生植物的父、母亲本(包括自交系、无性系、杂交种、农家品种和天然混交群体)基因组信息(包括DNA全序列数据和基因分型数据,包括来自芯片测序平台数据和简易基因组测序平台GBS的数据),利用生物信息学技术推测或虚拟合成杂交种F1代基因型的方法。首先对原始基因组数据进行质量控制、去劣补遗、然后将基因组数据中的碱基符号转变为代表显性的A和隐性的a,再将原始的二倍体形式基因型转变为四倍体形式的基因型,然后将其数值化处理,最后用父、母亲本数值化的四倍体形式的基因型虚拟合成杂交种的二倍体基因型。所获得的数值化的杂交种二倍体基因型数据可直接代入全基因组预测模型,用来预测自交系的特殊配合力和杂交组合的性状表型。

本发明的技术方案如下:

依据父、母亲本基因组信息利用生物信息学技术虚拟合成杂交种F1代基因型的方法,包括以下步骤(图1):

(1)将来自父、母亲本的基因型数据,进行质量控制,去除杂合率、最小等位基因频率不符合实际情况的材料和SNP标记,去掉缺失率高的分子标记。

(2)补充遗缺数据。

(3)计算每个碱基座的等位碱基频率。

(4)根据等位碱基频率将碱基替换为A/a形式,等位基因频率高的为A,小的为a。如:在某个碱基座上,有A和T,A的等位基因频率>0.5,则A为A,T为a,反之T为A,A为a。

(5)将步骤4得到的A/a形式的基因型分别归入父、母本材料列表。

(6)从父、母本材料基因型列表中抽取基因型,合成四碱基A/a形式的杂交种基因型。

(7)根据某个材料在特定基因座上A和a的频率,将所有A/a形式的基因型信息转换成数值,例AAAA为1,AAAa为0.75,AAaa为0.5,Aaaa为0.25,aaaa为0。这些值恰好等于二倍体杂交种在特定碱基座上的频率值,具有很好的代表性。

(8)将虚拟合成数值化的二倍体杂交种基因型数据直接代入全基因组预测模型预测自交系特殊配合力或杂交组合的表现型。

上述一种依据植物双亲基因型信息虚拟合成杂种基因型在作物育种上的应用。

作物育种的最终目标是组配高产、稳产、高质的杂交种。一般情况下,育种单位会将所有的自交系按照系谱或血缘分成两个或多个群体,再将不同群体之间进行杂交。由于群体数量过于庞大,例如按照比较小的规模计算,A群100个材料,B群100个材料,则有10000个杂交组合,把10000个杂交组合全部种在试验田,重复2年,每年3个地点,每个地点2个重复,则需要种植120000行,占用大量土地资源,同时人工表型鉴定的费用也非常巨大。利用虚拟杂交种基因型拟合技术可以选取有代表性的两个群体各20个材料建模,结合全基因组预测技术预测其他所有杂交组合的表现(育种值),则只有400个组合,总体田间工作量减少100%-(400×2×3×2)÷120000×100%=96%。

本发明的有益效果如下:首次依据植物(包括作物和野生植物)父、母亲本(包括自交系和杂交种)的基因型数据,包括DNA全序列数据和基因分型数据,包括来自芯片测序数据和简易基因组(GBS)的测序数据,利用生物信息学技术推测或虚拟合成杂交种F1代的基因型,解决了在利用全基因组预测技术预测自交系一般配合力、特殊配合力和杂交组合表现型时没有基因型信息可用的问题,破除了限制全基因组预测技术在杂交育种中应用的关键障碍;虚拟合成的基因型还可用来分析杂交组合的基因组结构,指导制定杂交组合的选配方案。总之,该方法的应用将有助于提高杂交育种的效率和水平。

附图说明

图1依据父、母双亲基因型信息虚拟合成杂交种基因型的技术路线图。

具体实施方式

下面结合具体实施例对本发明做进一步的说明,若无特殊说明,本发明所用技术或软件均为本领域常规应用技术或软件。

实施例1

依据父、母亲本基因组全基因组精确序列信息利用生物信息学技术虚拟合成杂交种F1代基因型的方法,包括以下步骤:

(1)将来自父、母亲本的测序原始数据利用SNP Calling方法获取单核苷酸多态性(SNP)信息并转换成hapmap格式(*.hmp.txt)。

(2)用TASSEL软件进行质量控制。

(3)杂合基因型的合成。

a)下载并安装R语言和RStudio(略)。本示例在Windows10下进行。

b)利用下面的命令依次选择Hapmap格式的文件和表型文件,表型文件的目的是提供父本和母本信息,表型文件是3列的文本文件,第一列的列名为LINE,第二列为TESTER,第三列为表型性状的名称。本程序除了读取文件外,也对文件进行检测,看是否符合规范,除此之外,根据表型文件所在目录,建立生成目录。

c)表型和基因型数据经常会由于漏测或结果太差等原因引起数量不等,因此需要先对表型和基因型进行对应,用如下命令。

d)将Hapmap格式中的“N”替换成缺失值“NA”,用于后续分析,使用如下命令。

e)没有多态性的亲本合成没有意义,因此利用下面命令去除没有多态性的亲本。

f)Hapmap格式中,用IUPAC(International Union of Pure and AppliedChemistry,国际纯粹与应用化学联合会)命名法来表示二倍体碱基,需要还原成二倍体形式。同时,利用table()函数获得每个碱基的频率,将频率高的碱基转换为“AA”,频率低的碱基转换为“aa”,杂合转换为“Aa”,用如下命令:

g)缺失值可能会对结果造成影响,使用概率补缺失方案,随机生成数字,该数字落在哪个概率分布上,则将缺失值补充为该概率对应的碱基(此步骤非必须),命令如下。

h)杂交种四倍体基因型虚拟合成,如,AA和aa合成为AAaa,而Aa和aa则合成为Aaaa,以此类推。命令如下:

i)将四倍体基因型数据转换成数值型,以便用于进一步的全基因组预测分析,命令如下。

j)生成数值型基因型,用如下代码。程序会在表型数据目录下建立的GenoInfo子目录中生成“hybrid_numeric_Geno.txt”文件。

实施例2

依据父本为自交系、母本为杂交种的三交种,利用生物信息学技术虚拟合成杂交种F1代基因型的方法,包括以下步骤:

除了实施例1中的步骤(3)的(b)步骤外,其余步骤均同于实施例1。在步骤(3)的(b)步骤中,表型输入文件需要用@把合成母本的基因型分开,虚拟合成时,先合成母本的杂合基因型,再合成与父本杂交的杂合基因型。实施例1中的命令已经包含该过程。

实施例3

依据父本为杂交种、母本为杂交种的双交种基因型,利用生物信息学技术虚拟合成杂交种F1代基因型的方法,包括以下步骤:

除了实施例1中的步骤(3)的(b)步骤外,其余步骤均同于实施例1。在步骤(3)的(b)中,表型输入文件需要用@把杂交成母本和父本的基因型分开,虚拟合成时,先分别合成母本和父本的杂合基因型,再合成最后的杂合基因型。实施例1中的命令已经包含该过程。

上述实施例只是用于对本发明的举例和说明,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明不局限于上述实施例,根据本发明的加倍虚拟拟合原理还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号