首页> 中国专利> 一种基于多性状的基因组选择进行林木多性状聚合育种的方法

一种基于多性状的基因组选择进行林木多性状聚合育种的方法

摘要

本发明公开了一种基于多性状的基因组选择进行林木多性状聚合育种的方法。所述方法依次包括:无性系个体表型数据采集;无性系谱系信息及A矩阵构建,或SNP标记分型数据及G矩阵构建;多性状模型建立和数据分析。本发明的方法可减少林木性状表型测定的工作量,且不受性状与标记关联程度的限制,与常规的传统子代测定技术相比,可实现多性状的定向、精确育种,获得的杂交后代具有可靠的生产力和遗传背景,显著缩短了林木多性状聚合育种周期,且对树种和试验林类型无具体限制,可快速达到林木多性状聚合育种的目的,具有广泛的应用前景。

著录项

  • 公开/公告号CN106755441A

    专利类型发明专利

  • 公开/公告日2017-05-31

    原文格式PDF

  • 申请/专利权人 华南农业大学;

    申请/专利号CN201611247628.7

  • 申请日2016-12-29

  • 分类号C12Q1/68(20060101);G06F19/20(20110101);

  • 代理机构44102 广州粤高专利商标代理有限公司;

  • 代理人林丽明

  • 地址 510642 广东省广州市天河区五山路483号

  • 入库时间 2023-06-19 02:16:22

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-07

    授权

    授权

  • 2017-06-23

    实质审查的生效 IPC(主分类):C12Q1/68 申请日:20161229

    实质审查的生效

  • 2017-05-31

    公开

    公开

说明书

技术领域

本发明属于林木遗传育种技术领域,具体地涉及一种基于多性状的基因组选择进行林木多性状聚合育种的方法。

背景技术

传统的林木遗传改良需要通过田间对比试验和性状测定,估算各种遗传参数和评价种源、家系、单株或无性系的表现,来培育符合林业生产需求的林木良种。然而林木的生产性状大多属于微效多基因控制,而且林木开花、授粉及子代测定,往往周期比较长,一般在数十年,因而,要进行林木多性状的聚合育种,周期更长,尤其是当性状比较多且性状相关比较复杂时。漫长的世代时间以及大多数复杂性状晚期表达的特性历来都是林木育种所面临的巨大困难和挑战。因此,有必要研发探索一种高效地林木多性状聚合育种的方法。

基因组选择(Genomic Selection,GS)技术是一种基于动植物育种群体,利用芯片技术采集群体个体高密度基因组SNP的基因分型数据,然后构建个体间的基因组关系矩阵,通过GBLUP法获取个体全基因组育种值的新型分子育种技术。它与传统育种技术相比,优点在于可以突破遗传材料生长时间限制,在幼期即可估计个体的基因组育种值,并据此进行早期预测与选择,从而显著缩短育种周期。目前,基因组选择已广泛应用于各国畜禽分子育种中,尤其在奶牛、猪和鸡育种方面。但是目前,还未见有基于多性状的基因组选择进行林木多性状聚合育种的报道。

发明内容

本发明所要解决的技术问题是克服现有技术中林木多性状聚合育种的缺陷和不足,提供一种高效的基于多性状的基因组选择进行林木多性状聚合育种林木多性状聚合育种方法,以解决利用现有的林木育种技术,在进行多性状聚合育种时,不能精准选择亲本以及所需周期长的问题,从而弥补现有技术的不足。该方法是将基因组选择技术与多性状聚合技术相结合形成的一套进行林木多性状聚合育种的新方法体系,无论对于缩短林木良种选育周期,还是对于开展林木多世代育种,都具有非常重要的意义。

本发明的目的是提供一种基于多性状的基因组选择进行林木多性状聚合育种的方法。

本发明的上述目的是通过以下技术方案给予实现的:

一种基于多性状的基因组选择进行林木多性状聚合育种的方法,所述方法具体包括如下步骤:

S1:在无性系测定林中,随机抽样若干个(优选为20~40个,最优选30个)无性系,每个无性系选取若干株(优选为4~7株,最优选5株),分别测定其表型性状,然后进行性状聚类分析,按正负相关归类,得到性状的归类信息;

S2:根据性状的归类信息,每类各选取容易测定的一个代表性状,对所有参试的无性系进行相应表型测定,得到多性状的表型数据;

S3:根据无性系的来源亲本,构建无性系的谱系数据,构建加性相关矩阵A及其逆矩阵;或对每个无性系进行SNP芯片基因分型,得到无性系的基因分型数据,数据记为0、1、2的SNP标记矩阵,根据无性系分型的SNP标记矩阵,构建无性系的G矩阵;

S4:构建模型,利用REML法对表型数据进行多性状分析,估算环境误差和遗传方差,分析公式为:

y=Xb+Zu+e

其中,y代表无性系表型测量值,b代表固定效应值,u代表随机效应值,e代表残差效应。

这个模型为通用线性模型,具体要根据数据类型而定。如实施例中给出的两种模型:

模型1,BLUP模型,包含了表型值y,总体均值μ(固定效应值),无性系Clone(随机效应值)和残差e,其中无性系随机效应的矩阵为加性相关矩阵A。

模型2,GBLUP模型,包含了表型值y,总体均值μ(固定效应值),无性系Clone(随机效应值)和残差e,其中无性系随机效应的矩阵为基因组关系矩阵G。

S5:根据步骤S4模型获取无性系所有个体(包括亲本)不同性状的全基因组育种值,分别进行排名,然后各自选取全基因组育种值排名靠前的个体作为多性状聚合育种的亲本进行杂交。

本发明所述方法对于试验材料并无树种和试验林类型的具体限制,因此其他树种以及子代测定林和无性系试验林都不受限于此,通过本发明即可快速达到林木多性状聚合育种的目的,具有广泛的应用前景。

优选地,步骤S1所述无性系测定林为桉树无性系试验林。

优选地,步骤S1所述表型性状为生长性状、材性性状或抗性性状中的一个或多个。

更优选地,所述生长性状为树高h、胸径dbh、材积v以及木材吸水率wpro中的一个或多个;所述材性性状为心材比例cpro、木材密度wd、管胞长度tl、管胞宽度tw以及管胞长宽比lrt中的一个或多个。

优选地,步骤S3所述谱系数据采用R程序包kinship2生成。

优选地,步骤S3所述SNP分型数据是采用高通量SNP芯片对无性系多态性的基因分型数据集。

优选地,步骤S3是对每个无性系进行SNP芯片基因分型,得到无性系的基因分型数据,数据记为0、1、2的SNP标记矩阵,根据无性系分型的SNP标记矩阵,构建无性系的G矩阵。实验表明,基因组关系矩阵比加性相关矩阵更能捕获个体间的遗传关系,以此为基础构建的模型2,即利用SNP标记信息构建G矩阵的多性状模型为最优模型。

更优选地,所述SNP分型数据采集的具体步骤为:

提取所有无性系的DNA,采用SNP芯片进行基因型测定。读取SNP芯片数据文件,用Beagle程序进行缺失基因型填补,然后选取SNP最小等位基因频率(MAF)0.01作为质量控制标准,剔除最小等位基因频率(MAF)低于0.01和染色体位置未知的SNP。

再优选地,所述SNP芯片为EucHIP60K.BR(含60728个SNP标记)。

优选地,步骤S4所述构建模型为构建GBLUP模型。

优选地,步骤S4中所述多性状分析为利用SNP标记信息构建G矩阵的多性状GBLUP模型,利用ASReml-R软件对试验数据进行分析,同时结合S3构建的G矩阵,从而估算遗传方差和环境误差,估算遗传方差和环境误差。

同时,上述基于多性状的基因组选择进行林木多性状聚合育种的方法在林木遗传育种上的应用亦在本发明保护范围内。

优选地,为在林木多性状聚合育种上的应用。

与现有技术相比,本发明具有以下有益效果:

本发明提供了一种将基因组选择技术与多性状聚合技术相结合形成的一套进行林木多性状聚合育种的新方法体系,通过林木性状聚类分析、林木杂交子代SNP分型和多性状的基因组选择分析进行林木多性状聚合育种,具有以下优点:

(1)本发明所述方法减少了林木性状表型测定的工作量;

(2)本发明所述方法不受性状与标记关联程度的限制;

(2)本发明所述方法与常规的传统子代测定技术相比,可实现多性状的定向、精确育种;

(4)本发明所述方法获得的杂交后代具有可靠的生产力和遗传背景;

(5)本发明所述方法可显著缩短林木多性状聚合育种周期;

(6)本发明所述方法对于树种和试验林类型没有具体限制,各种树种以及子代测定林和无性系试验林都不受限于此,通过本发明即可快速达到林木多性状聚合育种的目的,具有广泛的应用前景。

附图说明

图1为本实施例1桉树无性系不同性状的聚类图。

图2为本实施例1基于谱系信息的桉树无性系加性相关矩阵图。

图3为本实施例1基于SNP分型信息的桉树无性系基因组关系矩阵图。

具体实施方式

下面结合说明书附图和具体实施例对本发明作出进一步地详细阐述,所述实施例只用于解释本发明,并非用于限定本发明的范围。下述实施例中所使用的试验方法如无特殊说明,均为常规方法;所使用的材料、试剂等,如无特殊说明,为可从商业途径得到的试剂和材料。

本发明的方法可以适用于任何已有的试验设计,利用SNP标记信息构建的基因组关系矩阵G开展林木基因组选择分析,可针对生长、材性、抗性等性状,进行林木多性状聚合育种,尤其适用于杂交子代测定林或无性系试验林的亲本的反向选择。可以满足任意生长阶段的林木多性状聚合育种。

下面对本发明的方法做进一步的描述。

实施例1

本发明的林木多性状聚合育种方法,包括无性系个体表型数据采集、无性系谱系信息及A矩阵构建、SNP标记分型数据及G矩阵构建、多性状模型建立和数据分析步骤;具体如下:

1.无性系个体表型数据采集

(1)试验材料为:桉树无性系试验林,参试无性系共165个,每个无性系大约40株。

抽样30个桉树无性系,每个无性系5株,分别测定树高(h)、胸径(dbh)、材积(v)、心材比例(cpro)、木材密度(wd)、木材吸水率(wpro)、管胞长度(tl)和管胞宽度(tw)及管胞长宽比(lrt),然后进行性状聚类分析,按正负相关归类,得到性状的两大归类信息;

(2)根据性状的归类信息,每类选取容易测定的一个代表性状,对所有参试的无性系进行相应表型测定,得到多性状的表型数据。

2.无性系谱系信息及A矩阵构建

收集无性系号及其亲本号,采用R程序包kinship2生成谱系,并构建加性相关矩阵A。利用ASReml-R直接构建A的逆矩阵。

3.SNP分型数据及G矩阵构建

SNP分型数据是采用高通量SNP芯片对无性系多态性的基因分型数据集,用于计算无性系间的基因组相关矩阵。

具体构建方法:须提取所有无性系的DNA,采用SNP芯片EucHIP60K.BR(含60728个SNP标记)进行基因型测定。读取SNP芯片数据文件,用Beagle程序进行缺失基因型填补,然后选取SNP最小等位基因频率(MAF)0.01作为质量控制标准,剔除最小等位基因频率(MAF)低于0.01和染色体位置未知的SNP,最终41160个SNP用于分析。G矩阵及其逆矩阵,参照文献Isik等人(2016)的方法(Isik F,Bartholomé J,Farjat A,Chancerel E,Raffin A,Sanchez L,Plomion C,Bouffier L.Genomic selection in maritime pine.PlantScience,2016,242:108–119)。

4.多性状模型建立

为了实现本发明目的,本发明的方案设置了2种分析模型进行了比较,模型方案如下:

模型1,BLUP模型,包含了表型值y,总体均值μ(固定效应),无性系Clone(随机效应)和残差e,其中无性系随机效应的矩阵为加性相关矩阵A。

模型2,GBLUP模型,包含了表型值y,总体均值μ(固定效应),无性系Clone(随机效应)和残差e,其中无性系随机效应的矩阵为基因组关系矩阵G。

5.数据分析

(1)由图1可知,抽样测定的9个性状,可分为2类:h、dbh、v和wpro聚为一类,其它5个聚为一类。

第一类性状主要为生长性状,选择胸径dbh;第二类性状为材性性状,选择木材密度wd,作为后续所有无性系的表型测定性状。

(2)图2中,颜色越偏红色,表示个体间的亲缘关系越弱,颜色越偏黄色,表示个体间的亲缘关系越强。因此,基于谱系信息的无性系间加性相关矩阵结果显示,大部分无性系及其亲本之间的亲缘关系比较弱。

(3)图3的颜色图与图2一样,但基于SNP分型信息的无性系间基因组关系矩阵图,明显与谱系信息的加性相关矩阵图不同,前者明显可以看出无性系及其亲本间存在比较强的亲缘关系,表明基因组关系矩阵比加性相关矩阵更能捕获个体间的遗传关系。

(4)基于上述两种模型,利用ASReml-R软件分别估算分差组分,具体结果见表1。

对于模型1(BLUP模型),性状1的无性系遗传方差Vc为86.83,残差Ve为181.85,性状2的无性系遗传方差Vc为397.34,残差Ve为811.15。

对于模型2(GBLUP模型),性状1的无性系遗传方差Vc为98.32,残差Ve为181.86,性状2的无性系遗传方差Vc为466.63,残差Ve为811.66。

与模型1比较,两个性状,模型2的残差基本没有变化,但无性系遗传方差都增加了,可见模型2比模型1拟合的结果更好,即基因组选择技术采用的基因组关系矩阵更能捕获个体间的遗传关系。

表1 模型遗传参数估计值

注:Vc为无性系遗传方差,Ve为误差。

此外,输出了参数无性系所有个体的两个性状的全基因组育种值(GEBV)和传统育种值(ABV),只输出GEBV前10%的个体,如表2所示。从表2可知,BLUP模型和GBLUP模型,所获得个体的全基因组育种值GEBV基本上都小于传统育种值ABV,即传统的BLUP模型存在高估育种值的情况。基于上述多性状模型分析的结果可知,GBLUP模型是优选模型,如果每个性状只取最好的10个个体作为亲本,则对于性状1,亲本应选1169、185、1131、1153、1107、1167、1172、1106和p20,对于性状2,亲本应选择163、172、1172、1123、165、151、p20、164、1154和147。值得关注的是,在本轮分析中,原有的12个亲本,仅有亲本P20号保留下来了,表明其遗传基因确实不错。此外,个体1172和亲本P20在两个性状全基因组育种值均排名靠前,而之前的性状聚类分析结果显示,性状1和性状2之间应呈现负相关,因此,个体1172和亲本120应属于相关破坏者,在多性状聚合育种中,对于这类个体,应给予特别关注。

表2 模型遗传参数估计值

(5)基于上述分析可知,模型2,即利用SNP标记信息构建G矩阵的多性状模型为最优模型,即本发明的最佳分析模型。通过多性状的最佳模型,可捕获遗传材料间更多的遗传关系,进而精确估算遗传误差,并进一步精确估算全基因组育种值,据此来筛选不同性状全基因组育种值高的个体进行杂交,于是快速达到林木多性状聚合育种的目的。

显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号