首页> 中国专利> 一种基于混合线性模型的种子数量性状位点定位方法

一种基于混合线性模型的种子数量性状位点定位方法

摘要

本发明公开了一种基于混合线性模型的种子数量性状位点定位方法,包括:建立统计遗传模型;在全基因组范围内搜索所有可能存在QTL的候选标记区间:将所述的候选标记区间作为协变量,在全基因组范围内搜索显著的QTL位点和二互作标记区间;以所述的QTL位点和二互作标记区间作为协变量,在显著的互作标记区间内搜索显著的二互作上位性的位点;通过所述QTL位点和二互作上位性的位点,获得统计遗传模型中各种效应的系数,然后通过统计遗传模型,计算这些位点的效应以及估算每个位点的遗传率。本发明将种子性状分成二倍体种子和三倍体种子,考虑了上位性效应及基因与环境互作的效应,可快速无偏的估计种子数量性状位点的位置及各种效应。

著录项

  • 公开/公告号CN103632067A

    专利类型发明专利

  • 公开/公告日2014-03-12

    原文格式PDF

  • 申请/专利权人 浙江大学;

    申请/专利号CN201310549029.0

  • 申请日2013-11-07

  • 分类号G06F19/12;

  • 代理机构杭州天勤知识产权代理有限公司;

  • 代理人胡红娟

  • 地址 310027 浙江省杭州市西湖区浙大路38号

  • 入库时间 2024-02-19 23:10:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2016-08-17

    授权

    授权

  • 2014-04-09

    实质审查的生效 IPC(主分类):G06F19/12 申请日:20131107

    实质审查的生效

  • 2014-03-12

    公开

    公开

说明书

技术领域

本发明涉及种子数量性状位点定位领域,具体涉及一种基于混合线性 模型种子数量性状位点定位方法。

技术背景

作物种子是人类食物,动物饲料以及工业原料的主要来源。胚或胚乳 是种子中的主要成分。胚乳作为储藏营养物质的主要器官,比如碳水化合 物,蛋白质和矿物质等,它同时也会胚的发育提供营养。胚乳在有些物种 成熟时会消失,比如拟南芥。无论胚乳消失与否,它都将会对胚的发育产 生影响。此外,种子是长在母体植株中,因此母体植株对种子的发育也会 产生影响。种子数量性状位点定位的研究已经成为数量遗传领域的研究热 点之一。

近年来,种子数量性状位点的定位尤其是对农作物品质性状的研究方 面的应用十分广泛。

早在1994年,莫惠栋(Mo HD.Genetic analysis for  qualitative-quantitative traits III.Endosperm character under triploid genetic  control.Acta agronomica Sinica,1994,20(5):513-519)提出了一个统 计遗传模型,可以把种子性状的表型方差分解为各种各样的遗传和环境因 子。1994年,朱军和Bruce Weir(Zhu J,Weir.BSAnalysis of Cytoplasmic and  Maternal Effects.2.Genetic Models for Triploid Endosperms.Theor Appl  Genet,1994,89(2-3):160-166)进一步提出了混合线性模型方法, 利用双列杂交试验分析了母体效应,胚,胚乳和细胞质效应,以及各种效 应与环境的互作。以上这些方法都只能把种子性状的遗传变异分解为各种 各样的方差分量,把控制性状的所有基因当做一个整体来分析,而不能得 到单个基因水平上的更详细的信息,比如数量性状位点的位置以及存在的 各种效应。

随着分子标记技术的发展,数量性状位点定位的方法被提出和运用到 作物种子性状的定位研究中。但是种子中的主要成分胚乳是三倍体,因此 不能用一般的定位方法。基于这个遗传背景,Kao(Kao CH. Multiple-interval Mapping for Quantitative Trait Loci Controlling Endosperm  Traits.Genetics,2004,167(4):1987-2002)在2004年提出运用多区间作图 方法,同时充分考虑到三倍体胚乳的性质。这种方法可以分析胚乳的各种 效应。然而,种子一个很重要的特征是,它长在母体植株上,因此种子的 发育也会受到母体植株的影响。鉴于此,Hu和Xu(Hu ZQ,Xu CW.A New  Statistical Method for Mapping QTLs underlying Endosperm Traits.Chinese  Sci Bull,2005,50(14):1470-1476)提出了一个统计遗传模型,他们把 母体基因组和后代基因组整合在同一个模型中,使模型更加接近种子性状 发育的遗传机制。

据我们所知,上位性,即一个基因的表达依赖于另外一个基因,在数 量性状的发育和进化中起着重要的作用。大量的研究已经表明,上位性对 性状的遗传变异也产生了不可忽略的贡献。通常所说的上位性,指的是来 自同一基因组的两个基因之间的互作;然而在种子性状中,存在着两个不 同的基因组,因此上位性的两个基因可能是来自不同的基因组。随着人们 对上位性的重要性的深入了解,大量的遗传模型已经被提出来。在种子性 状的研究中,Cui(Cui Y,Wu R.Mapping Genome-genome Epistasis:A  High-dimensional Model.Bioinformatics,2005,21(10):2447-2455)提出了 一种统计方法和框架去探索母体和后代的基因组之间的互作关系。

然而,迄今为止,尚未见有报道环境效应以及基因与环境的互作效应, 也没有把上位性和基因与环境互作效应整合在一个模型中的方法。

发明内容

本发明提供了一种基于混合线性模型种子数量性状位点定位方法,充 分考虑到种子性状的遗传机制,把种子性状分成主要以胚控制的二倍体种 子和主要以胚乳控制的三倍体种子。在本发明中,把母体基因组和后代基 因组整合在同一个遗传模型中,同时把同一基因组和不同基因组之间的上 位性效应以及基因与环境互作的效应加入到模型中,能够快速无偏的估计 种子数量性状位点的位置以及各种效应,提高了育种学家进行分子辅助育 种的效率和精确性。

一种基于混合线性模型的三倍体种子数量性状位点定位方法,包括:

(1)统计遗传模型的建立:

对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个 不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状 的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h 中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混 合线性模型(1)表示:

yhij=μh+Σks(akmxkiAm+dkmxkiDm+akexkiAe+dkexkiDe)+eh+Σk,l(1,2,...s),klt(aaklmmxkiAmxliAm+aakleexkiAexliAe+aaklmexkiAmxliAe+aaklemxkiAexliAm)+Σks(aekhmxkiAm+dekhmxkiDm+aekhexkiAe+dekhexkiDe)+Σk,l(1,2,...s),klt(aaeklhmmxkiAmxliAm+aaeklheexliAe+aaeklhmexkiAmxliAe+aaeklhemxkiAexliAm)+Bj(h)+ϵhij---(1);

其中,模型(1)中的和分别是Qk的母体加性和母体显性效应,对 应的系数分别为和和分别是Qk的母体加性与环境h的互作效 应,母体显性效应与环境h的互作效应,分 别是Qk的胚乳加性、胚乳显性效应,对应系数分别是和分 别是Qk的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应, 分别是Qk母体加性和Ql母体加性的互 作效应,Qk胚乳加性和Ql胚乳加性的互作效应,Qk母体加性和Ql胚乳加性 的互作效应,Qk胚乳加性和Ql母体加性的互作效应,对应的系数分别是 是和环境h的互作效应;是和环境h 的互作效应;是和环境h的互作效应;是和环境h的互作效 应;μh是群体在环境h中的平均数;eh是第h个环境的随机效应, Bj(h)是环境内的区组效应,εhij是剩余效应,

(2)全基因组扫描显著的标记区间:

基于模型(2),在全基因组范围内,通过表型和每个标记区间做基于 HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:

yhij=μh+ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζti+Dedth+e+ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e+Bj(h)+ϵhij---(2);

其中,t(t=1,…,T)表示在T个总区间中的第t个标记区间;和 分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第 t个区间的右边标记的母体显性效应,对应的系数分别为和和 分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第 t个区间的左边标记的母体显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的胚乳加性,在环境h中第t 个区间的右边标记的胚乳显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的胚乳加性,在环境h中第t 个区间的左边标记的胚乳显性效应,对应的系数分别为和其余参 数的含义与模型(1)中的相同;

(3)在全基因组范围内搜索显著的数量性状位点:

将步骤(2)中得到的候选标记区间作为模型(3)的协变量,然后基 于模型(3),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F 检验,搜索显著的QTL位点;

如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性 模型如下:

yhij=μh+xkiAm+akhm+xkiDmdkhm+xkiAeakhe+xkiDedkhe+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζti+Dedth+e)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e)+Bj(h)+ϵhij---(3);

其中,和分别是QTL k在环境h中的母体加性和显性效应;和 分别是胚乳加性和显性效应;其余参数的含义与模型(1)和模型(2) 中的相同;

(4)在全基因组范围内搜索显著的二互作标记区间:

将步骤(2)中得到的候选标记区间作为模型(4)的协变量,然后基 于模型(4),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到 显著的二互作标记区间;

yhij=μh+aah+m+mζli+Amζri+Am+aah+m+eζli+Amζri+Ae+aah+e+mζli+Aeζri+Am+aah+e+eζli+AeζriAe+aah-m-mζli-Amζri-Am+aahm-meζli-Amζri-Ae+aah-e-mζli-Aeζri-Am+aah-e-eζli-AeζriAe+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζtiDedth+e)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e)+Bj(h)+ϵhij---(4);

其中,l和r表示每一对互作标记区间的两个区间;代表互作标 记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互 作,对应的系数为代表互作标记区间的区间l左边标记的母 体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加 性效应的互作,对应的系数为代表互作标记区间的区间l左边 标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的胚乳加性和区间r右 边标记母体加性效应的互作,对应的系数为代表互作标记区 间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对 应的系数为代表互作标记区间的区间l右边标记的胚乳加性和 区间r右边标记胚乳加性效应的互作,对应的系数为代表互作 标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的 互作,对应的系数为其余的参数与模型(1)和(2)有相同的定 义;

(5)搜索显著的二互作上位性的位点:

以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间 作为模型(5)的协变量,然后基于该模型(5),在所述显著的互作标记 区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位 点;

yhij=μh+aanmhmmxniAmxmiAm+aanmhmexniAmxmiAe+aanmhemxniAexmiAm+aanmheexniAexmiAe+Σtf(aath+m+mζtli+AmζtriAm+aath+m+eζtli+Aeζtri+Ae+aath+e+mζtli+Aeζtri+Am+aath+e+eζtli+Aeζtri+Ae)+Σtf(aath-m-mζtli-Amζtri-Am+aath-m-eζtli-Amζtri-Ae+aath-e-mζtli-Aeζtri-Am+aath-e-eζtli-Aeζtri-Ae)+Σkp(xkiAmakhm+xkiDmdkhm+xkiAeakhe+xkiDedkhe)+Bj(h)+ϵhij---(5);

其中,是位点n的母体加性和位点m的母体加性之间的互作效应, 对应的系数为是位点n的母体加性和位点m的胚乳加性之间的 互作效应,对应的系数为是位点n的胚乳加性和位点m的母体 加性之间的互作效应,对应的系数为是位点n的胚乳加性和位 点m的胚乳加性之间的互作效应,对应的系数为代表第t个互 作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应 的互作,对应的系数为代表第t个互作标记区间的区间l左 边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的母体加性和区间 r右边标记胚乳加性效应的互作,对应的系数为代表第t个互 作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应 的互作,对应的系数为代表第t个互作标记区间的区间l右边 标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间左边标记的胚乳加性和区间r 左边标记母体加性效应的互作,对应的系数为代表第t个互作 标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的 互作,对应的系数为代表第t个互作标记区间的区间l左边标 记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为 其余参数与模型(3)有相同的定义;

(6)遗传参数的估算:

通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二 互作上位性的位点,获取得到模型(1)中各种效应的系数,然后通过模 型(1),计算得到这些位点的效应以及估算每个位点的遗传率。步骤(6) 中,通过模型(1),计算得到这些位点的效应以及估算每个位点的遗传率 时,首先给每个未知的参数一个初始值,随机效应的方差估计通过最小范 数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最小二乘法 (OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测,然后把 这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛 (MCMC)循环链中,通过归纳吉布斯的所有样本的结果,最终得到每个 效应的估计值以及估算每个位点的遗传率。

一种基于混合线性模型的二倍体种子数量性状位点定位方法,包括:

(1)统计遗传模型的建立

对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个 不同的环境下进行遗传实验,每个环境设置b个区组,某一种子数量性状 的变异受s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h 中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混 合线性模型表示:

yhij=μh+Σks(akmxkiAm+dkmxkiDm+akoxkiAo+dkoxkiDo)+eh+Σk,l(1,2,...s),klt(aaklmmxkiAmxliAm+aaklooxkiAoxliAo+aaklmoxkiAmxliAo+aaklomxkiAoxliAm)+Σks(aekhmxkiAm+dekhmxkiDm+aekhoxkiAo+dekhoxkiDo)+Σk,l(1,2,...s),klt(aaeklhmmxkiAmxliAm+aaeklhooxkiAoxliAo+aaeklhmoxkiAmxliAo+aaeklhomxkiAoxliAm)+Bj(h)+ϵhij---(6);

其中,μh是群体在环境h中的平均数;和分别是Qk的母体加性和 母体显性效应,对应的系数分别为和和分别是Qk的母体加性 与环境h的互作效应,母体显性效应与环境h的互作效应,分别是Qk母体加性和Ql母体加性的互作效应,对应的系数 分别是是和环境h的互作效应;分别是Qk的胚加性和 胚显性效应,对应系数分别是eh是第h个环境的随机效应,分别是Qk的胚加性与环境的互作效应,胚显性与环境的互作效应, 和分别是Qk的胚加性效应和Ql胚加性效 应之间的上位性,Qk的母体加性效应和Ql胚加性效应之间的上位性,Qk的 胚加性效应和Ql母体加性效应之间的上位性,对应的系数分别为和是和环境h的互作效应;是和环境h的互 作效应;是和环境h的互作效应;Bj(h)是环境内的区组效应, εhij是剩余效应,

(2)全基因组扫描显著的标记区间:

基于模型(7),在全基因组范围内,通过表型和每个标记区间做基于 HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:

yhij=μh+ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+o+ζti+Dodth+o+ζti-Amath-m+ζti-Dmdth-m+ζti-Aoath-o+ζti-Dodth-o+Bj(h)+ϵhij---(7);

其中,和分别代表在环境h中第t个区间的右边标记的胚加性 和环境h中第t个区间的右边标记的胚显性效应,对应的系数分别为和 和分别代表在环境h中第t个区间的左边标记的胚加性和环境h 中第t个区间的左边标记的胚显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中 第t个区间的右边标记的母体显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中 第t个区间的左边标记的母体显性效应,对应的系数分别为和其 余参数的含义和模型(6)中的相同;

(3)在全基因组范围内搜索显著的数量性状位点:

将步骤(2)中得到的候选标记区间作为模型(8)的协变量,然后基 于模型(8),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F 检验,搜索显著的QTL位点;

如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性 模型如下:

yhij=μh+xkiAm+akhm+xkiDmdkhm+xkiAoakho+xkiDodkho+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aoath+o+ζti+Dodth+o)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aoath-o+ζti-Dodth-o)+Bj(h)+ϵhij---(8);

其中,和分别是QTL k在环境h中的母体加性和显性效应;和 分别是胚加性和胚显性效应,对应的系数分别为和其余参数的 含义与模型(6)和模型(7)中的相同;

(4)在全基因组范围内搜索显著的二互作标记区间:

将步骤(2)中得到的候选标记区间作为模型(9)的协变量,然后基 于模型(9),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到 显著的二互作标记区间;

yhij=μh+aah+m+mζli+Amζri+Am+aah+m+oζli+AmζriAo+aah+o+mζli+Aoζri+Am+aah+o+oζli+Aoζri+Ao+aah-m-mζli-Amζri-Am+aah-m-oζli-Amζri-Ao+aah-o-mζli-Aoζri-Am+aah-o-oζli-AoζriAo+Σt=1c(ζti+Amath+m+ζti+Dmdth+m+ζti+Aoath+o+ζti+Dodth+o)+Σt=1c(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dodth-o)+Bj(h)+ϵhij---(9);

其中,l和r表示每一对互作标记区间的两个区间;代表互作标 记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互 作,对应的系数为代表互作标记区间的区间l左边标记的母 体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性 效应的互作,其对应的系数为代表互作标记区间的区间l左 边标记的母体加性和区间r左边标记胚加性效应的互作,其对应的系数为 代表互作标记区间的区间l右边标记的胚加性和区间r右边 标记母体加性效应的互作,其对应的系数为代表互作标记区 间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,其对 应的系数为代表互作标记区间的区间l右边标记的胚加性和区 间r右边标记胚加性效应的互作,其对应的系数为代表互作 标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作, 其对应的系数为其余的参数与模型(8)有相同的定义。

(5)搜索显著的二互作上位性的位点:

以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间 作为模型(10)协变量,然后基于该模型(10),在所述显著的互作标记 区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位 点;

yhij=μh+aanmhmmxniAmxmiAm+aanmhmoxniAmxmiAo+aanmhomxniAoxmiAm+aanmhooxniAoxmiAo+Σtf(aath+m+mζtli+Amζtri+Am+aath+m+oζtli+Amζtri+Ao+aath+o+mζtli+Aoζtri+Am+aath+o+oζtli+Aoζtri+Ao)+Σtf(aath-m-mζtli-Amζtri-Am+aath-m-oζtli-Amζtri-Ao+aath-o-mζtli-Aoζtri-Am+aath-o-oζtli-Aoζtri-Ao)+Σkp(xkiAmakhm+xkiDm+xkiAoakho+xkiDodkho)+Bj(h)+ϵhij---(10);

其中,是位点n的母体加性和位点m的母体加性之间的互作效应, 对应的系数为代表第t个互作标记区间的区间l右边标记的母 体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记 母体加性效应的互作,对应的系数为是位点n的母体加性和 位点m的胚加性之间的互作效应,对应的系数为是位点n的胚 加性和位点m的母体加性之间的互作效应,对应的系数为是位 点n的胚加性和位点m的胚加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记 胚加性效应的互作,对应的系数为代表第t个互作标记区间 的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,对应 的系数为代表第t个互作标记区间的区间l右边标记的胚加性 和区间r右边标记母体加性效应的互作,对应的系数为代表 第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性 效应的互作,对应的系数为代表第t个互作标记区间的区间l 右边标记的胚加性和区间r右边标记胚加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的胚加性和区间r 左边标记胚加性效应的互作,对应的系数为其余参数与模型(8) 有相同的定义;

(6)遗传参数的估算:

通过步骤(3)得到的显著的QTL位点和步骤(5)得到的显著的二互作 上位性的位点,获取得到模型(6)中各种效应的系数,然后通过模型(6), 计算得到这些位点的效应以及估算每个位点的遗传率。步骤(6)中,通 过模型(6),计算得到这些位点的效应以及估算每个位点的遗传率时,首 先给每个未知的参数一个初始值,随机效应的方差估计通过最小范数二阶 无偏估计法获得,固定效应的估计通过最小二乘法获得,随机效应通过调 整的无偏预测法预测,然后把这些得到的值作为后验值通过吉布斯抽样放 入马尔科夫链蒙特卡洛循环链中,通过归纳吉布斯的所有样本的结果,最 终得到每个效应的估计值以及估算每个位点的遗传率。

与现有技术相比,本发明的有益效果为:

(1)利用混合线性模型分析种子性状的特点,同时考虑母体基因组 和后代基因组,虽然参数的数量增加了许多,但是计算速度还是比较快;

(2)考虑了同一基因组内的上位性以及不同基因组之间的上位性, 能够更全面的解释种子性状的遗传变异;

(3)能够处理多个环境下的数据,给出基因与环境互作效应的无偏 估计,从而能够获得特定适应性的品种或广谱适应性的品种;

(4)跟Zhang和Cui的方法相比,我们提出的上位性的两个位点假 设在母体基因组和后代基因组中都有效应,不仅仅局限于每个位点仅在一 个基因组中有效应;

(5)混合线性模型具有很大的灵活性,模型扩展非常方便。

具体实施方式

下面结合具体实施例对本发明作进一步阐释。

本发明基于混合线性模型的种子数量性状位点定位方法,将种子分为 三倍体种子和二倍体种子。

1、如果分析的性状主要受母体和胚乳遗传效应的控制,则方法包括:

(1)统计遗传模型的建立:

根据种子的特征和实验目的,建立种子性状的合适的统计遗传模型。 对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同 的环境下进行遗传实验,每个环境设置b个区组。某一种子性状的变异受 s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,则环境h中第j 个区组内第i个株系后代种子性状表型观测值(yhij)可用下面的混合线性 模型(1)表示:

yhij=μh+Σks(akmxkiAm+dkmxkiDm+akexkiAe+dkexkiDe)+eh+Σk,l(1,2,...s),klt(aaklmmxkiAmxliAm+aakleexkiAexliAe+aaklmexkiAmxliAe+aaklemxkiAexliAm)+Σks(aekhmxkiAm+dekhmxkiDm+aekhexkiAe+dekhexkiDe)+Σk,l(1,2,...s),klt(aaeklhmmxkiAmxliAm+aaeklheexliAe+aaeklhmexkiAmxliAe+aaeklhemxkiAexliAm)+Bj(h)+ϵhij---(1);

其中,模型(1)中的和分别是Qk的母体加性和母体显性效应,对 应的系数分别为和和分别是Qk的母体加性与环境h的互作效 应,母体显性效应与环境h的互作效应,分 别是Qk的胚乳加性、胚乳显性效应,对应系数分别是和分 别是Qk的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应, 分别是Qk母体加性和Ql母体加性的互 作效应,Qk胚乳加性和Ql胚乳加性的互作效应,Qk母体加性和Ql胚乳加性 的互作效应,Qk胚乳加性和Ql母体加性的互作效应,对应的系数分别是 是和环境h的互作效应;是和环境h 的互作效应;是和环境h的互作效应;是和环境h的互作效 应;μh是群体在环境h中的平均数;eh是第h个环境的随机效应, Bj(h)是环境内的区组效应,εhij是剩余效应,

(2)全基因组扫描显著的标记区间:

在全基因组范围内,通过表型和每个标记区间做基于HendersonⅢ的 F检验,搜索得到所有可能存在QTL的候选标记区间。搜索所有可能存在 QTL的候选标记区间。为了使我们的说明不失一般化,我们基于模型(1) 来给出在全基因组搜索显著区间的遗传模型:

yhij=μh+ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζti+Dedth+e+ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e+Bj(h)+ϵhij---(2);

其中,t(t=1,…,T)表示在T个总区间中的第t个标记区间;和 分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第 t个区间的右边标记的母体显性效应,对应的系数分别为和和 分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第 t个区间的左边标记的母体显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的胚乳加性,在环境h中第t 个区间的右边标记的胚乳显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的胚乳加性,在环境h中第t 个区间的左边标记的胚乳显性效应,对应的系数分别为和其余参 数的含义与模型(1)中的相同;

(3)在全基因组范围内搜索显著的数量性状位点:

将步骤(2)中得到的候选标记区间作为模型(3)的协变量,然后基 于模型(3),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F 检验,搜索显著的QTL位点;

如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性 模型如下:

yhij=μh+xkiAm+akhm+xkiDmdkhm+xkiAeakhe+xkiDedkhe+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζti+Dedth+e)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e)+Bj(h)+ϵhij---(3);

其中,和分别是QTL k在环境h中的母体加性和显性效应;和 分别是胚乳加性和显性效应;其余参数的含义与模型(1)和模型(2) 中的相同;

(4)在全基因组范围内搜索显著的二互作标记区间:

将步骤(2)中得到的候选标记区间作为模型(4)的协变量,然后基 于模型(4),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到 显著的二互作标记区间;

yhij=μh+aah+m+mζli+Amζri+Am+aah+m+eζli+Amζri+Ae+aah+e+mζli+Aeζri+Am+aah+e+eζli+AeζriAe+aah-m-mζli-Amζri-Am+aahm-meζli-Amζri-Ae+aah-e-mζli-Aeζri-Am+aah-e-eζli-AeζriAe+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+e+ζtiDedth+e)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dedth-e)+Bj(h)+ϵhij---(4);

其中,l和r表示每一对互作标记区间的两个区间;代表互作标 记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互 作,对应的系数为代表互作标记区间的区间l左边标记的母 体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加 性效应的互作,对应的系数为代表互作标记区间的区间l左边 标记的母体加性和区间r左边标记胚乳加性效应的互作,对应的系数为 代表互作标记区间的区间l右边标记的胚乳加性和区间r右 边标记母体加性效应的互作,对应的系数为代表互作标记区 间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作,对 应的系数为代表互作标记区间的区间l右边标记的胚乳加性和 区间r右边标记胚乳加性效应的互作,对应的系数为代表互作 标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的 互作,对应的系数为其余的参数与模型(1)和(2)有相同的定 义;

(5)搜索显著的二互作上位性的位点:

以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间 作为模型(5)的协变量,然后基于该模型(5),在显著的互作标记区间 中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位点;

yhij=μh+aanmhmmxniAmxmiAm+aanmhmexniAmxmiAe+aanmhemxniAexmiAm+aanmheexniAexmiAe+Σtf(aath+m+mζtli+AmζtriAm+aath+m+eζtli+Aeζtri+Ae+aath+e+mζtli+Aeζtri+Am+aath+e+eζtli+Aeζtri+Ae)+Σtf(aath-m-mζtli-Amζtri-Am+aath-m-eζtli-Amζtri-Ae+aath-e-mζtli-Aeζtri-Am+aath-e-eζtli-Aeζtri-Ae)+Σkp(xkiAmakhm+xkiDmdkhm+xkiAeakhe+xkiDedkhe)+Bj(h)+ϵhij---(5);

其中,是位点n的母体加性和位点m的母体加性之间的互作效应, 对应的系数为是位点n的母体加性和位点m的胚乳加性之间的 互作效应,对应的系数为是位点n的胚乳加性和位点m的母体 加性之间的互作效应,对应的系数为是位点n的胚乳加性和位 点m的胚乳加性之间的互作效应,对应的系数为代表第t个互 作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应 的互作,对应的系数为代表第t个互作标记区间的区间l左 边标记的母体加性和区间r左边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l右边标记的母体加性和区间 r右边标记胚乳加性效应的互作,对应的系数为代表第t个互 作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应 的互作,对应的系数为代表第t个互作标记区间的区间l右边 标记的胚乳加性和区间r右边标记母体加性效应的互作,对应的系数为 代表第t个互作标记区间的区间左边标记的胚乳加性和区间r 左边标记母体加性效应的互作,对应的系数为代表第t个互作 标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的 互作,对应的系数为代表第t个互作标记区间的区间l左边标 记的胚乳加性和区间r左边标记胚乳加性效应的互作,对应的系数为 其余参数与模型(3)有相同的定义;

(6)遗传参数的估算:

获得这些单位点和二互作的上位性的具体位置之后,我们就可以得到 该位置的每种基因型的条件概率,从而得到模型中的系数。我们可以采用 模型(1)计算这些位点的效应以及估算每个位点的遗传率。为了得到这 些效应值,我们首先给每个未知的参数一个初始值,随机效应的方差估计 通过最小范数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最 小二乘法(OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测。 然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡 洛(MCMC)循环链中。通过归纳吉布斯的所有样本的结果,最终得到每 个效应的估计值以及统计推断。

2、如果分析的性状主要受母体和胚遗传效应的控制,则方法包括:

(1)统计遗传模型的建立

根据种子的特征和实验目的,建立种子性状的合适的统计遗传模型。 对一衍生于两个纯合亲本(P1,P2)的交配作图群体,假设在t个不同 的环境下进行遗传实验,每个环境设置b个区组。某一种子性状的变异受 s个QTL(Q1,Q2,……,Qs)和t个上位性的调控,如果性状的变异 主要受母体、胚遗传效应的控制,则可采用包括母体加性、显性、胚加性、 胚显性,上位性以及这些遗传分量与环境的互作效应模型进行QTL分析。 环境h中第j个区组内第i个株系后代种子性状表型观测值(yhij)可用下 面的混合线性模型表示:

yhij=μh+Σks(akmxkiAm+dkmxkiDm+akoxkiAo+dkoxkiDo)+eh+Σk,l(1,2,...s),klt(aaklmmxkiAmxliAm+aaklooxkiAoxliAo+aaklmoxkiAmxliAo+aaklomxkiAoxliAm)+Σks(aekhmxkiAm+dekhmxkiDm+aekhoxkiAo+dekhoxkiDo)+Σk,l(1,2,...s),klt(aaeklhmmxkiAmxliAm+aaeklhooxkiAoxliAo+aaeklhmoxkiAmxliAo+aaeklhomxkiAoxliAm)+Bj(h)+ϵhij---(6);

其中,μh是群体在环境h中的平均数;和分别是Qk的母体加性和 母体显性效应,对应的系数分别为和和分别是Qk的母体加性 与环境h的互作效应,母体显性效应与环境h的互作效应,分别是Qk母体加性和Ql母体加性的互作效应,对应的系数 分别是是和环境h的互作效应;分别是Qk的胚加性和 胚显性效应,对应系数分别是eh是第h个环境的随机效应,分别是Qk的胚加性与环境的互作效应,胚显性与环境的互作效应, 和分别是Qk的胚加性效应和Ql胚加性效 应之间的上位性,Qk的母体加性效应和Ql胚加性效应之间的上位性,Qk的 胚加性效应和Ql母体加性效应之间的上位性,对应的系数分别为和是和环境h的互作效应;是和环境h的互 作效应;是和环境h的互作效应;Bj(h)是环境内的区组效应, εhij是剩余效应,

(2)全基因组扫描显著的标记区间:

基于模型(7),在全基因组范围内,通过表型和每个标记区间做基于 HendersonⅢ的F检验,搜索得到所有可能存在QTL的候选标记区间:

yhij=μh+ζti+Amath+m+ζti+Dmdth+m+ζti+Aeath+o+ζti+Dodth+o+ζti-Amath-m+ζti-Dmdth-m+ζti-Aoath-o+ζti-Dodth-o+Bj(h)+ϵhij---(7);

其中,和分别代表在环境h中第t个区间的右边标记的胚加性 和环境h中第t个区间的右边标记的胚显性效应,对应的系数分别为和 和分别代表在环境h中第t个区间的左边标记的胚加性和环境h 中第t个区间的左边标记的胚显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中 第t个区间的右边标记的母体显性效应,对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中 第t个区间的左边标记的母体显性效应,对应的系数分别为和其 余参数的含义和模型(6)中的相同;

(3)在全基因组范围内搜索显著的数量性状位点:

将步骤(2)中得到的候选标记区间作为模型(8)的协变量,然后基 于模型(8),以1cM为步长,在全基因组范围内做基于HendersonⅢ的F 检验,搜索显著的QTL位点;

如果已经搜索到s个显著的候选区间,那么检测一个位点k的显著性 模型如下:

yhij=μh+xkiAm+akhm+xkiDmdkhm+xkiAoakho+xkiDodkho+Σt=1s(ζti+Amath+m+ζti+Dmdth+m+ζti+Aoath+o+ζti+Dodth+o)+Σt=1s(ζti-Amath-m+ζti-Dmdth-m+ζti-Aoath-o+ζti-Dodth-o)+Bj(h)+ϵhij---(8);

其中,和分别是QTL k在环境h中的母体加性和显性效应;和 分别是胚加性和胚显性效应,对应的系数分别为和其余参数的 含义与模型(6)和模型(7)中的相同;

(4)在全基因组范围内搜索显著的二互作标记区间:

将步骤(2)中得到的候选标记区间作为模型(9)的协变量,然后基 于模型(9),在全基因组范围内做基于HendersonⅢ的F检验,搜索得到 显著的二互作标记区间;

yhij=μh+aah+m+mζli+Amζri+Am+aah+m+oζli+AmζriAo+aah+o+mζli+Aoζri+Am+aah+o+oζli+Aoζri+Ao+aah-m-mζli-Amζri-Am+aah-m-oζli-Amζri-Ao+aah-o-mζli-Aoζri-Am+aah-o-oζli-AoζriAo+Σt=1c(ζti+Amath+m+ζti+Dmdth+m+ζti+Aoath+o+ζti+Dodth+o)+Σt=1c(ζti-Amath-m+ζti-Dmdth-m+ζti-Aeath-e+ζti-Dodth-o)+Bj(h)+ϵhij---(9);

其中,l和r表示每一对互作标记区间的两个区间;代表互作标 记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互 作,对应的系数为代表互作标记区间的区间l左边标记的母 体加性和区间r左边标记母体加性效应的互作,对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性 效应的互作,其对应的系数为代表互作标记区间的区间l左 边标记的母体加性和区间r左边标记胚加性效应的互作,其对应的系数为 代表互作标记区间的区间l右边标记的胚加性和区间r右边 标记母体加性效应的互作,其对应的系数为代表互作标记区 间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作,其对 应的系数为代表互作标记区间的区间l右边标记的胚加性和区 间r右边标记胚加性效应的互作,其对应的系数为代表互作 标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作, 其对应的系数为其余的参数与模型(8)有相同的定义。

(5)搜索显著的二互作上位性的位点:

以步骤(3)得到的QTL以及步骤(4)得到的显著的互作标记区间 作为模型(10)协变量,然后基于该模型(10),在所述显著的互作标记 区间中做基于HendersonⅢ的F检验,搜索得到显著的二互作上位性的位 点;

yhij=μh+aanmhmmxniAmxmiAm+aanmhmoxniAmxmiAo+aanmhomxniAoxmiAm+aanmhooxniAoxmiAo+Σtf(aath+m+mζtli+Amζtri+Am+aath+m+oζtli+Amζtri+Ao+aath+o+mζtli+Aoζtri+Am+aath+o+oζtli+Aoζtri+Ao)+Σtf(aath-m-mζtli-Amζtri-Am+aath-m-oζtli-Amζtri-Ao+aath-o-mζtli-Aoζtri-Am+aath-o-oζtli-Aoζtri-Ao)+Σkp(xkiAmakhm+xkiDm+xkiAoakho+xkiDodkho)+Bj(h)+ϵhij---(10);

其中,是位点n的母体加性和位点m的母体加性之间的互作效应, 对应的系数为代表第t个互作标记区间的区间l右边标记的母 体加性和区间r右边标记母体加性效应的互作,对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记 母体加性效应的互作,对应的系数为是位点n的母体加性和 位点m的胚加性之间的互作效应,对应的系数为是位点n的胚 加性和位点m的母体加性之间的互作效应,对应的系数为是位 点n的胚加性和位点m的胚加性之间的互作效应,对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记 胚加性效应的互作,对应的系数为代表第t个互作标记区间 的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作,对应 的系数为代表第t个互作标记区间的区间l右边标记的胚加性 和区间r右边标记母体加性效应的互作,对应的系数为代表 第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性 效应的互作,对应的系数为代表第t个互作标记区间的区间l 右边标记的胚加性和区间r右边标记胚加性效应的互作,对应的系数为 代表第t个互作标记区间的区间l左边标记的胚加性和区间r 左边标记胚加性效应的互作,对应的系数为其余参数与模型(8) 有相同的定义;

(6)遗传参数的估算:

获得这些单位点和二互作的上位性的具体位置之后,我们就可以得到 该位置的每种基因型的条件概率,从而得到模型中的系数。我们可以采用 模型(6)计算这些位点的效应以及估算每个位点的遗传率。为了得到这 些效应值,我们首先给每个未知的参数一个初始值,随机效应的方差估计 通过最小范数二阶无偏估计(MINQUE)法获得,固定效应的估计通过最 小二乘法(OLSE)获得,随机效应通过调整的无偏预测法(AUP)预测。 然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡 洛(MCMC)循环链中。通过归纳吉布斯的所有样本的结果,最终得到每 个效应的估计值以及统计推断。

下面结合具体应用例进行说明。

(1)供试材料

188个重组自交系是来自两个棉花亲本,HS46和 MARCABUCAG8US-1-88的杂交后代的自交8代。FP(衣分)性状在双 亲中呈现显著表型遗传差异且表现连续分布,同时该性状比较容易测定。 在本研究中,188个重组自交系中每两个重组自交系随机交配,在开花期 产生376个永久F2用于种子性状的分析。所选的定位群体和定位数量性 状均适应于本方法的实施。

(2)分子遗传图谱

本方法实施所采用分子遗传图谱以 “HS46×MARCABUCAG8US-1-88”重组自交系群体188个株系构建分子遗 传图谱为定位图谱。该图谱包含388个分子标记(Liu H,Quampah A.QTL  Mapping Based on Different Genetic Systems for Essential Amino Acid  Contents in Cottonseeds in Different Environmrnts.Plos One,2013,8 (3):e57531),分布在30个连锁群,图谱覆盖基因组全长1946.22cM, 覆盖了全基因组的41.55%,相邻标记间的间距为5.03cM。

(3)QTL作图软件及方法

本方法实施所采用的软件是基于上述本研究的方法所编写的 QTLNetwork-seed软件。采用混合线性模型进行主效QTL以及上位性的定 位,并估算主效QTL,上位性以及环境互作的遗传参数。

在2009年、2010年分别将含有188个株系的 “HS46×MARCABUCAG8US-1-88”重组自交系群体以及双亲种植于海南 三亚中国农业科学院棉花研究所实验基地。实验是以随机区组试验设计, 并进行了两次重复,按照株行间距25×80cm的规格。在开花期,根据双 列杂交试验设计,在188个重组自交系中两两随机交配产生376个杂交后 代。在一个RIL植株中产生的IF2种子形成IF2群体。其中,IF2群体结合 了RIL和F2的优点。用于本方法实施研究的数量性状为棉花种子种的FP。

棉花种子在轧花之后,将纤维从棉花籽中除去并干燥。每个样本中搜 集200粒种子,并磨成粉末状。粉末状的样本在温度为25℃,湿度大约为 7%的环境下干燥。近红外扫描所有样品,得到FP的光谱信息。利用分子 遗传图谱、混合线性模型以及表型性状进行QTL定位分析。结果发现, 在第19、第21条染色体上分别检测到一个控制FP性状的主效QTL,并 且这两个QTL都对环境敏感。此外,还发现两队上位性,分别是4-2,25-13 和4-2,20-2,这些上位性对环境也较敏感,而这些参与上位性的QTL均 未检测到主效应的存在。

本发明采用QTL作图技术,考虑到种子的遗传机制,创建了一种基 于混合线性模型的种子性状的基因定位的方法,提高了QTL定位研究的 准确性、可靠性,必将加快基因定位研究进展。

最后,还需要特别注意的是,以上所举例子仅是本发明的具体实施例 子。显然,本发明不仅仅限于以上实施例子,还可以有许多变通的情况。 本领域的技术人员从本发明公开的内容直接推导出或联想到的所有变通 情况,均认为是本发明的保护范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号