首页> 中国专利> 一种基于混合线性模型的种子数量性状位点定位方法

一种基于混合线性模型的种子数量性状位点定位方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明公开了一种基于混合线性模型的种子数量性状位点定位方法，包括：建立统计遗传模型；在全基因组范围内搜索所有可能存在QTL的候选标记区间：将所述的候选标记区间作为协变量，在全基因组范围内搜索显著的QTL位点和二互作标记区间；以所述的QTL位点和二互作标记区间作为协变量，在显著的互作标记区间内搜索显著的二互作上位性的位点；通过所述QTL位点和二互作上位性的位点，获得统计遗传模型中各种效应的系数，然后通过统计遗传模型，计算这些位点的效应以及估算每个位点的遗传率。本发明将种子性状分成二倍体种子和三倍体种子，考虑了上位性效应及基因与环境互作的效应，可快速无偏的估计种子数量性状位点的位置及各种效应。

著录项

公开/公告号CN103632067A

专利类型发明专利
公开/公告日2014-03-12

原文格式PDF
申请/专利权人浙江大学;
展开▼

申请/专利号CN201310549029.0
发明设计人徐海明;祁婷;曹玉杰;祝水金;楼向阳;
展开▼

申请日2013-11-07
分类号G06F19/12;
代理机构杭州天勤知识产权代理有限公司;
代理人胡红娟
地址 310027 浙江省杭州市西湖区浙大路38号
入库时间 2024-02-19 23:10:49

法律信息

法律状态公告日

法律状态信息

法律状态
2016-08-17

授权

授权
2014-04-09

实质审查的生效 IPC(主分类):G06F19/12 申请日:20131107

实质审查的生效
2014-03-12

公开

公开

说明书

技术领域

本发明涉及种子数量性状位点定位领域，具体涉及一种基于混合线性模型种子数量性状位点定位方法。

技术背景

作物种子是人类食物，动物饲料以及工业原料的主要来源。胚或胚乳是种子中的主要成分。胚乳作为储藏营养物质的主要器官，比如碳水化合物，蛋白质和矿物质等，它同时也会胚的发育提供营养。胚乳在有些物种成熟时会消失，比如拟南芥。无论胚乳消失与否，它都将会对胚的发育产生影响。此外，种子是长在母体植株中，因此母体植株对种子的发育也会产生影响。种子数量性状位点定位的研究已经成为数量遗传领域的研究热点之一。

近年来，种子数量性状位点的定位尤其是对农作物品质性状的研究方面的应用十分广泛。

早在1994年，莫惠栋（Mo HD.Genetic analysis for qualitative-quantitative traits III.Endosperm character under triploid genetic control.Acta agronomica Sinica，1994，20（5）：513-519）提出了一个统计遗传模型，可以把种子性状的表型方差分解为各种各样的遗传和环境因子。1994年，朱军和Bruce Weir（Zhu J,Weir.BSAnalysis of Cytoplasmic and Maternal Effects.2.Genetic Models for Triploid Endosperms.Theor Appl Genet，1994，89（2-3）:160-166）进一步提出了混合线性模型方法，利用双列杂交试验分析了母体效应，胚，胚乳和细胞质效应，以及各种效应与环境的互作。以上这些方法都只能把种子性状的遗传变异分解为各种各样的方差分量，把控制性状的所有基因当做一个整体来分析，而不能得到单个基因水平上的更详细的信息，比如数量性状位点的位置以及存在的各种效应。

随着分子标记技术的发展，数量性状位点定位的方法被提出和运用到作物种子性状的定位研究中。但是种子中的主要成分胚乳是三倍体，因此不能用一般的定位方法。基于这个遗传背景，Kao（Kao CH. Multiple-interval Mapping for Quantitative Trait Loci Controlling Endosperm Traits.Genetics,2004,167（4）:1987-2002）在2004年提出运用多区间作图方法，同时充分考虑到三倍体胚乳的性质。这种方法可以分析胚乳的各种效应。然而，种子一个很重要的特征是，它长在母体植株上，因此种子的发育也会受到母体植株的影响。鉴于此，Hu和Xu（Hu ZQ,Xu CW.A New Statistical Method for Mapping QTLs underlying Endosperm Traits.Chinese Sci Bull，2005，50（14）:1470-1476）提出了一个统计遗传模型，他们把母体基因组和后代基因组整合在同一个模型中，使模型更加接近种子性状发育的遗传机制。

据我们所知，上位性，即一个基因的表达依赖于另外一个基因，在数量性状的发育和进化中起着重要的作用。大量的研究已经表明，上位性对性状的遗传变异也产生了不可忽略的贡献。通常所说的上位性，指的是来自同一基因组的两个基因之间的互作；然而在种子性状中，存在着两个不同的基因组，因此上位性的两个基因可能是来自不同的基因组。随着人们对上位性的重要性的深入了解，大量的遗传模型已经被提出来。在种子性状的研究中，Cui（Cui Y,Wu R.Mapping Genome-genome Epistasis:A High-dimensional Model.Bioinformatics,2005,21（10）:2447-2455）提出了一种统计方法和框架去探索母体和后代的基因组之间的互作关系。

然而，迄今为止，尚未见有报道环境效应以及基因与环境的互作效应，也没有把上位性和基因与环境互作效应整合在一个模型中的方法。

发明内容

本发明提供了一种基于混合线性模型种子数量性状位点定位方法，充分考虑到种子性状的遗传机制，把种子性状分成主要以胚控制的二倍体种子和主要以胚乳控制的三倍体种子。在本发明中，把母体基因组和后代基因组整合在同一个遗传模型中，同时把同一基因组和不同基因组之间的上位性效应以及基因与环境互作的效应加入到模型中，能够快速无偏的估计种子数量性状位点的位置以及各种效应，提高了育种学家进行分子辅助育种的效率和精确性。

一种基于混合线性模型的三倍体种子数量性状位点定位方法，包括：

（1）统计遗传模型的建立：

对一衍生于两个纯合亲本（P1，P2）的交配作图群体，假设在t个不同的环境下进行遗传实验，每个环境设置b个区组，某一种子数量性状的变异受s个QTL（Q1，Q2,……，Qs）和t个上位性的调控，则环境h 中第j个区组内第i个株系后代种子性状表型观测值（y_hij）可用下面的混合线性模型（1）表示：

$(\begin{matrix} y_{hij} = μ_{h} + Σ_{k}^{s} (a_{k}^{m} x_{ki}^{Am} + d_{k}^{m} x_{ki}^{Dm} + a_{k}^{e} x_{ki}^{Ae} + d_{k}^{e} x_{ki}^{De}) + e_{h} \\ + Σ_{k, l \in (1,2, . . . s), k \neq l}^{t} ({aa}_{kl}^{mm} x_{ki}^{Am} x_{li}^{Am} + {aa}_{kl}^{ee} x_{ki}^{Ae} x_{li}^{Ae} + {aa}_{kl}^{me} x_{ki}^{Am} x_{li}^{Ae} + {aa}_{kl}^{em} x_{ki}^{Ae} x_{li}^{Am}) \\ + Σ_{k}^{s} ({ae}_{kh}^{m} x_{ki}^{Am} + {de}_{kh}^{m} x_{ki}^{Dm} + {ae}_{kh}^{e} x_{ki}^{Ae} + {de}_{kh}^{e} x_{ki}^{De}) \\ + Σ_{k, l \in (1,2, . . . s), k \neq l}^{t} ({aae}_{klh}^{mm} x_{ki}^{Am} x_{li}^{Am} + {aae}_{klh}^{ee} x_{li}^{Ae} + {aae}_{klh}^{me} x_{ki}^{Am} x_{li}^{Ae} + {aae}_{klh}^{em} x_{ki}^{Ae} x_{li}^{Am}) \\ + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (1);$

其中，模型（1）中的和分别是Q_k的母体加性和母体显性效应，对应的系数分别为和和分别是Q_k的母体加性与环境h的互作效应，母体显性效应与环境h的互作效应，分别是Q_k的胚乳加性、胚乳显性效应，对应系数分别是和分别是Q_k的胚乳加性与环境的互作效应、胚乳显性效应与环境的互作效应，分别是Q_k母体加性和Q_l母体加性的互作效应，Q_k胚乳加性和Q_l胚乳加性的互作效应，Q_k母体加性和Q_l胚乳加性的互作效应，Q_k胚乳加性和Q_l母体加性的互作效应，对应的系数分别是是和环境h的互作效应；是和环境h 的互作效应；是和环境h的互作效应；是和环境h的互作效应；μ_h是群体在环境h中的平均数；e_h是第h个环境的随机效应， B_j(h)是环境内的区组效应,ε_hij是剩余效应，

（2）全基因组扫描显著的标记区间：

基于模型（2），在全基因组范围内，通过表型和每个标记区间做基于 HendersonⅢ的F检验，搜索得到所有可能存在QTL的候选标记区间：

$(\begin{matrix} y_{hij} = μ_{h} + ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ae} a_{th}^{+ e} + ζ_{ti}^{+ De} d_{th}^{+ e} \\ {+ ζ}_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ae} a_{th}^{- e} + ζ_{ti}^{- De} d_{th}^{- e} + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (2);$

其中，t（t=1,…,T）表示在T个总区间中的第t个标记区间；和分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第 t个区间的右边标记的母体显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第 t个区间的左边标记的母体显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的胚乳加性，在环境h中第t 个区间的右边标记的胚乳显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的胚乳加性，在环境h中第t 个区间的左边标记的胚乳显性效应，对应的系数分别为和其余参数的含义与模型（1）中的相同；

（3）在全基因组范围内搜索显著的数量性状位点：

将步骤（2）中得到的候选标记区间作为模型（3）的协变量，然后基于模型（3），以1cM为步长，在全基因组范围内做基于HendersonⅢ的F 检验，搜索显著的QTL位点；

如果已经搜索到s个显著的候选区间，那么检测一个位点k的显著性模型如下：

$(\begin{matrix} y_{hij} = μ_{h} + x_{ki}^{Am} + a_{kh}^{m} + x_{ki}^{Dm} d_{kh}^{m} + x_{ki}^{Ae} a_{kh}^{e} + x_{ki}^{De} d_{kh}^{e} \\ + Σ_{t = 1}^{s} (ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ae} a_{th}^{+ e} + ζ_{ti}^{+ De} d_{th}^{+ e}) \\ + Σ_{t = 1}^{s} (ζ_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ae} a_{th}^{- e} + ζ_{ti}^{- De} d_{th}^{- e}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (3);$

其中，和分别是QTL k在环境h中的母体加性和显性效应；和分别是胚乳加性和显性效应；其余参数的含义与模型（1）和模型（2）中的相同；

（4）在全基因组范围内搜索显著的二互作标记区间：

将步骤（2）中得到的候选标记区间作为模型（4）的协变量，然后基于模型（4），在全基因组范围内做基于HendersonⅢ的F检验，搜索得到显著的二互作标记区间；

$(\begin{matrix} y_{hij} = μ_{h} + {aa}_{h}^{+ m + m} ζ_{li}^{+ Am} ζ_{ri}^{+ Am} + {aa}_{h}^{+ m + e} ζ_{li}^{+ Am} ζ_{ri}^{+ Ae} + {aa}_{h}^{+ e + m} ζ_{li}^{+ Ae} ζ_{ri}^{+ Am} + {aa}_{h}^{+ e + e} ζ_{li}^{+ Ae} ζ_{ri}^{Ae} \\ + {aa}_{h}^{- m - m} ζ_{li}^{- Am} ζ_{ri}^{- Am} + {aa}_{h}^{m - me} ζ_{li}^{- Am} ζ_{ri}^{- Ae} + {aa}_{h}^{- e - m} ζ_{li}^{- Ae} ζ_{ri}^{- Am} + {aa}_{h}^{- e - e} ζ_{li}^{- Ae} ζ_{ri}^{Ae} \\ + Σ_{t = 1}^{s} (ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ae} a_{th}^{+ e} + ζ_{ti}^{De} d_{th}^{+ e}) \\ + Σ_{t = 1}^{s} (ζ_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ae} a_{th}^{- e} + ζ_{ti}^{- De} d_{th}^{- e}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (4);$

其中，l和r表示每一对互作标记区间的两个区间；代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚乳加性效应的互作，对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作，对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间左边标记的胚乳加性和区间r左边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作，对应的系数为代表互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作，对应的系数为其余的参数与模型（1）和（2）有相同的定义；

（5）搜索显著的二互作上位性的位点：

以步骤（3）得到的QTL以及步骤（4）得到的显著的互作标记区间作为模型（5）的协变量，然后基于该模型（5），在所述显著的互作标记区间中做基于HendersonⅢ的F检验，搜索得到显著的二互作上位性的位点；

$(\begin{matrix} y_{hij} = μ_{h} + {aa}_{nmh}^{mm} x_{ni}^{Am} x_{mi}^{Am} + {aa}_{nmh}^{me} x_{ni}^{Am} x_{mi}^{Ae} + {aa}_{nmh}^{em} x_{ni}^{Ae} x_{mi}^{Am} + {aa}_{nmh}^{ee} x_{ni}^{Ae} x_{mi}^{Ae} \\ + Σ_{t}^{f} (a a_{th}^{+ m + m} ζ_{tli}^{+ Am} ζ_{tri}^{Am} + {aa}_{th}^{+ m + e} ζ_{tli}^{+ Ae} ζ_{tri}^{+ Ae} + {aa}_{th}^{+ e + m} ζ_{tli}^{+ Ae} ζ_{tri}^{+ Am} + {aa}_{th}^{+ e + e} ζ_{tli}^{+ Ae} ζ_{tri}^{+ Ae}) \\ + Σ_{t}^{f} ({aa}_{th}^{- m - m} ζ_{tli}^{- Am} ζ_{tri}^{- Am} {+ aa}_{th}^{- m - e} ζ_{tli}^{- Am} ζ_{tri}^{- Ae} + {aa}_{th}^{- e - m} ζ_{tli}^{- Ae} ζ_{tri}^{- Am} + {aa}_{th}^{- e - e} ζ_{tli}^{- Ae} ζ_{tri}^{- Ae}) \\ + Σ_{k}^{p} (x_{ki}^{Am} a_{kh}^{m} + x_{ki}^{Dm} d_{kh}^{m} + x_{ki}^{Ae} a_{kh}^{e} + x_{ki}^{De} d_{kh}^{e}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (5);$

其中，是位点n的母体加性和位点m的母体加性之间的互作效应，对应的系数为是位点n的母体加性和位点m的胚乳加性之间的互作效应，对应的系数为是位点n的胚乳加性和位点m的母体加性之间的互作效应，对应的系数为是位点n的胚乳加性和位点m的胚乳加性之间的互作效应，对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间 r右边标记胚乳加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚乳加性效应的互作，对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间左边标记的胚乳加性和区间r 左边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间l右边标记的胚乳加性和区间r右边标记胚乳加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的胚乳加性和区间r左边标记胚乳加性效应的互作，对应的系数为其余参数与模型（3）有相同的定义；

（6）遗传参数的估算：

通过步骤（3）得到的显著的QTL位点和步骤（5）得到的显著的二互作上位性的位点，获取得到模型（1）中各种效应的系数，然后通过模型（1），计算得到这些位点的效应以及估算每个位点的遗传率。步骤（6）中，通过模型（1），计算得到这些位点的效应以及估算每个位点的遗传率时，首先给每个未知的参数一个初始值，随机效应的方差估计通过最小范数二阶无偏估计（MINQUE）法获得，固定效应的估计通过最小二乘法（OLSE）获得，随机效应通过调整的无偏预测法（AUP）预测，然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛（MCMC）循环链中，通过归纳吉布斯的所有样本的结果，最终得到每个效应的估计值以及估算每个位点的遗传率。

一种基于混合线性模型的二倍体种子数量性状位点定位方法，包括：

（1）统计遗传模型的建立

对一衍生于两个纯合亲本（P1，P2）的交配作图群体，假设在t个不同的环境下进行遗传实验，每个环境设置b个区组，某一种子数量性状的变异受s个QTL（Q1，Q2,……，Qs）和t个上位性的调控，则环境h 中第j个区组内第i个株系后代种子性状表型观测值（y_hij）可用下面的混合线性模型表示：

$(\begin{matrix} y_{hij} = μ_{h} + Σ_{k}^{s} (a_{k}^{m} x_{ki}^{Am} + d_{k}^{m} x_{ki}^{Dm} + a_{k}^{o} x_{ki}^{Ao} + d_{k}^{o} x_{ki}^{Do}) + e_{h} \\ + Σ_{k, l \in (1,2, . . . s), k \neq l}^{t} ({aa}_{kl}^{mm} x_{ki}^{Am} x_{li}^{Am} + {aa}_{kl}^{oo} x_{ki}^{Ao} x_{li}^{Ao} + {aa}_{kl}^{mo} x_{ki}^{Am} x_{li}^{Ao} + {aa}_{kl}^{om} x_{ki}^{Ao} x_{li}^{Am}) \\ + Σ_{k}^{s} ({ae}_{kh}^{m} x_{ki}^{Am} + {de}_{kh}^{m} x_{ki}^{Dm} + {ae}_{kh}^{o} x_{ki}^{Ao} + {de}_{kh}^{o} x_{ki}^{Do}) \\ + Σ_{k, l \in (1,2, . . . s), k \neq l}^{t} ({aae}_{klh}^{mm} x_{ki}^{Am} x_{li}^{Am} + {aae}_{klh}^{oo} x_{ki}^{Ao} x_{li}^{Ao} + {aae}_{klh}^{mo} x_{ki}^{Am} x_{li}^{Ao} + {aae}_{klh}^{om} x_{ki}^{Ao} x_{li}^{Am}) \\ + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (6);$

其中，μ_h是群体在环境h中的平均数；和分别是Q_k的母体加性和母体显性效应，对应的系数分别为和和分别是Q_k的母体加性与环境h的互作效应，母体显性效应与环境h的互作效应，分别是Q_k母体加性和Q_l母体加性的互作效应，对应的系数分别是是和环境h的互作效应；分别是Q_k的胚加性和胚显性效应，对应系数分别是e_h是第h个环境的随机效应，分别是Q_k的胚加性与环境的互作效应，胚显性与环境的互作效应，和分别是Q_k的胚加性效应和Q_l胚加性效应之间的上位性，Q_k的母体加性效应和Q_l胚加性效应之间的上位性，Q_k的胚加性效应和Q_l母体加性效应之间的上位性，对应的系数分别为和是和环境h的互作效应；是和环境h的互作效应；是和环境h的互作效应；B_j(h)是环境内的区组效应， ε_hij是剩余效应，

（2）全基因组扫描显著的标记区间：

基于模型（7），在全基因组范围内，通过表型和每个标记区间做基于 HendersonⅢ的F检验，搜索得到所有可能存在QTL的候选标记区间：

$(\begin{matrix} y_{hij} = μ_{h} + ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ae} a_{th}^{+ o} + ζ_{ti}^{+ Do} d_{th}^{+ o} \\ {+ ζ}_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ao} a_{th}^{- o} + ζ_{ti}^{- Do} d_{th}^{- o} + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (7);$

其中，和分别代表在环境h中第t个区间的右边标记的胚加性和环境h中第t个区间的右边标记的胚显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的胚加性和环境h 中第t个区间的左边标记的胚显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的右边标记的母体加性和在环境h中第t个区间的右边标记的母体显性效应，对应的系数分别为和和分别代表在环境h中第t个区间的左边标记的母体加性和在环境h中第t个区间的左边标记的母体显性效应，对应的系数分别为和其余参数的含义和模型（6）中的相同；

（3）在全基因组范围内搜索显著的数量性状位点：

将步骤（2）中得到的候选标记区间作为模型（8）的协变量，然后基于模型（8），以1cM为步长，在全基因组范围内做基于HendersonⅢ的F 检验，搜索显著的QTL位点；

如果已经搜索到s个显著的候选区间，那么检测一个位点k的显著性模型如下：

$(\begin{matrix} y_{hij} = μ_{h} + x_{ki}^{Am} + a_{kh}^{m} + x_{ki}^{Dm} d_{kh}^{m} + x_{ki}^{Ao} a_{kh}^{o} + x_{ki}^{Do} d_{kh}^{o} \\ + Σ_{t = 1}^{s} (ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ao} a_{th}^{+ o} + ζ_{ti}^{+ Do} d_{th}^{+ o}) \\ + Σ_{t = 1}^{s} (ζ_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ao} a_{th}^{- o} + ζ_{ti}^{- Do} d_{th}^{- o}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (8);$

其中，和分别是QTL k在环境h中的母体加性和显性效应；和分别是胚加性和胚显性效应，对应的系数分别为和其余参数的含义与模型（6）和模型（7）中的相同；

（4）在全基因组范围内搜索显著的二互作标记区间：

将步骤（2）中得到的候选标记区间作为模型（9）的协变量，然后基于模型（9），在全基因组范围内做基于HendersonⅢ的F检验，搜索得到显著的二互作标记区间；

$(\begin{matrix} y_{hij} = μ_{h} + {aa}_{h}^{+ m + m} ζ_{li}^{+ Am} ζ_{ri}^{+ Am} + {aa}_{h}^{+ m + o} ζ_{li}^{+ Am} ζ_{ri}^{Ao} + {aa}_{h}^{+ o + m} ζ_{li}^{+ Ao} ζ_{ri}^{+ Am} + {aa}_{h}^{+ o + o} ζ_{li}^{+ Ao} ζ_{ri}^{+ Ao} \\ + {aa}_{h}^{- m - m} ζ_{li}^{- Am} ζ_{ri}^{- Am} + {aa}_{h}^{- m - o} ζ_{li}^{- Am} ζ_{ri}^{- Ao} + {aa}_{h}^{- o - m} ζ_{li}^{- Ao} ζ_{ri}^{- Am} + {aa}_{h}^{- o - o} ζ_{li}^{- Ao} ζ_{ri}^{Ao} \\ + Σ_{t = 1}^{c} (ζ_{ti}^{+ Am} a_{th}^{+ m} + ζ_{ti}^{+ Dm} d_{th}^{+ m} + ζ_{ti}^{+ Ao} a_{th}^{+ o} + ζ_{ti}^{+ Do} d_{th}^{+ o}) \\ + Σ_{t = 1}^{c} (ζ_{ti}^{- Am} a_{th}^{- m} + ζ_{ti}^{- Dm} d_{th}^{- m} + ζ_{ti}^{- Ae} a_{th}^{- e} + ζ_{ti}^{- Do} d_{th}^{- o}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (9);$

其中，l和r表示每一对互作标记区间的两个区间；代表互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作，对应的系数为代表互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作，其对应的系数为代表互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作，其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作，其对应的系数为代表互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作，其对应的系数为代表互作标记区间的区间l右边标记的胚加性和区间r右边标记胚加性效应的互作，其对应的系数为代表互作标记区间的区间l左边标记的胚加性和区间r左边标记胚加性效应的互作，其对应的系数为其余的参数与模型（8）有相同的定义。

（5）搜索显著的二互作上位性的位点：

以步骤（3）得到的QTL以及步骤（4）得到的显著的互作标记区间作为模型（10）协变量，然后基于该模型（10），在所述显著的互作标记区间中做基于HendersonⅢ的F检验，搜索得到显著的二互作上位性的位点；

$(\begin{matrix} y_{hij} = μ_{h} + {aa}_{nmh}^{mm} x_{ni}^{Am} x_{mi}^{Am} + {aa}_{nmh}^{mo} x_{ni}^{Am} x_{mi}^{Ao} + {aa}_{nmh}^{om} x_{ni}^{Ao} x_{mi}^{Am} + {aa}_{nmh}^{oo} x_{ni}^{Ao} x_{mi}^{Ao} \\ + Σ_{t}^{f} ({aa}_{th}^{+ m + m} ζ_{tli}^{+ Am} ζ_{tri}^{+ Am} + {aa}_{th}^{+ m + o} ζ_{tli}^{+ Am} ζ_{tri}^{+ Ao} + {aa}_{th}^{+ o + m} ζ_{tli}^{+ Ao} ζ_{tri}^{+ Am} + {aa}_{th}^{+ o + o} ζ_{tli}^{+ Ao} ζ_{tri}^{+ Ao}) \\ + Σ_{t}^{f} ({aa}_{th}^{- m - m} ζ_{tli}^{- Am} ζ_{tri}^{- Am} + {aa}_{th}^{- m - o} ζ_{tli}^{- Am} ζ_{tri}^{- Ao} + {aa}_{th}^{- o - m} ζ_{tli}^{- Ao} ζ_{tri}^{- Am} + {aa}_{th}^{- o - o} ζ_{tli}^{- Ao} ζ_{tri}^{- Ao}) \\ + Σ_{k}^{p} (x_{ki}^{Am} a_{kh}^{m} + x_{ki}^{Dm} + x_{ki}^{Ao} a_{kh}^{o} + x_{ki}^{Do} d_{kh}^{o}) + B_{j (h)} + ϵ_{hij} \end{matrix}) - - - (10);$

其中,是位点n的母体加性和位点m的母体加性之间的互作效应，对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记母体加性效应的互作，对应的系数为是位点n的母体加性和位点m的胚加性之间的互作效应，对应的系数为是位点n的胚加性和位点m的母体加性之间的互作效应，对应的系数为是位点n的胚加性和位点m的胚加性之间的互作效应，对应的系数为代表第t个互作标记区间的区间l右边标记的母体加性和区间r右边标记胚加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的母体加性和区间r左边标记胚加性效应的互作，对应的系数为代表第t个互作标记区间的区间l右边标记的胚加性和区间r右边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间左边标记的胚加性和区间r左边标记母体加性效应的互作，对应的系数为代表第t个互作标记区间的区间l 右边标记的胚加性和区间r右边标记胚加性效应的互作，对应的系数为代表第t个互作标记区间的区间l左边标记的胚加性和区间r 左边标记胚加性效应的互作，对应的系数为其余参数与模型（8）有相同的定义；

（6）遗传参数的估算：

通过步骤（3）得到的显著的QTL位点和步骤（5）得到的显著的二互作上位性的位点，获取得到模型（6）中各种效应的系数，然后通过模型（6），计算得到这些位点的效应以及估算每个位点的遗传率。步骤（6）中，通过模型（6），计算得到这些位点的效应以及估算每个位点的遗传率时，首先给每个未知的参数一个初始值，随机效应的方差估计通过最小范数二阶无偏估计法获得，固定效应的估计通过最小二乘法获得，随机效应通过调整的无偏预测法预测，然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛循环链中，通过归纳吉布斯的所有样本的结果，最终得到每个效应的估计值以及估算每个位点的遗传率。

与现有技术相比，本发明的有益效果为：

（1）利用混合线性模型分析种子性状的特点，同时考虑母体基因组和后代基因组，虽然参数的数量增加了许多，但是计算速度还是比较快；

（2）考虑了同一基因组内的上位性以及不同基因组之间的上位性，能够更全面的解释种子性状的遗传变异；

（3）能够处理多个环境下的数据，给出基因与环境互作效应的无偏估计，从而能够获得特定适应性的品种或广谱适应性的品种；

（4）跟Zhang和Cui的方法相比，我们提出的上位性的两个位点假设在母体基因组和后代基因组中都有效应，不仅仅局限于每个位点仅在一个基因组中有效应；

（5）混合线性模型具有很大的灵活性，模型扩展非常方便。

具体实施方式

下面结合具体实施例对本发明作进一步阐释。

本发明基于混合线性模型的种子数量性状位点定位方法，将种子分为三倍体种子和二倍体种子。

1、如果分析的性状主要受母体和胚乳遗传效应的控制，则方法包括：

（1）统计遗传模型的建立：

根据种子的特征和实验目的，建立种子性状的合适的统计遗传模型。对一衍生于两个纯合亲本（P1，P2）的交配作图群体，假设在t个不同的环境下进行遗传实验，每个环境设置b个区组。某一种子性状的变异受 s个QTL（Q1，Q2,……，Qs）和t个上位性的调控，则环境h中第j 个区组内第i个株系后代种子性状表型观测值（y_hij）可用下面的混合线性模型（1）表示：

（2）全基因组扫描显著的标记区间：

在全基因组范围内，通过表型和每个标记区间做基于HendersonⅢ的 F检验，搜索得到所有可能存在QTL的候选标记区间。搜索所有可能存在 QTL的候选标记区间。为了使我们的说明不失一般化，我们基于模型（1）来给出在全基因组搜索显著区间的遗传模型：

（3）在全基因组范围内搜索显著的数量性状位点：

如果已经搜索到s个显著的候选区间，那么检测一个位点k的显著性模型如下：

其中，和分别是QTL k在环境h中的母体加性和显性效应；和分别是胚乳加性和显性效应；其余参数的含义与模型（1）和模型（2）中的相同；

（4）在全基因组范围内搜索显著的二互作标记区间：

（5）搜索显著的二互作上位性的位点：

以步骤（3）得到的QTL以及步骤（4）得到的显著的互作标记区间作为模型（5）的协变量，然后基于该模型（5），在显著的互作标记区间中做基于HendersonⅢ的F检验，搜索得到显著的二互作上位性的位点；

（6）遗传参数的估算：

获得这些单位点和二互作的上位性的具体位置之后，我们就可以得到该位置的每种基因型的条件概率，从而得到模型中的系数。我们可以采用模型（1）计算这些位点的效应以及估算每个位点的遗传率。为了得到这些效应值，我们首先给每个未知的参数一个初始值，随机效应的方差估计通过最小范数二阶无偏估计（MINQUE）法获得，固定效应的估计通过最小二乘法（OLSE）获得，随机效应通过调整的无偏预测法（AUP）预测。然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛（MCMC）循环链中。通过归纳吉布斯的所有样本的结果，最终得到每个效应的估计值以及统计推断。

2、如果分析的性状主要受母体和胚遗传效应的控制，则方法包括：

（1）统计遗传模型的建立

根据种子的特征和实验目的，建立种子性状的合适的统计遗传模型。对一衍生于两个纯合亲本（P1，P2）的交配作图群体，假设在t个不同的环境下进行遗传实验，每个环境设置b个区组。某一种子性状的变异受 s个QTL（Q1，Q2,……，Qs）和t个上位性的调控，如果性状的变异主要受母体、胚遗传效应的控制，则可采用包括母体加性、显性、胚加性、胚显性，上位性以及这些遗传分量与环境的互作效应模型进行QTL分析。环境h中第j个区组内第i个株系后代种子性状表型观测值（y_hij）可用下面的混合线性模型表示：

其中，μ_h是群体在环境h中的平均数；和分别是Q_k的母体加性和母体显性效应，对应的系数分别为和和分别是Q_k的母体加性与环境h的互作效应，母体显性效应与环境h的互作效应，分别是Q_k母体加性和Q_l母体加性的互作效应，对应的系数分别是是和环境h的互作效应；分别是Q_k的胚加性和胚显性效应，对应系数分别是eh是第h个环境的随机效应，分别是Q_k的胚加性与环境的互作效应，胚显性与环境的互作效应，和分别是Q_k的胚加性效应和Q_l胚加性效应之间的上位性，Q_k的母体加性效应和Q_l胚加性效应之间的上位性，Q_k的胚加性效应和Q_l母体加性效应之间的上位性，对应的系数分别为和是和环境h的互作效应；是和环境h的互作效应；是和环境h的互作效应；B_j(h)是环境内的区组效应， ε_hij是剩余效应，

（2）全基因组扫描显著的标记区间：

基于模型（7），在全基因组范围内，通过表型和每个标记区间做基于 HendersonⅢ的F检验，搜索得到所有可能存在QTL的候选标记区间：

（3）在全基因组范围内搜索显著的数量性状位点：

如果已经搜索到s个显著的候选区间，那么检测一个位点k的显著性模型如下：

（4）在全基因组范围内搜索显著的二互作标记区间：

（5）搜索显著的二互作上位性的位点：

（6）遗传参数的估算：

获得这些单位点和二互作的上位性的具体位置之后，我们就可以得到该位置的每种基因型的条件概率，从而得到模型中的系数。我们可以采用模型（6）计算这些位点的效应以及估算每个位点的遗传率。为了得到这些效应值，我们首先给每个未知的参数一个初始值，随机效应的方差估计通过最小范数二阶无偏估计（MINQUE）法获得，固定效应的估计通过最小二乘法（OLSE）获得，随机效应通过调整的无偏预测法（AUP）预测。然后把这些得到的值作为后验值通过吉布斯抽样放入马尔科夫链蒙特卡洛（MCMC）循环链中。通过归纳吉布斯的所有样本的结果，最终得到每个效应的估计值以及统计推断。

下面结合具体应用例进行说明。

（1）供试材料

188个重组自交系是来自两个棉花亲本，HS46和 MARCABUCAG8US-1-88的杂交后代的自交8代。FP（衣分）性状在双亲中呈现显著表型遗传差异且表现连续分布，同时该性状比较容易测定。在本研究中，188个重组自交系中每两个重组自交系随机交配，在开花期产生376个永久F2用于种子性状的分析。所选的定位群体和定位数量性状均适应于本方法的实施。

（2）分子遗传图谱

本方法实施所采用分子遗传图谱以 “HS46×MARCABUCAG8US-1-88”重组自交系群体188个株系构建分子遗传图谱为定位图谱。该图谱包含388个分子标记（Liu H,Quampah A.QTL Mapping Based on Different Genetic Systems for Essential Amino Acid Contents in Cottonseeds in Different Environmrnts.Plos One,2013,8 （3）:e57531），分布在30个连锁群，图谱覆盖基因组全长1946.22cM，覆盖了全基因组的41.55%，相邻标记间的间距为5.03cM。

（3）QTL作图软件及方法

本方法实施所采用的软件是基于上述本研究的方法所编写的 QTLNetwork-seed软件。采用混合线性模型进行主效QTL以及上位性的定位，并估算主效QTL，上位性以及环境互作的遗传参数。

在2009年、2010年分别将含有188个株系的 “HS46×MARCABUCAG8US-1-88”重组自交系群体以及双亲种植于海南三亚中国农业科学院棉花研究所实验基地。实验是以随机区组试验设计，并进行了两次重复，按照株行间距25×80cm的规格。在开花期，根据双列杂交试验设计，在188个重组自交系中两两随机交配产生376个杂交后代。在一个RIL植株中产生的IF₂种子形成IF₂群体。其中，IF₂群体结合了RIL和F₂的优点。用于本方法实施研究的数量性状为棉花种子种的FP。

棉花种子在轧花之后，将纤维从棉花籽中除去并干燥。每个样本中搜集200粒种子，并磨成粉末状。粉末状的样本在温度为25℃，湿度大约为 7%的环境下干燥。近红外扫描所有样品，得到FP的光谱信息。利用分子遗传图谱、混合线性模型以及表型性状进行QTL定位分析。结果发现，在第19、第21条染色体上分别检测到一个控制FP性状的主效QTL，并且这两个QTL都对环境敏感。此外，还发现两队上位性，分别是4-2，25-13 和4-2，20-2，这些上位性对环境也较敏感，而这些参与上位性的QTL均未检测到主效应的存在。

本发明采用QTL作图技术，考虑到种子的遗传机制，创建了一种基于混合线性模型的种子性状的基因定位的方法，提高了QTL定位研究的准确性、可靠性，必将加快基因定位研究进展。

最后，还需要特别注意的是，以上所举例子仅是本发明的具体实施例子。显然，本发明不仅仅限于以上实施例子，还可以有许多变通的情况。本领域的技术人员从本发明公开的内容直接推导出或联想到的所有变通情况，均认为是本发明的保护范围。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于混合线性模型的种子数量性状位点定位方法 [P] . 中国专利： CN103632067B . 2016.08.17
2. 一种基于种子节点选择的无线传感器网络定位方法及系统 [P] . 中国专利： CN102665272B . 2015.02.04
3. Method and arrangement for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials, a method and arrangement for the computer-assisted determination of a formulation of a hair color seeds based on chemically reactive and / or unreactive raw materials, and apparatus and method for computer-aided training a predetermined model for the computer-assisted determination of at least one property of a hair color seeds on the basis of a formulation of chemically reactive and / or unreactive raw materials [P] . 德国专利： DE102007050434A1 . 2009-04-23

机译：用于基于化学反应性和/或非反应性原料的制剂的计算机辅助测定染发种子的至少一种性质的方法和装置，用于计算机辅助的测定毛发种子的制剂的方法和装置基于化学反应性和/或非反应性原料的染发种子，以及用于计算机辅助训练预定模型的设备和方法，该预定模型用于基于化学制剂确定计算机辅助确定染发种子的至少一种特性反应性和/或不反应性原料
4. A method for taking samples of seed, which includes automatically position The Seed in a Predetermined orientation.Withdraw a sample from the Seed and measurable; Device for taking samples of one or more SEED. [P] . CL2007003274A1 . 2008-09-26

机译：一种获取种子样品的方法，该方法包括将种子自动定位在预定的方向上。从种子中取出样品并进行可测量;用于采集一种或多种SEED样品的设备。
5. A method for Sample Seed which comprises a manual positioning of the seed in a particular orientation and separation of a sample of seed for actuating one or more hoJas through a portion of the Seed, an Appli [P] . CL2007003269A1 . 2008-05-16

机译：一种用于样品种子的方法，该方法包括：以特定方向手动定位种子，以及分离种子样品，以驱动一个或多个hoJas通过种子的一部分。