技术领域
本发明属于生物信息学技术领域,具体涉及一种从给定二倍体群体的分子标记中筛选用于亲子鉴定的标记组合的方法。
背景技术
二倍体物种在自然界中广泛存在,其中与人类息息相关的二倍体物种就包括牛、羊、猪、狗等各类哺乳类动物,以及很多常见的经济鱼类等。这些物种大多作为人类的食物或宠物而饲养。通过对这些二倍体生物进行遗传改良育种,可以提升产量、缩短发育周期、加速驯化、改变外貌特征等,从而产生更好的经济效益和社会效益。分子标记辅助育种是目前常用的一种育种方案,即通过特定的分子标记筛选具有优良基因的个体,并将其作为良种亲本繁育后代,以达到遗传育种的目的。一种广泛采用的筛选特定基因或分子标记的方法是,使用生物信息学手段从全基因组范围搜索与该性状有关的分子标记位点(如单核苷酸多态性位点)等,再结合分子手段对其相关联的基因进行验证。这个分析过程通常需要对个体进行亲子鉴定、构建家系,从而消除遗传背景的影响。除此以外,亲子鉴定还被广泛应用于人类法医鉴定等相关法律程序中。
目前亲子鉴定主要依据分子标记在不同亲本与子代中的分型进行,这些分子标记主要包括微卫星分子标记(microsatellite)、单核苷酸多态性(SNP)分子标记及单体型(或微单体型)分子标记,且在基因组范围广泛分布。为尽可能减少亲子鉴定工作量,需要使用尽可能少的分子标记。为了寻找可用于亲子鉴定的标记,首先需要从已有的标记数据库中获取一系列分子标记,对亲本和子代进行PCR扩增以完成这些标记的分型,随后,可以用最小等位基因频率(MAF值)、亲本排除率(PE)以及多态信息含量(PIC)等为参数进行亲子鉴定标记筛选,也可以通过主成分分析(PCA)、贪婪算法和蒙特卡洛算法等来筛选。然而,这两种方法或无法获得全基因组范围的对亲本对区分度较高的亲子鉴定分子标记,或不能确保所获得的标记数目“尽可能少”。
本发明使用贪心算法和树状数据结构进行亲子鉴定标记的筛选,可以获得亲子鉴定标记的最小组合,从而降低亲子鉴定的成本,提高效率。
发明内容
本发明旨在提供一种从给定的二倍体亲本群体的分子标记中筛选用于亲子鉴定的标记组合的方法,其优点在于能够筛选出可以完成亲子鉴定的最小标记组合,提升亲子鉴定效率。
为了实现上述目的,本发明采用以下技术方案:
S1.将亲本按照一个父本一个母本构建亲本对,所有可能的亲本对组合作为图1所示树状结构的根节点,以表示所有待区分的亲本对集合,以根节点作为第一层级的分支节点(至少含有二个亲本对的子节点)开始筛选第一个标记;
S2.从树状结构的某一层级中筛选一个亲子鉴定分子标记的方法为:对于每一个候选分子标记,先依据亲本分型对同一层级每个分支节点中的子代分型进行预估,再根据子代分型的情况,用分型相同的子代对应的亲本对构建该分支节点在树状结构的下一层级的一个子节点,从而可由不同分型的子代得到多个子节点;在下一层级中,去掉叶子节点(只含有一个亲本对的子节点)和重复的子节点后,统计各子节点所含亲本对数量并计算其均值和方差,以均值与方差之和(方均和)来评价该标记的分型效果,从所有候选标记中,选择方均和最小的分子标记作为该层级亲子鉴定的分子标记;
上述步骤中构建子节点的具体方法如下:
依据孟德尔分离定律及自由组合定律,获取各亲本对能产生的所有子代基因型,然后根据子代基因型来生成子节点:能产生某一子代基因型的所有亲本对组成一个子节点,这些子节点共同构成树状结构的下一层;
上述步骤中方差和均值计算方法及意义如下:
在通过孟德尔遗传定律构建的子节点中,统计同一层级所有节点所含亲本对个数并计算其方差和平均数。二者之和越小,说明待区分亲本对在该层所含节点中尽可能均匀分布,从而减少包含显著较多亲本对的分支节点数量,以利于后续亲本对的筛选;
S3.获取上述筛选到的分子标记所产生的子节点,剔除其中的叶子节点和重复的子节点后,剩余节点作为父节点构建下一层树状结构的子节点,按照步骤S2进行下个标记的筛选,直至无新的分支节点产生;
S4.总结上述S2和S3中筛选到的分子标记,这些标记组合即为一套亲子鉴定标记,利用它们可以将所有子代所对应的亲本鉴定出来。
与现有技术相比,本发明具有以下优点:
对于常用的SSR标记,目前主要基于数据库中已有标记的亲本排除率(PE)以及多态信息含量(PIC)等参数筛选亲子鉴定标记,尚无法达到“尽可能少”的要求。而对于SNP标记,则先经过主成分分析与蒙特卡洛算法优化候选分子标记,然后主要依据亲子鉴定效力这一估计值将不合适的标记一一排除,最终得到的有效标记数量较多。本发明主要基于孟德尔遗传定律对各亲本对可能的子代基因型进行预估,依据树状结构和贪心算法层层筛选标记,以使各亲本对能被单一地鉴定开。从此原理讲,本发明所使用的方法准确度高,可操作性强,其优点在于不受限于标记类型,仅需知道各亲本分型即可,所获得的亲子鉴定标记理论上能够使亲子鉴定成功率较高,且可以筛选出用于亲子鉴定的最小标记集。
附图说明
图1为用于筛选亲子鉴定标记使用的树状结构,其中P1和P2为父本,P3和P4为母本,图中每一个圆圈表示一个子节点,空心圆圈表示叶子节点,实心圆圈表示分支节点,圆圈中的字符表示子代为某一种分型的亲本对。
具体实施方式:
实施例1
此实施例使用的样本来源于本实验室2017年繁殖用草鱼亲本(其中9尾雌鱼,9尾雄鱼),使用的分子标记为微单体型分子标记,其分型结果由全基因组重测序获得。
S1)第一个标记的确定:
S1.1)将所有繁殖用的草鱼亲本按性别配对,其性别关系如表1所示,共得到81对亲本对,以图1为例,P1和P2为雄性,P3和P4为雌性,则P1和P3、P1和P4、P2和P3、P2和P4分别可组成一对亲本对,这些亲本对作为图1所示的树状结构的根节点进行后续标记的筛选;
表1亲本群体
S1.2)依据专利申请“一种直接从全基因组重测序数据中得到微单体型及其分型的方法”(申请号:201811248346.8)所述的方法从上述18个亲本中获得候选的6192个标记,并以这18个亲本组成的81个亲本对作为附图1所示的根节点,并以此为父节点。对于其中的每一个候选标记,分别统计根节点中各亲本对的子代分型。依据子代分型的情况,用分型相同的子代所对应的亲本对构建第二层树状结构的子节点,经去掉叶子节点和重复的子节点后,统计第二层树状结构中各子节点亲本对数量的均值与方差之和。选择上述和最小的标记作为第一个标记,并记录。表2展现的是在筛选第一个标记过程中,均值与方差之和出现减少的标记的情况:
表2第一个标记筛选过程中均值与方差之和出现减少的标记
上表展示了筛选具有更小的方差与平均值之和标记的过程,第一列为筛选过程中所得到的当前最佳标记,第二列为各最佳标记构建的子节点中亲本对数量,第三列为剔除第二列中单一亲本对和具有相同亲本对的子节点后计算出的平均值与方差之和;
S1.3)依据上表,均值方差之和最小为35.51,因此选择
CI01000040_900697_900879标记作为产生第二层树状结构的子节点所使用的标记,并将其得到的子节点中单一亲本对和具有相同亲本对的子节点进行剔除,得到第二层树状结构。
S2)其他标记的确定:
对第二个标记的筛选,以CI01000040_900697_900879标记产生的第二层树状结构中亲本对数量大于1的不重复节点为父节点,构建第三层树状结构的子节点。对每一个候选标记可以产生的子节点所含亲本对数量进行平均值及方差之和的统计,运行过程得到的标记和平均值及方差之和计算如下:
(CI01000009_12794233_12794303,30.65),(CI01000009_130841_131085,19.93),
(CI01000008_1950827_1950948,17.71),(CI01000009_11236184_11236253,14.91),
(CI01000009_14535665_14535913,9.15),(CI01000008_1804841_1805103,7.48),
(CI01000006_5364061_5364302,6.97),(CI01000011_222156_222320,6.08),
(CI01000027_989512_989749,4.96),(CI01117242_1048_1191,4.80),因此,第二个标记选择CI01117242_1048_1191;
筛选第三个标记时,以CI01117242_1048_1191标记产生的第三层树状结构中亲本对数量大于1的不重复节点为父节点,构建第四层树状结构的子节点。运行过程得到的标记和平均值及方差之和计算如下:
(CI01000009_12794233_12794303,4.74),(CI01000009_130841_131085,3.97),
(CI01000008_1950827_1950948,3.09),(CI01000006_5364061_5364302,2.73),
(CI01000013_12036913_12037141,2.57),(CI01000062_1652939_1653162,2.54),因此第三个标记选择CI01000062_1652939_1653162;
以此类推,第四个标记的筛选过程得到的标记和平均值及方差之和计算如下:
(CI01000009_12794233_12794303,2.53),(CI01000009_130841_131085,2.21),
(CI01000008_1950827_1950948,2.10),(CI01000304_11510857_11511051,2.0),其中,平均值与方差之和为2.0的有很多标记。我们选择含有不重复的子节点数最少的标记,因此,第四个标记选CI01000304_11510857_11511051;
第五个标记的筛选过程得到的标记和平均值及方差之和计算如下:
(CI01000009_12794233_12794303,2.53),(CI01000009_130841_131085,2.21),
(CI01000008_1950827_1950948,2.10),(CI01000000_1804567_1804763,2.0),同上理,和为2.0的有很多标记,我们依旧选择含有不重复的子节点数最少的标记,因此第五个标记选择CI01000000_1804567_1804763;
第六个标记选择CI01000006_5364061_5364302时,可以把亲本对完全区分开。
S3)将上述标记进行总结,得到的最终标记组合为:
CI01000040_900697_900879,CI01117242_1048_1191,
CI01000062_1652939_1653162,CI01000304_11510857_11511051,
CI01000000_1804567_1804763,CI01000006_5364061_5364302。共构建七层树状结构。
实施例2
此实施例使用本实验室2016年3尾雌鱼2尾雄鱼(共5尾亲本),及其171尾子代(与5尾亲本的亲子关系已使用SSR标记获取)。为了后续分析使用,亲本采用全基因组重测序技术,测序深度为30×,子代采用全基因组重测序技术,测序深度为15×。依据每个亲本测序数据,从全基因组范围已获得了9519个微单体型分子标记。
由于子代测序深度不足,在某些片段可能无法得到确切的分型,因此我们使用上述方法共获得三套亲子鉴定标记,第一套为CI01000059_6276399_6276582,第二套为CI01000167_440528_440807,第三套标记包含两个标记,为CI01000372_42297_42492和CI01000316_637447_637943。
与SSR亲子鉴定结果比较,使用上述第一套标记可鉴定出110个子代的亲子关系,其鉴定一致率为100%;使用上述前两套标记可鉴定162个子代,其鉴定一致率为99.38%,有1个错误子代;使用上述三套标记可鉴定169个子代,其鉴定一致率达98.22%,有2个错误子代。经分析,这些错误子代鉴定出错的原因可能是由于测序深度不足,导致无法获得较为准确的分型,从而影响到最终的分型结果。
综上,本实施例表明,本发明提出的方法可筛选到能够用于亲子鉴定的分子标记,并且得到的标记亲子鉴定成功率可达98%以上,说明了本发明方法的有效性与可行性。
机译: 用于检测一种或多种基因差异表达,测量受试物质对一种或多种基因表达的影响的组合,组合物,装置和方法,以及用于筛选预后,操纵预后的方法基因组(genom)对人类或动物而言,而不是动物基因组的表达。调节一种或多种差异表达基因的表达,选择一种或多种动物,并产生抗体,物质,转基因动物,计算机系统,分离和纯化的抗体,试剂盒,用于传达信息的介质。数据和polinucleot u00ecdeo预后者的数据的使用
机译: 筛选治疗剂,抑制多核苷酸序列,治疗非甾体类癌症,筛选试剂特异性结合多核苷酸的方法以及确定患者是否处于发展或患有非糖尿病风险的方法类固醇癌,药物组合物,表达和/或含有反义分子的治疗剂,反义分子或细胞,免疫原性膜蛋白,其片段,衍生物或同源物中至少一种或来自含有和/或含有细胞的细胞的用途或表达至少一种免疫原性膜蛋白或其片段,衍生物或同系物以及一种试剂或抗体,试剂和试剂盒,用于鉴定有发生或患有非甾体癌风险的患者
机译: 分离的核酸,重组载体,宿主细胞,非人类转基因哺乳动物,筛选物质或分子的方法,体外筛选候选分子或物质的试剂盒,体内筛选物质或分子的方法,试剂盒或包装体内至少一种候选分子或物质,目的多核苷酸的转录修饰物质,药物组合物,用于检测个体中abc1基因转录损伤的方法和试剂盒以及筛选候选分子或物质的试剂盒或包装