首页> 中国专利> 一种获得中国人群个体年龄的方法、系统及扩增检测体系

一种获得中国人群个体年龄的方法、系统及扩增检测体系

摘要

本发明属于生物技术领域,涉及一种获得中国人群个体年龄的方法、系统及扩增检测体系。所述方法包括提取所述个体的基因组DNA,对所述DNA进行亚硫酸氢盐处理,获得所述DNA中一组CpG位点的甲基化率,利用R软件对所述CpG位点的甲基化率与所述个体的年龄进行回归分析,构建回归模型,用于推断所述个体的年龄。本发明提供的方法和系统可以准确地推断中国人群个体的年龄,平均绝对偏差为2至4岁,尤其能够应用于公安实践,通过对在犯罪现场提取到的所述个体的血液或血痕样本进行年龄推断,可以获得犯罪嫌疑人或受害人的年龄范围,从而为案件侦查提供情报,缩小搜查范围,提高破案速度。

著录项

  • 公开/公告号CN110257494A

    专利类型发明专利

  • 公开/公告日2019-09-20

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201910657403.6

  • 申请日2019-07-19

  • 分类号

  • 代理机构北京金智普华知识产权代理有限公司;

  • 代理人杨采良

  • 地址 430074 湖北省武汉市珞瑜路1037号

  • 入库时间 2024-02-19 13:36:02

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2020-08-11

    授权

    授权

  • 2019-10-22

    实质审查的生效 IPC(主分类):C12Q1/6876 申请日:20190719

    实质审查的生效

  • 2019-09-20

    公开

    公开

说明书

技术领域

本发明属于生物技术领域,尤其涉及一种获得中国人群个体年龄的方法、系统及扩增检测体系。

背景技术

年龄是具有生物学基础的个体特征。当指纹数据库、参考样本和DNA数据库均无法提供匹配信息时,通过准确推断犯罪现场生物样本身源者的年龄,可以缩小未知嫌疑人的搜查范围,辅助鉴定灾害事故受害者的身份,改善对年龄依赖性外部可见特征(如头发颜色、秃顶和皮肤皱纹等)的预测。因此,个体年龄推断一直是法医学重要的研究课题之一。目前,法医技术人员可以通过测量骨骼或牙齿的形态学变化来推断个体年龄,但是这些方法仅适用于活体或遗骸存在的情形。然而,犯罪者遗留的生物证据极不可能是体液(如血液、精液和唾液)、毛发、脱落细胞或组织块以外的样本。因此,必须找到适用于这些样本的年龄推断方法。

随着分子生物学的发展,多种分子标记已被用于法医学年龄推断研究,包括线粒体DNA 4977bp缺失、晚期糖基化终末产物、天冬氨酸外消旋化、端粒限制性片段长度、信使RNA和信号结合T细胞受体删除环。研究发现,尽管线粒体DNA 4977bp缺失、晚期糖基化终末产物、天冬氨酸外消旋化和端粒限制性片段长度均表现出明显的年龄依赖性变化,但是这些标记均存在推断精度低、测量结果准确性和可重复性差等问题。此外,信使RNA的生物和化学稳定性不如DNA分子,因此较少被用于年龄推断研究。2010年,Zubakov等首次利用信号结合T细胞受体删除环标记开发了较为可靠的血液样本年龄推断方法,但是它的稳定性仍受到质疑,而且不适用于其他类型检材。总之,上述提到的分子标记尚不能有效地应用于法医学年龄推断。

表观遗传学的快速发展使人们发现DNA甲基化标记比其他非表观遗传标记具有更优的年龄预测能力。DNA甲基化是指在DNA甲基转移酶的催化下,以s-腺苷甲硫氨酸为甲基供体,在DNA序列的某些碱基上添加甲基(-CH3)的修饰过程。在人类基因组中,DNA甲基化的主要形式是在CpG二核苷酸的胞嘧啶残基的第5位碳原子上添加一个甲基,形成5-甲基胞嘧啶(5mC)。这些CpG二核苷酸又称为CpG位点。2011年,Bocklandt等首次将DNA甲基化标记应用于法医学个体年龄推断研究。作者利用Illumina 27K甲基化芯片从34对同卵双生子(21~55岁)的唾液样本中筛选出88个年龄相关CpG位点(age-related CpG site,AR-CpGs),并基于MassARRAY和焦磷酸测序技术建立了一个仅包含两个AR-CpGs的多元线性回归模型。只要将两个AR-CpGs的甲基化率代入回归模型,就可以推断个体年龄。然而,该模型的精度偏低,决定系数R2和平均绝对偏差(mean>

甲基化芯片技术的不断更新为提高回归模型的精度带来了可能。2013年,Hannum等通过使用Illumina 450K芯片检测656名健康个体(19~101岁)全血DNA中485577个CpG位点的甲基化β值,构建了一个包含71个AR-CpGs的弹性网络回归模型(R2=0.96,中位数误差=3.9岁)。同年,Horvath开发了一个包含353个AR-CpGs的多组织年龄推断模型。此模型的中位数误差在训练集和测试集中分别为2.9岁和3.6岁。2014年,Florath等也构建了一个包含17个AR-CpGs的年龄推断模型,MAD为2.6岁,但与前两项研究相比,这些位点并不能较好地解释年龄变异(R2=0.71)。类似地,Weidner等通过分析GEO数据库4个Illumina>2=0.98,MAD=3.4岁)。尽管这些模型具有极高的准确度,但是甲基化芯片检测的实验步骤相对繁琐、模板要求高(>500ng)且涉及复杂的统计分析,因此并不能较好地应用于法医学实践。相比之下,如果能提供与甲基化芯片分析相当的精度,那么由较少AR-CpGs构建的模型显然更适合于法医学个体年龄推断。

开发一种高精度、低成本、低样本要求、快速且用户友好的年龄推断方法是法医学个体年龄推断研究的出发点。从2014年至今,国内外法医学家使用不同的甲基化分析技术开发了一系列年龄推断回归模型。这些模型纳入的AR-CpGs从数个到数十个不等,平均绝对偏差分布在3至10岁范围内,可用于推断不同组织样本身源者的年龄。然而,已有研究表明遗传和环境会影响DNA甲基化。这种由环境和遗传共同作用产生的遗传变异可导致人类种群之间产生不同的DNA甲基化模式。2017年,Gopalan等证实了AR-CpGs的种群特异性。具体而言,该研究小组分析了来自两个不同种群(南非卡拉哈里沙漠的≠Khomani San和中非中西部雨林的Baka)共189名非洲狩猎-采集者的唾液和外周血中>480000个CpG位点的甲基化状态。通过与其他种群进行比较分析,Gopalan等鉴定了277个非洲狩猎-采集者特异性AR-CpGs。更有趣的是,Horvath模型在应用于Baka个体的血液样本时,其准确性明显偏低(中位数绝对误差=13.6岁)。类似地,Cho等发现同一个AR-CpGs在韩国人和波兰人中具有不同程度的年龄相关性。这种不同表现为,FHL2基因中的AR-CpGs在韩国人中具有更强相关性,而C1orf132基因中的AR-CpGs在波兰人中具有更强相关性,并且KLF14基因中的AR-CpGs与韩国人的年龄相关性较弱。以上这些发现表明,有必要开发种群适用的年龄推断模型。

可是,目前绝大多数的年龄推断方法针对的是白种人,而针对中国人群的研究较少。2014年,Yi等基于MassARRAY平台首次构建了一个包括8个年龄相关差异甲基化区域、适用于中国汉族人群的年龄推断模型。利用这些区域的平均甲基化率,作者实现了对中国人群个体年龄的推断,模型的校正R2等于0.918。2015年,该研究小组采用相同方法又构建了一个包括3个年龄相关差异甲基化区域的年龄推断模型,校正R2等于0.93。然而,Yi等所采用的MassARRAY方法被认为是半定量甲基化分析方法,并且用于模型构建的样本量(N=65)过少,有待进一步验证。于是,Huang等从已报道文献数据中挑选了6个候选基因座(ASPA、ITGA2B、NPTX2、TOM1L1、ZDHHC22和ZIC4),并使用焦磷酸测序技术分析了89名9~75岁汉族个体血液样本中位于候选基因座内总共38个CpG位点的甲基化率。尽管该研究小组基于甲基化数据拟合了三个多元线性回归模型:男性模型(R2=0.802,RMSE=8.868,MAD=8.574)、女性模型(R2=0.841,RMSE=7.148,MAD=6.790)和联合模型(R2=0.819,RMSE=8.055,MAD=7.870),但是模型的精度偏低(大于5岁)。同时,该研究证实了Yi等所使用的基因ZDHHC22和ZIC4内的CpG位点并非理想位点,并且适用于白种人的AR-CpGs并不一定适用于中国人群。2015年,Xu等使用Illumina>2和MAD分别为0.82和2.89岁、0.95和2.49岁以及0.89和3.36岁。需要注意的是,Feng等使用的候选AR-CpGs来自于已报道文献数据,并且建立的模型仅能应用于男性个体。

另一方面,公告号为CN104357561B的中国发明专利披露了《一种获得中国人群女性个体年龄的方法和系统》,其通过提取女性个体的DNA,获得11个CpG位点的甲基化率,并对11个CpG位点与年龄进行回归分析,构建回归模型,为推断中国人群女性个体年龄提供模型。公布号为CN109593862A的中国发明专利披露了《一种获得中国人群男性个体年龄的方法和系统》,其通过提取男性个体的DNA,获得9个CpG位点的甲基化率,并对9个CpG位点与年龄进行回归分析,构建回归模型,为推断中国人群男性个体年龄提供模型。

总之,目前还未建立一个高精度且能同时适用于中国人群男性和女性个体的年龄推断模型,并且现有的适用于女性个体的年龄推断模型的精度仍有待提高,而且还可以采用其他CpG位点来构建高精度的年龄推断模型。

发明内容

针对现有技术存在的问题,本发明提供了一种获得中国人群个体年龄的方法,通过获得所述个体基因组DNA中一组CpG位点的甲基化率,使用R软件对所述CpG位点的甲基化率与所述个体的年龄进行回归分析,构建回归模型,进而根据回归模型来推断所述中国人群个体的年龄,实现了利用血液或血痕样本对所述个体年龄的推断。

本发明还提供了一种获得中国人群个体年龄的系统,利用该系统中的DNA提取体系、亚硫酸氢盐处理体系和扩增检测体系能够快速、准确地获得所述个体基因组DNA中多组CpG位点的甲基化率,进而根据已构建的回归模型推断所述中国人群个体的年龄。

本发明还提供了一种扩增检测体系,利用该体系能够快速、准确地获得所述个体基因组DNA中多组CpG位点的甲基化率,为构建回归模型和推断所述中国人群个体的年龄提供准确数据。

本发明是这样实现的,一种获得中国人群个体年龄的方法,其特征在于,包括以下步骤:

S1:提取所述个体的基因组DNA;

S2:对所述DNA进行亚硫酸氢盐处理;

S3:获得所述DNA中一组CpG位点的甲基化率,所述CpG位点为:

CpG位点组合一,包括cg18738190、cg17675043、cg03372207、cg17740900、chr20:11777887、cg19283806、chr1:207823715、chr2:105399291和chr6:11044640共9个CpG位点;

或CpG位点组合二,包括cg17740900、chr20:11777887、cg19283806、chr1:207823715、chr2:105399291和chr6:11044640共6个CpG位点;

或CpG位点组合三,包括chr1:207823681、chr2:105399288、chr6:11044634、chr16:67150233、chr20:46029595、cg27030854、cg11584042和cg26947034共8个CpG位点;

或CpG位点组合四,包括chr1:207823681、chr2:105399288、chr6:11044634和chr16:67150233共4个CpG位点;

或CpG位点组合五,包括chr1:207823715、chr2:105399288和chr6:11044634共3个CpG位点;

S4:利用R软件对所述CpG位点的甲基化率与所述个体的年龄进行回归分析,构建回归模型,用于推断所述个体的年龄。

进一步,所述CpG位点组合一适用于推断所述中国人群男性个体的年龄,所述回归模型为:

Age=19.5959022-0.0241651×βcg18738190+0.0048342×βcg17675043+0.0006142×βcg03372207-0.1867006×βcg17740900+0.0578433×βchr20:11777887-0.2657487×βcg19283806-0.2802704×βchr1:207823715+0.5139795×βchr2:105399291+0.4560639×βchr6:11044640,其中βcg18738190、βcg17675043、βcg03372207、βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率;

所述CpG位点组合二适用于推断所述中国人群男性个体的年龄,所述回归模型为:

Age=18.96746468-0.19799499×βcg17740900+0.05181609×βchr20:11777887-0.26232027×βcg19283806-0.28160744×βchr1:207823715+0.51342604×βchr2:105399291+0.45890553×βchr6:11044640,其中βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率;

所述CpG位点组合三适用于推断所述中国人群女性个体的年龄,所述回归模型为:

Age=27.53535-0.41903×βchr1:207823681+0.29658×βchr2:105399288+0.40020×βchr6:11044634+0.18995×βchr16:67150233+0.26483×βchr20:46029595-0.14605×βcg27030854-0.08502×βcg11584042+0.01115×βcg26947034,其中βchr1:207823681、βchr2:105399288、βchr6:11044634、βchr16:67150233、βchr20:46029595、βcg27030854、βcg11584042和βcg26947034分别为对应CpG位点的甲基化率。

所述CpG位点组合四适用于推断所述中国人群女性个体的年龄,所述回归模型为:

Age=11.00994-0.42728×βchr1:207823681+0.42145×βchr2:105399288+0.48635×βchr6:11044634+0.25020×βchr16:67150233,其中βchr1:207823681、βchr2:105399288、βchr6:11044634和βchr16:67150233分别为对应CpG位点的甲基化率;

所述CpG位点组五适用于推断所述中国人群个体的年龄,不考虑性别时,,所述回归模型为:

Age=10.6946-0.44542×βchr1:207823715+0.56508×βchr2:105399288+0.47227×βchr6:11044634,其中βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率;

所述CpG位点组五适用于推断所述中国人群个体的年龄,考虑性别时,所述回归模型为:

Age=7.08406-1.30655×Sex-0.40781×βchr1:207823715+0.55111×βchr2:105399288+0.52066×βchr6:11044634,其中Sex为性别二分类变量,所述中国人群男性个体取值为1,所述中国人群女性个体取值为2,βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率。

根据本发明的具体实施方式,采用上述回归模型对所述中国人群个体进行年龄推断,

针对CpG位点组合一,所述回归模型的校正R2=0.9516,116个训练样本的MAD=2.6642岁,51个测试样本的MAD=3.0816岁;

针对CpG位点组合二,所述回归模型的校正R2=0.9529,116个训练样本的MAD=2.6568岁,51个测试样本的MAD=3.0826岁,10次10折交叉验证的校正R2=0.9544±5.8613E-5(均值±标准差)、MAD=2.9026±0.5555岁;

针对CpG位点组合三,所述回归模型的校正R2=0.9392,98个训练样本的MAD=2.8894岁,43个测试样本的MAD=3.0202岁;

针对CpG位点组合四,所述回归模型的校正R2=0.9399,98个训练样本的MAD=2.9627岁,43个测试样本的MAD=3.0521岁,10次10折交叉验证的校正R2=0.9312±6.6451E-5(均值±标准差)、MAD=3.1103±0.7211岁;

针对CpG位点组合五,所述回归模型(不包括Sex变量)的校正R2=0.9317,215个训练样本的MAD=3.1875岁,95个测试样本的MAD=3.2506岁,10次10折交叉验证的校正R2=0.9352±2.3084E-5(均值±标准差)、MAD=3.2483±0.3998岁;

针对CpG位点组合五,所述回归模型(包括Sex变量)的校正R2=0.9313,215个训练样本的MAD=3.1830岁,95个测试样本的MAD=3.010岁;

其中校正R2为校正决定系数,与R2相比,能更好地衡量回归模型拟合的好坏,值越大说明回归模型拟合得越好;MAD为平均绝对偏差,表示样本集中预测年龄与实际年龄之差的绝对值的平均值,用于衡量预测值同真实值之间的偏差,值越小说明回归模型的预测精度越高;与单次样本分割相比,k折交叉验证能够获得更准确的模型评价参数,包括校正R2和MAD;具体地,10(k=10)折交叉验证包括如下步骤:首先将总样本随机划分为10个样本数量相近的折(或称为样本集),再取第i(i=1,2,3,…,10)个折中的样本作为测试样本,并使用剩余9个折中的样本作为训练样本构建模型,接着利用测试样本对模型进行验证并计算各种参数,最后以10个模型的参数的平均值作为最后参数;经过10次10折交叉验证,可以利用参数的10个均值计算出均值±标准差,从而更好地衡量模型的好坏和精度。

进一步,经发明人研究发现,不同甲基化分析方法所获得的所述个体同一样本的相同CpG位点的甲基化率并不完全一致,因此,当采用上述模型对所述中国人群个体进行年龄推断时,利用焦磷酸测序获得所述CpG位点的甲基化率,能够获得更准确的年龄推断结果。

根据本发明的具体实施方式,采用上述回归模型能够实现对中国人群个体年龄的推断,尤其是对中国汉族人群个体年龄的推断,具体而言,上述回归模型能够对1~85岁所述个体进行年龄推断,MAD为2至4岁,具备了较高的精度。

步骤S1中,所述基因组DNA的提取是本领域常规的一项技术操作,本领域技术人员可以选择合适的DNA提取方法或者商业试剂盒来完成所述个体基因组DNA的提取,只要所述DNA能满足后续甲基化分析的要求即可。

步骤S2中,所述亚硫酸氢盐处理是本领域常规的一项技术操作,本领域技术人员可以选择合适的亚硫酸氢盐处理方法或者商业试剂盒来完成所述DNA的转化,只要所述转化DNA能满足后续甲基化分析的要求即可。

进一步,步骤S3包括在获得经亚硫酸氢盐处理后的转化DNA模板后,使用与所述CpG位点对应的扩增引物对其进行扩增以获得扩增产物的步骤;所述CpG位点组合一的扩增引物为序列表中SEQ ID NO:1至SEQ ID NO:18的核苷酸序列,所述CpG位点组合二的扩增引物为序列表中SEQ ID NO:7至SEQ ID NO:18的核苷酸序列,所述CpG位点组合三的扩增引物为序列表中SEQ ID NO:13至SEQ ID NO:28的核苷酸序列,所述CpG位点组合四的扩增引物为序列表中SEQ ID NO:13至SEQ ID NO:20的核苷酸序列,所述CpG位点组合五的扩增引物为序列表中SEQ ID NO:13至SEQ ID NO:18的核苷酸序列;每个CpG位点所对应的扩增引物对中,正向引物或反向引物在5′端标记生物素。

进一步,步骤S3还包括在获得扩增产物后,使用与所述CpG位点对应的测序引物对扩增产物进行焦磷酸测序以获得所述CpG位点的甲基化率的步骤;所述CpG位点组合一的测序引物为序列表中SEQ ID NO:29至SEQ ID NO:37的核苷酸序列,所述CpG位点组合二的测序引物为序列表中SEQ ID NO:32至SEQ ID NO:37的核苷酸序列,所述CpG位点组合三的测序引物为序列表中SEQ ID NO:35至SEQ ID NO:42的核苷酸序列,所述CpG位点组合四的测序引物为序列表中SEQ ID NO:35至SEQ ID NO:38的核苷酸序列,所述CpG位点组合五的测序引物为序列表中SEQ ID NO:35至SEQ ID NO:37的核苷酸序列。

所述焦磷酸测序为本领域常规的用于分析甲基化水平的方法,其使用方法为本领域已知的,实施该方法对于本领域技术人员来说是可以实现的。

一种获得中国人群个体年龄的系统,其特征在于,包括DNA提取体系、亚硫酸氢盐处理体系、扩增检测体系和数据获取体系;

所述DNA提取体系用于提取所述个体的基因组DNA;

所述亚硫酸氢盐处理体系用于对所述DNA进行亚硫酸氢盐处理;

所述扩增检测体系用于对所述DNA的一组CpG位点进行扩增,并使用扩增产物获得所述CpG位点的甲基化率,所述CpG位点为权利要求1所述的CpG位点。

所述数据获取体系在于利用R软件对所述CpG位点的甲基化率与所述个体的年龄进行回归分析,构建回归模型,以推断所述个体的年龄。

所述R软件为本领域常规的用于回归模型构建的软件,其使用方法为本领域已知的,实施该方法对于本领域技术人员来说是可以实现的。本领域技术人员可以根据需要利用该软件构建其他回归模型,只要所构建的回归模型能够达到年龄推断对预测精度和准确性的要求即可。

进一步,所述回归模型为权利要求2所述的回归模型。

进一步,所述扩增检测体系用于使用与所述CpG位点对应的扩增引物对其进行扩增以获得扩增产物,并使用与所述CpG位点对应的测序引物对扩增产物进行焦磷酸测序以获得所述CpG位点的甲基化率。

进一步,所述CpG位点的扩增引物为权利要求3所述的扩增引物。

进一步,所述CpG位点的测序引物为权利要求4所述的测序引物。

一种扩增检测体系,所述体系包括中国人群个体基因组DNA、权利要求1所述的CpG位点组、扩增引物以及测序引物;

所述扩增检测体系用于使用与所述CpG位点对应的扩增引物对其进行扩增以获得扩增产物,并使用与所述CpG位点对应的测序引物对扩增产物进行焦磷酸测序以获得所述CpG位点的甲基化率;

所述CpG位点为权利要求1所述的CpG位点,包括cg18738190、cg17675043、cg03372207、cg17740900、chr20:11777887、cg19283806、chr1:207823715、chr2:105399291、chr6:11044640、chr1:207823681、chr2:105399288、chr6:11044634、chr16:67150233、chr20:46029595、cg27030854、cg11584042和cg26947034共17个CpG位点;

所述扩增引物由用于扩增所述17个CpG位点的14对引物组成,所述扩增引物为序列表中SEQ ID NO:1至SEQ ID NO:28的核苷酸序列,每个CpG位点所对应的扩增引物对中,正向引物或反向引物在5′端标记生物素;

所述测序引物由用于通过焦磷酸测序法获得所述17个CpG位点的甲基化率的14条引物组成,所述测序引物为序列表中SEQ ID NO:29至SEQ ID NO:42的核苷酸序列。

本发明还提供了一种甲基化检测试剂盒,包括所述扩增检测体系,利用该试剂盒能够实现五组共17个CpG位点的扩增检测,获得相应位点的甲基化率。

进一步,本发明利用所述扩增检测体系获得五组共17个CpG位点的甲基化率的方法,包括以下步骤:

S1:以所述个体DNA的亚硫酸氢盐处理后产物作为模板,使用所述扩增引物对模板进行扩增反应以得到扩增产物;

S2:以所述扩增产物为模板,使用所述测序引物对模板进行焦磷酸测序以获得所述17个CpG位点的甲基化率。

根据本发明的具体实施方式,上述五组CpG位点组合是发明人采用实验检测、数据分析和实验验证得到的,所述CpG位点组合能用于中国人群个体年龄的推断。

进一步,在本发明的方案中,所述个体为中国汉族人群个体,所述个体的基因组DNA样本为来自外周血液的基因组DNA样本。

本发明所述17个CpG位点的基本信息如表1所示:

表1用于中国人群个体年龄推断的17个CpG位点

CpG位点基因组版本染色体位置基因cg18738190GRCh38/hg381071980533CHST3cg17675043GRCh38/hg384128387263no genecg03372207GRCh38/hg382124429197no genecg17740900GRCh38/hg381463799941no genechr20:11777887GRCh38/hg382011777887no genecg19283806GRCh38/hg381868722183CCDC102Bchr1:207823715GRCh38/hg381207823715C1orf132chr2:105399291GRCh38/hg382105399291FHL2chr6:11044640GRCh38/hg38611044640ELOVL2chr1:207823681GRCh38/hg381207823681C1orf132chr2:105399288GRCh38/hg382105399288FHL2chr6:11044634GRCh38/hg38611044634ELOVL2chr16:67150233GRCh38/hg381667150233B3GNT9chr20:46029595GRCh38/hg382046029595SLC12A5cg27030854GRCh38/hg381278121102NAV3cg11584042GRCh38/hg381229841375no genecg26947034GRCh38/hg38733895826no gene

本发明所述14对扩增引物和14条测序引物均使用PyroMark Assay Design 2.0软件设计,所述扩增引物和测序引物的序列及其对应的CpG位点和分析序列如表2所示,其中F表示正向引物,R表示反向引物,S表示测序引物,SA表示分析序列,biotin表示生物素标记:

表2 17个CpG位点的扩增引物、测序引物及分析序列

综上所述,本发明的优点及积极效果为:

1、本发明提供的一种获得中国人群个体年龄的方法和系统,能够应用于公安实践,尤其可以对在犯罪现场提取到的血液或血痕样本进行年龄推断,获得犯罪嫌疑人或受害人的年龄范围,进而为案件侦查提供情报,缩小搜查范围,提高破案速度。

2、本发明提供的一种获得中国人群个体年龄的方法和系统,包括五组不同的CpG位点组合,其中所述CpG位点组合一和组合二能用于所述中国人群男性个体的年龄推断,所述CpG位点组合三和组合四能用于所述中国人群女性个体的年龄推断,所述CpG位点组合五能同时用于所述中国人群男性和女性个体的年龄推断。

3、本发明提供的一种扩增检测体系,能够快速、准确地获得所述中国人群个体基因组DNA中多组CpG位点的甲基化率,能为构建回归模型和推断所述中国人群个体的年龄提供准确数据。

4、根据本发明的具体实施方式,本发明提供的CpG位点组合,为发明人针对42名中国汉族无关健康个体(青年组:18~22岁;中年组:36~43岁;老年组:58~62岁)外周血基因组中约853307个CpG位点的甲基化率,经数据分析和实验验证挑选而来,具有中国人群个体特异性和血液特异性,能够用于中国人群个体,尤其是汉族人群个体的年龄推断。

5、根据本发明的具体实施方式,由所述CpG位点组合一构建的回归模型,校正R2=0.9516,116个训练样本的MAD=2.6642岁,51个测试样本的MAD=3.0816岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群男性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

6、根据本发明的具体实施方式,由所述CpG位点组合二构建的回归模型,校正R2=0.9529,116个训练样本的MAD=2.6568岁,51个测试样本的MAD=3.0826岁,10次10折交叉验证的校正R2=0.9544±5.8613E-5(均值±标准差)、MAD=2.9026±0.5555岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群男性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

7、根据本发明的具体实施方式,由所述CpG位点组合三构建的回归模型,校正R2=0.9392,98个训练样本的MAD=2.8894岁,43个测试样本的MAD=3.0202岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群女性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

8、根据本发明的具体实施方式,由所述CpG位点组合四构建的回归模型,校正R2=0.9399,98个训练样本的MAD=2.9627岁,43个测试样本的MAD=3.0521岁,10次10折交叉验证的校正R2=0.9312±6.6451E-5(均值±标准差)、MAD=3.1103±0.7211岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群女性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

9、根据本发明的具体实施方式,由所述CpG位点组合五构建的回归模型,校正R2=0.9317,215个训练样本的MAD=3.1875岁,95个测试样本的MAD=3.2506岁,10次10折交叉验证的校正R2=0.9352±2.3084E-5(均值±标准差)、MAD=3.2483±0.3998岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群男性或女性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

10、根据本发明的具体实施方式,由所述CpG位点组合五和性别变量Sex构建的回归模型,校正R2=0.9313,215个训练样本的MAD=3.1830岁,95个测试样本的MAD=3.010岁,说明预测年龄与所述个体的实际年龄非常接近,进一步表明本发明提供的方法和系统能够比较准确地获得所述中国人群男性或女性个体的年龄,实现了利用所述个体的血液或血痕样本对年龄的推断。

11、根据本发明的具体实施方式,针对所述六个回归模型的方案,均能实现对中国人群个体,尤其是汉族个体的年龄推断,具体而言,能够对1~85岁所述个体进行年龄推断,MAD为2至4岁,具备了较高的精度。

附图说明

图1是三次分析的AR-CpGs集合,(A)42个样本,(B)21个男性样本,(C)21个女性样本;

图2是三次分析AR-CpGs集合的交集及共有5个CpG位点的基本信息;

图3是男性9-CpG模型训练集中实际年龄与预测年龄的散点图;

图4是男性9-CpG模型测试集中实际年龄与预测年龄间的散点图;

图5是女性8-CpG模型训练集中实际年龄与预测年龄的散点图;

图6是女性8-CpG模型测试集中实际年龄与预测年龄的散点图;

图7是3-CpG模型训练集中实际年龄与预测年龄的散点图;

图8是3-CpG模型测试集中实际年龄与预测年龄的散点图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

本发明披露了一种获得中国人群个体年龄的方法、系统及扩增检测体系,具体如下各实施例所示。

实施例1 AR-CpGs的筛选

1 样本

中国汉族无关健康志愿者42名,其中青年组(A组,18~22岁)、中年组(B组,36~43岁)和老年组(C组,58~62岁)各14名,且每组男性和女性各7名。通过静脉穿刺采集外周血2~5ml,EDTA抗凝,置于-70℃超低温冰箱保存后备用。

2 甲基化检测

甲基化检测委托晶能生物技术(上海)有限公司完成,具体包括如下步骤:

(1)DNA提取与定量:使用QIAamp DNA Blood Mini Kit(QIAGEN,德国)提取200μl外周血的基因组DNA,70μl Buffer AE洗脱。使用Quant-iTTM>TM>

(2)亚硫酸氢盐处理:使用EZ DNA Methylation Kit(Zymo Research,美国)对500ng基因组DNA进行亚硫酸氢盐处理,10μl M-Elution Buffer洗脱。

(3)Infinium MethylationEPIC芯片(850K芯片)甲基化分析。

上述所有操作均根据制造商提供的说明书完成。

3 数据分析

首先,根据以下原则从原始数据中去除探针位点和样本:①信号强度低于平均背景信号的探针(detection P-value>0.01);②在≥5%的样本中,beads数小于3的探针;③有效探针比例小于98%的样本;④SNP位点对照探针。然后,计算样本中有效CpG位点的beta值,即甲基化率,其大小在0和1之间。接着,使用BMIQ(beta mixture quantile dilation)法对beta值进行归一化,并使用R/Bioconductor包limma进行组间差异甲基化位点(differentially methylated positions,DMPs)分析。通过建立线性模型,计算每个CpG位点的P值。随后,采用step-up Hochberg方法进行多重检验校正,并根据计算得到的校正P值进行DMPs筛选。考虑到性别差异,进行三次独立分析,从而获得基于男性样本、女性样本和所有样本的AR-CpGs。由于以校正P值小于0.05为筛选条件未发现B组与C组之间存在DMPs且女性样本A组与B组之间的DMPs仅有11个,因此选择以P值小于0.01为条件筛选这些组间比较的DMPs。随后,将A vs.B、B vs.C和A vs.C的DMPs取交集,作为年龄相关CpG位点(age-related CpG sites,AR-CpGs)集合。最后,以C组和A组的平均beta值之差的绝对值≥0.15为条件,分别从男性样本和女性样本的AR-CpGs集合中筛选出候选AR-CpGs用于验证。特别地,如果对应探针在距离检测位点10bp以内存在SNP(最小等位基因频率≥0.01),则剔除相应的AR-CpGs。

4 结果

为筛选出适用于中国汉族人群的AR-CpGs,首次使用850K芯片分析了42名志愿者全血基因组DNA中约853307个CpG位点的甲基化率。对DMPs取交集后,三次分析均可获得一定数量的AR-CpGs,其中分析所有42个样本时为785个,分析21个女性样本时为151个,分析21个男性样本时为68个,见图1。进一步对AR-CpGs取交集,发现有5个AR-CpGs为三次分析所共有,分别是cg16867657(ELOVL2)、cg10501210(C1orf132)、cg12899747、cg07504615和cg21599943,见图2。由于男性与女性AR-CpGs的交集也只有这5个,提示存在性别差异。为此,针对68个男性AR-CpGs和151个女性AR-CpGs,以C组和A组的平均beta值之差的绝对值(Abs(C-A))≥0.15为条件,分别选取25个男性AR-CpGs和24个女性AR-CpGs作为候选AR-CpGs用于后续验证。由于cg04885881已被证实与吸烟显著相关,因此将它从候选位点中剔除。所有候选位点的基本信息如表3所示。文献检索结果显示,28个450K位点中,12个位点被报道为AR-CpGs,表明筛选出有效的AR-CpGs。进一步分析汉族人群相关文献,发现这些AR-CpGs中仅有3个与Feng等所报道的位点大致相同或相邻,并与前述其他四项研究没有重叠位点,说明筛选到新位点。

表3 25个男性AR-CpGs(左)和23个女性AR-CpGs(右)的基信息

实施例2候选AR-CpGs的验证

1 样本

中国汉族无关健康个体60名,其中青年组(18~23岁)、中年组(38~43岁)和老年组(55~61岁)各20名,且每组男性和女性各10名。实龄等于样本采集日期距身份证、出生证明或户口簿上记载的出生日期的天数除以365,并保留2位小数。通过静脉穿刺采集外周血2~5ml,EDTA抗凝,并储存于4℃冰箱中备用。

2 甲基化检测

男性样本仅用于检测男性候选AR-CpGs,女性样本仅用于检测女性候选AR-CpGs。

(1)DNA提取与定量:使用QIAamp DNA Blood Mini Kit(QIAGEN,德国)分别提取所述个体200μl外周全血中的基因组DNA,50μl Buffer AE洗脱。取2μl基因组DNA,使用Nanodrop 2000超微量分光光度计进行定量。随后,取0.5g琼脂糖粉(Takara,中国)、50ml0.5×TBE缓冲液(自配)和5μl 4S Red Plus Nucleic Acid Stain(生工,中国)配置1%的琼脂糖凝胶,通过琼脂糖凝胶电泳(1%w/v,110v,30分钟)对1μl基因组DNA进行质检。

(2)亚硫酸氢盐处理:使用EpiTect Fast DNA Bisulfite Kit(QIAGEN,德国)对1000ng基因组DNA进行亚硫酸氢盐处理,50μl Buffer EB洗脱。

(3)引物设计与合成:使用PyroMark Assay Design 2.0软件(QIAGEN,德国)设计扩增引物对(F和R)和测序引物(S)。所有引物均由生工生物工程(上海)股份有限公司合成,并采用HPLC纯化。每个CpG位点的扩增引物对中,正向引物(F)或反向引物(R)在5′端标记生物素。扩增引物合成完成后,按照以下步骤分别配置所有引物的储存液和工作液:开盖前先4000rpm离心1分钟;然后慢慢打开管盖,加入适量的无酶水配置100μM的储存液;再盖上管盖,充分震荡混匀,置于室温下溶解1小时,保证引物完全溶解;短暂离心后,取适量的正向和反向引物配对混合,加入无酶水配置成2μM的工作液。按照相同方法,使用PyroMark Q24Advanced Reagents试剂盒中提供的退火缓冲液配置测序引物的储存液和工作液,终浓度分别为100μM和30μM。储存液和工作液进行小等份分装,保存于-20℃备用,并且冻融不超过三次。此处仅给出本发明纳入AR-CpGs的优化引物序列和分析序列,如表2所示。

(4)PCR扩增:使用PyroMark PCR Kit(QIAGEN,德国)在25μl反应体积中进行PCR扩增。首先,根据表4中各组分的比例配置反应混合物,然后将其分装至每个PCR管或96孔板每个反应孔中,最后加入2μl转化DNA。将PCR管置于2720型基因扩增仪(Thermo FisherScientific,美国)上,按照表5所列的条件进行PCR扩增。其中,除了位点cg16867657和cg18738190对应的优化退火温度为60℃外,其余均为56℃。每批次反应设置一个不含DNA模板的阴性对照以确定是否存在污染。

表4 PCR体系

表5 PCR条件

(5)琼脂糖电泳:取0.75g琼脂糖粉(Takara,中国)、50ml 0.5×TBE缓冲液(自配)和5μl 4S Red Plus Nucleic Acid Stain(生工,中国)配置1.5%的琼脂糖凝胶。取5μl扩增产物,通过琼脂糖电泳(1.5%w/v,110v,45分钟)对所有位点进行质检,保证获得单一且强的扩增条带。

(6)焦磷酸测序:使用PyroMark Q24软件升级版(QIAGEN,德国)和PyroMarkQ24Advanced Reagents(QIAGEN,德国)或PyroMark Q24Advanced CpG Reagents(QIAGEN,德国)定量分析PCR产物中CpG位点的甲基化水平。所有操作按照仪器和试剂制造商提供的说明书进行。其中,使用表6所示体系将生物素标记的PCR产物固定至由链霉亲和素包被的琼脂糖微珠(GE Healthcare,瑞典);使用试剂盒中的退火缓冲液将测序引物稀释至0.375μM,并添加25μl稀释后测序引物至PyroMark Q24孔板的反应孔中。

表6 PCR产物固定体系

根据软件操作说明,使用PyroMark Q24 Advanced 3.0.1软件(QIAGEN,德国)完成结果分析,并提取样本的甲基化数据,即所有单个CpG位点的甲基化率。

3 数据分析

使用R软件corr()函数计算每个CpG位点的甲基化率与30个样本实际年龄之间的Spearman相关系数,并以0.65、0.70、0.75和0.80为阈值,对扩增区域进行筛选。其中,相关系数的绝对值在0.0~0.2范围为极弱相关或无相关,0.2~0.4为弱相关,0.4~0.6为中等程度相关,0.6~0.8为强相关,0.8~1.0为极强相关。

4 结果

成功建立了41个优化的扩增检测体系,用于对30名男性和30名女性的候选AR-CpGs进行检测。从相关系数大小来看,所有候选AR-CpGs的甲基化率与年龄存在相关性,但是强弱不一(数据未显示)。值得注意的是,候选位点附近的CpG位点也呈年龄相关性,因此考虑按扩增区域进行筛选,以用于大样本分析和模型构建。

通过分析女性候选20个扩增区域中的115个CpG位点,发现共有14个区域至少包含一个相关系数绝对值大于0.65的位点。如果将阈值调整为0.70、0.75和0.80,则分别有12个、8个和5个区域满足条件。通过分析男性候选24个扩增区域中的52个CpG位点,发现共有16个区域至少包含一个相关系数绝对值大于0.65的位点。如果将阈值调整为0.70、0.75和0.80,则分别有11个、9个和5个区域满足条件。

为构建分别适用于男性和女性的年龄推断模型,最终选择以0.75为阈值,筛选出8个女性候选区域(F1,F2,F3,F4,F5,F9,F11和F14)和8个男性候选区域(M1,M2,M3,M4,M12,M18和M24)。

实施例3候选区域中AR-CpGs的挑选与多元线性回归模型的建立

1 样本

中国汉族无关健康个体308名(1~85岁),其中女性141名(3~80岁),男性167名(1~85岁)。采用与实施例2相同的方法进行年龄计算和外周血采集。

2 甲基化检测

男性样本仅用于检测男性候选区域,女性样本仅用于检测女性候选区域。采用与实施例2相同的方法完成候选区域中CpG位点的甲基化检测和数据提取。由于cg22454769(FHL2)被多个研究报道为不受性别影响的位点,所以此处将女性候选区域F2也作为男性候选区域之一。这里,使用EpiTect Fast DNA Bisulfite Kit转化500~1000ng基因组DNA,15μl Buffer EB洗脱。

3 数据分析

使用R软件corr()函数计算每个CpG位点的甲基化率与样本实际年龄之间的Spearman相关系数,并从每个候选区域内分别选择一个相关系数最大的CpG位点用于构建分别针对男性、女性和不分性别的多元线性回归模型。具体而言,首先将样本按7:3的比例进行分割,其中70%作为训练集,其余30%作为测试集。针对训练集,采用lm()函数拟合多元线性回归模型,并使用DMwR包去计算训练集和测试集的平均绝对偏差(MAD)、均方误差(MSE)、均方根误差(RMSE)和平均绝对百分比误差(MAPE)。接着,计算预测年龄与实际年龄之间的Spearman相关系数。随后,将样本分为五个年龄组:0~18岁、18~30岁、30~40岁、40~50岁、>50岁,并在以预测年龄与实际年龄之差在±5岁范围内为预测正确的前提下,分别计算训练集和测试集的预测准确率。接着,以校正R2、马洛斯Cp值和贝叶斯信息准则BIC值为参考指标,使用最优子集选择法(leaps包)优化模型,并计算选定模型的四种参数和预测准确率。最后,使用10次k折(k=10)交叉验证法对模型进行评估。

4 AR-CpGs的挑选

通过分析9个男性候选区域(M1,M2,M3,M4,M12,M18、M24和F2)内的41个CpG位点和8个女性候选区域(F1,F2,F3,F4,F5,F9,F11和F14)内的51个CpG位点,发现同一区域内不同CpG位点的甲基化率之间存在强相关性(数据未显示)。为降低这种区域内共线性对模型构建的影响,采取广泛接受的做法,即从每个区域内选择一个相关系数最大的CpG位点用于模型构建。

针对男性个体,最终选择cg17740900(M24,-0.9143)、cg18738190(M3,-0.8256)、cg17675043(M8,-0.8183)、cg03372207(M4,-0.8379)、chr20:11777887(M2,-0.8017)、cg19283806(M12,-0.9234)、chr1:207823715(M10,-0.9228)、chr2:105399291(F2,0.9242)和chr6:11044640(M1,0.9570)共9个CpG位点用于构建适用于男性个体的年龄推断模型。

针对女性,最终选择chr2:105399288(F2,0.8982)、chr20:46029595(F4,0.7741)、cg27030854(F9,-0.7397)、cg11584042(F11,-0.8189)、cg26947034(F14,-0.8852)、chr16:67150233(F3,0.7903)、chr1:207823681(F5,-0.9053)和chr6:11044634(F1,0.9483)共8个CpG位点用于构建适用于女性个体的年龄推断模型。

考虑到ELOVL2、FHL2和C1orf132扩增区域为男性和女性共有的候选区域,最终选择chr6:11044634(ELOVL2,0.9478)、chr2:105399288(FHL2,0.9136)和chr1:207823715(C1orf132,-0.9151)共3个CpG位点用于构建同时适用于男性和女性个体的年龄推断模型。

5 男性个体年龄推断模型:9-CpG模型

按7:3的比例对167名男性个体进行分割后,其中116名作为训练集,其余51名作为测试集。针对训练集,采用lm()函数拟合的多元线性回归模型为:

Age=19.5959022-0.0241651×βcg18738190+0.0048342×βcg17675043+0.0006142×βcg03372207-0.1867006×βcg17740900+0.0578433×βchr20:11777887-0.2657487×βcg19283806-0.2802704×βchr1:207823715+0.5139795×βchr2:105399291+0.4560639×βchr6:11044640,其中βcg18738190、βcg17675043、βcg03372207、βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为2.6642、12.0747、3.4749和11.9963%,测试集的MAD、MSE、RMSE和MAPE分别为3.0816、16.6561、4.0812和17.3578%。训练集和测试集的预测年龄与实际年龄的Spearman相关系数分别为0.98088和0.97622,见图3和4。训练集和测试集的±5岁预测准确率分别为87.07%和88.24%,见表7。

表7不同年龄分组下男性9-CpG模型的预测准确率

6 男性个体年龄推断模型:6-CpG模型

以校正R2最大为标准,对应6个CpG位点的组合(cg17740900、cg19283806、chr20:11777887、chr1:207823715、chr2:105399291和chr6:11044640),而Cp值最小对应5个CpG位点的组合(cg17740900、cg19283806、chr1:207823715、chr2:105399291和chr6:11044640),BIC值最小又对应4个CpG位点的组合(cg19283806、chr1:207823715、chr2:105399291和chr6:11044640)。进一步分析,发现5个位点和6个位点的各种参数区别不大(数据未显示),但是6个位点时测试集的MAD和MSE更小(数据未显示),故选择6个CpG位点构建优化模型:

Age=18.96746468-0.19799499×βcg17740900+0.05181609×βchr20:11777887-0.26232027×βcg19283806-0.28160744×βchr1:207823715+0.51342604×βchr2:105399291+0.45890553×βchr6:11044640,其中βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为2.6568,12.0906,3.4772和11.9565%,测试集的MAD、MSE、RMSE和MAPE分别为3.0826、16.6841、4.0846和17.3213%。与9-CpG模型相比,预测年龄与实际年龄的Spearman相关系数不变,每个年龄分组的预测准确率除测试集中老年个体的预测准确率降至72.72%,其余未改变。经过10次10折交叉验证,6-CpG模型的校正R2、MAD、MSE、RMSE和MAPE分别为0.9544±5.8613E-5、2.9026±0.5555、14.6939±6.2751、3.7495±0.8011和0.1352±0.0650。

7 女性个体年龄推断模型:8-CpG模型

按7:3的比例对141名女性个体进行分割后,其中98名作为训练集,其余43名作为测试集。针对训练集,采用lm()函数拟合的多元线性回归模型为:

Age=27.53535-0.41903×βchr1:207823681+0.29658×βchr2:105399288+0.40020×βchr6:11044634+0.18995×βchr16:67150233+0.26483×βchr20:46029595-0.14605×βcg27030854-0.08502×βcg11584042+0.01115×βcg26947034,其中βchr1:207823681、βchr2:105399288、βchr6:11044634、βchr16:67150233、βchr20:46029595、βcg27030854、βcg11584042和βcg26947034分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为2.8894、12.3954、3.5207和12.0626%,测试集的MAD、MSE、RMSE和MAPE分别为3.0202、17.2936、4.1586和11.6334%。训练集和测试集的预测年龄与实际年龄的Spearman相关系数分别为0.96503和0.95681,见图5和6。训练集和测试集的±5岁预测准确率分别为87.75%和79.07%,见表8。

表8不同年龄分组下8-CpG模型的预测准确率

8 女性个体年龄推断模型:4-CpG模型

以校正R2最大和Cp值最小为标准,对应6个CpG位点的组合(chr2:105399288、chr20:46029595、cg27030854、chr16:67150233、chr1:207823681和chr6:11044634),而BIC值最小对应4个CpG位点的组合(chr2:105399288、chr16:67150233、chr1:207823681和chr6:11044634)。进一步分析模型参数、测试集MAD和MSE,发现4个位点和6个位点区别不大(数据未显示),故选择4个CpG位点构建优化模型:

Age=11.00994-0.42728×βchr1:207823681+0.42145×βchr2:105399288+0.48635×βchr6:11044634+0.25020×βchr16:67150233,其中βchr1:207823681、βchr2:105399288、βchr6:11044634和βchr16:67150233分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为2.9627、13.3577、3.6548和2.1281%,测试集的MAD、MSE、RMSE和MAPE分别为3.0521、17.2682、4.1555和11.4948%。与8-CpG模型相比,预测年龄与实际年龄的Spearman相关系数不变,但是训练集和测试集中的预测准确率略有降低,分别为85.71%和76.74%。经过10次10折交叉验证,4-CpG模型的校正R2、MAD、MSE、RMSE和MAPE分别为0.9312±6.6451E-5、3.1103±0.7211、15.8586±7.1785、3.8925±0.8451和0.1249±0.0475。

9 联合推断模型:3-CpG模型

按7:3的比例对308名个体进行分割后,其中215名作为训练集,其余93名作为测试集。针对训练集,采用lm()函数拟合的多元线性回归模型为:

Age=10.6946-0.44542×βchr1:207823715+0.56508×βchr2:105399288+0.47227×βchr6:11044634,其中βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为3.1875、16.2752、4.0342和13.0524%,测试集的MAD、MSE、RMSE和MAPE分别为3.2506、17.9997、4.2426和13.7312%。训练集和测试集的预测年龄与实际年龄的Spearman相关系数分别为0.96405和0.97026,见图7和8。训练集和测试集的±5岁预测准确率分别为77.67%和78.49%,见表9。经过10次10折交叉验证,3-CpG模型的校正R2为0.9352±2.3084E-5,MAD、MSE、RMSE和MAPE分别为3.2483±0.3998、17.2531±4.1733、4.1233±0.5043和0.1423±0.0440。

表9不同年龄分组下3-CpG模型的预测准确率

10 联合推断模型:3-CpG+Sex模型

考虑到DNA分析过程中可以容易地获得性别信息,因此将性别作为一个变量纳入多元线性回归模型,拟合的回归模型为:

Age=7.08406-1.30655×Sex-0.40781×βchr1:207823715+0.55111×βchr2:105399288+0.52066×βchr6:11044634,其中Sex为二分类变量,男性个体取值为1,女性个体取值为2,βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率。

该模型训练集的MAD、MSE、RMSE和MAPE分别为3.1830、16.0184、4.002和13.3148%,测试集的MAD、MSE、RMSE和MAPE分别为3.010、17.0811、4.1329和14.5338%。与3-CpG模型相比,训练集和测试集的预测年龄与实际年龄的Spearman相关系数不变。训练集和测试集的±5岁预测准确率分别为78.14%和81.72%,见表10。

表10不同年龄分组下3 CpG+sex模型的预测准确率

实施例4中国人群个体年龄的推断

1 样本

以1个汉族男性个体(编号为HM)和1个汉族女性个体(编号为HF)为例来说明本发明的实施过程。采用与实施例2相同的方法进行年龄计算和外周血采集。

2 甲基化检测

采用与实施例2相同的方法完成选定CpG位点的甲基化检测和数据提取。这里,分别转化男性个体HM和女性个体HF的500ng基因组DNA,15μl Buffer EB洗脱。

本实施例中,选择对所有适用于男性个体的CpG位点(CpG位点组合一、组合二和组合五)进行PCR扩增和检测,具体包括cg18738190、cg17675043、cg03372207、cg17740900、chr20:11777887、cg19283806、chr1:207823715、chr2:105399291、chr6:11044640、chr2:105399288和chr6:11044634共11个CpG位点。所用扩增引物为序列表中SEQ ID NO:1至SEQID NO:18的核苷酸序列;所用测序引物为序列表中SEQ ID NO:29至SEQ ID NO:37的核苷酸序列。实际应用时,仅需检测一种组合。

本实施例中,选择对所有适用于女性个体的CpG位点(CpG位点组合三、组合四和组合五)进行PCR扩增和检测,包括chr1:207823681、chr2:105399288、chr6:11044634、chr16:67150233、chr20:46029595、cg27030854、cg11584042、cg26947034和chr1:207823715共9个CpG位点。所用扩增引物为序列表中SEQ ID NO:13至SEQ ID NO:28的核苷酸序列;所用测序引物为序列表中SEQ ID NO:35至SEQ ID NO:42的核苷酸序列。实际应用时,仅需检测一种组合。

本实施例中,位点chr1:207823715和chr1:207823681的引物相同;位点chr2:105399291和chr2:105399288的引物相同;位点chr6:11044640和chr6:11044634的引物相同。因此,根据引物的不同来区分,针对男性个体HM,共有9个不同的PCR体系和焦磷酸测序体系;针对女性个体HF,共有8个不同的PCR体系和焦磷酸测序体系。

3 甲基化检测结果

本实施例中,男性个体HM的检测结果如表11所示。

表11男性个体的甲基化检测结果

CpG位点甲基化率(%)cg1873819049.32cg1767504328.23cg0337220741.44cg1774090028.97chr20:1177788745.51cg1928380636.75chr1:20782371572.44chr2:10539929135.45chr6:1104464047.99chr2:10539928833.77chr6:1104463458.14

本实施例中,女性个体HF的检测结果如表12所示。

表12女性个体的甲基化检测结果

CpG位点甲基化率(%)chr1:20782368188.35chr2:10539928834.51chr6:1104463457.11chr16:6715023325.59chr20:4602959516.53cg2703085435.21cg1158404257.64cg2694703427.98chr1:20782371578.93

4 男性个体的年龄推断

将男性个体HM相应CpG位点的甲基化率代入根据CpG位点组合一构建的回归模型:

Age=19.5959022-0.0241651×βcg18738190+0.0048342×βcg17675043+0.0006142×βcg03372207-0.1867006×βcg17740900+0.0578433×βchr20:11777887-0.2657487×βcg19283806-0.2802704×βchr1:207823715+0.5139795×βchr2:105399291+0.4560639×βchr6:11044640,其中βcg18738190、βcg17675043、βcg03372207、βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率,获得该男性个体的年龄(Age)为25.83岁。

将男性个体HM相应CpG位点的甲基化率代入根据CpG位点组合二构建的回归模型:

Age=18.96746468-0.19799499×βcg17740900+0.05181609×βchr20:11777887-0.26232027×βcg19283806-0.28160744×βchr1:207823715+0.51342604×βchr2:105399291+0.45890553×βchr6:11044640,其中βcg17740900、βchr20:11777887、βcg19283806、βchr1:207823715、βchr2:105399291和βchr6:11044640分别为对应CpG位点的甲基化率,获得该男性个体的年龄(Age)为25.77岁。

将男性个体HM相应CpG位点的甲基化率代入根据CpG位点组合五构建的回归模型:

Age=10.6946-0.44542×βchr1:207823715+0.56508×βchr2:105399288+0.47227×βchr6:11044634,其中βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率,获得该男性个体的年龄(Age)为24.97岁。

将男性个体HM相应CpG位点的甲基化率代入根据CpG位点组合五和Sex变量构建的回归模型:

Age=7.08406-1.30655×Sex-0.40781×βchr1:207823715+0.55111×βchr2:105399288+0.52066×βchr6:11044634,其中Sex变量取值为1,βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率,获得该男性个体的年龄(Age)为25.12岁。

已知男性个体HM的实际年龄为25.10岁,说明利用本发明提供的方法和系统获得的该男性的预测年龄与实际年龄非常接近。

4.2 女性个体的年龄推断

将女性个体HF相应CpG位点的甲基化率代入根据CpG位点组合三构建的回归模型:

Age=27.53535-0.41903×βchr1:207823681+0.29658×βchr2:105399288+0.40020×βchr6:11044634+0.18995×βchr16:67150233+0.26483×βchr20:46029595-0.14605×βcg27030854-0.08502×βcg11584042+0.01115×βcg26947034,其中βchr1:207823681、βchr2:105399288、βchr6:11044634、βchr16:67150233、βchr20:46029595、βcg27030854、βcg11584042和βcg26947034分别为对应CpG位点的甲基化率,获得该女性个体的年龄(Age)为23.11岁。

将女性个体HF相应CpG位点的甲基化率代入根据CpG位点组合四构建的回归模型:

Age=11.00994-0.42728×βchr1:207823681+0.42145×βchr2:105399288+0.48635×βchr6:11044634+0.25020×βchr16:67150233,其中βchr1:207823681、βchr2:105399288、βchr6:11044634和βchr16:67150233分别为对应CpG位点的甲基化率,获得该女性个体的年龄(Age)为21.98岁。

将女性个体HF相应CpG位点的甲基化率代入根据CpG位点组合五构建的回归模型:

Age=10.6946-0.44542×βchr1:207823715+0.56508×βchr2:105399288+0.47227×βchr6:11044634,其中βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率,获得该女性个体的年龄(Age)为22.01岁。

将女性个体HF相应CpG位点的甲基化率代入根据CpG位点组合五和Sex变量构建的回归模型:

Age=7.08406-1.30655×Sex-0.40781×βchr1:207823715+0.55111×βchr2:105399288+0.52066×βchr6:11044634,其中Sex变量取值为2,βchr1:207823715、βchr2:105399288和βchr6:11044634分别为对应CpG位点的甲基化率,获得该女性个体的年龄(Age)为21.03岁。

已知女性个体HF的实际年龄为22.07岁,说明利用本发明提供的方法和系统获得的该女性的预测年龄与实际年龄非常接近。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

序列表

<110> 华中科技大学

<120> 一种获得中国人群个体年龄的方法、系统及扩增检测体系

<160> 42

<170> SIPOSequenceListing 1.0

<210> 1

<211> 26

<212> DNA

<213> 人工序列(cg18738190-F)

<400> 1

gttggtatag tttgtagttt gagaaa 26

<210> 2

<211> 23

<212> DNA

<213> 人工序列(cg18738190-R)

<400> 2

cccactccaa aactaataac tca 23

<210> 3

<211> 20

<212> DNA

<213> 人工序列(cg17675043-F)

<400> 3

gtagggttgt ggtaaagagt 20

<210> 4

<211> 29

<212> DNA

<213> 人工序列(cg17675043-R)

<400> 4

cttcccaatc tattctctac tattttact 29

<210> 5

<211> 25

<212> DNA

<213> 人工序列(cg03372207-F)

<400> 5

tttgatagtt tgtgtttgga tgtat 25

<210> 6

<211> 26

<212> DNA

<213> 人工序列(cg03372207-R)

<400> 6

ctctccactc aaaaaatcac attaaa 26

<210> 7

<211> 29

<212> DNA

<213> 人工序列(cg17740900-F)

<400> 7

aggatggaaa tataatatag gttatagag 29

<210> 8

<211> 29

<212> DNA

<213> 人工序列(cg17740900-R)

<400> 8

actaccaaat aatccaaact aatcttatc 29

<210> 9

<211> 30

<212> DNA

<213> 人工序列(chr20:11777887-F)

<400> 9

tagttagtga ttttgagttt ggaataattt 30

<210> 10

<211> 30

<212> DNA

<213> 人工序列(chr20:11777887-R)

<400> 10

caatcttatt atttttccct aattactcct 30

<210> 11

<211> 23

<212> DNA

<213> 人工序列(cg19283806-F)

<400> 11

gggaggggaa tgtttgtatt tat 23

<210> 12

<211> 25

<212> DNA

<213> 人工序列(cg19283806-R)

<400> 12

cctttcttta ctacattcca atcaa 25

<210> 13

<211> 18

<212> DNA

<213> 人工序列(chr1:207823715-F)

<400> 13

tgggagtaag aggttgtg 18

<210> 14

<211> 22

<212> DNA

<213> 人工序列(chr1:207823715-R)

<400> 14

cccctaatcc caacaaatac at 22

<210> 15

<211> 24

<212> DNA

<213> 人工序列(chr2:105399291-F)

<400> 15

gtgtttttag ggttttggga gtat 24

<210> 16

<211> 20

<212> DNA

<213> 人工序列(chr2:105399291-R)

<400> 16

cctaaaactt ctccaatctc 20

<210> 17

<211> 21

<212> DNA

<213> 人工序列(chr6:11044640-F)

<400> 17

aggggagtag ggtaagtgag g 21

<210> 18

<211> 24

<212> DNA

<213> 人工序列(chr6:11044640-R)

<400> 18

aacaaaacca tttcccccta atat 24

<210> 19

<211> 26

<212> DNA

<213> 人工序列(chr16:67150233-F)

<400> 19

ggtatttgtg aggttggtta atgagt 26

<210> 20

<211> 23

<212> DNA

<213> 人工序列(chr16:67150233-R)

<400> 20

cctccctaaa cctcttactc tat 23

<210> 21

<211> 18

<212> DNA

<213> 人工序列(chr20:46029595-F)

<400> 21

agaggaggtt gggattga 18

<210> 22

<211> 24

<212> DNA

<213> 人工序列(chr20:46029595-R)

<400> 22

caacccattc taaatcttct atcc 24

<210> 23

<211> 29

<212> DNA

<213> 人工序列(cg27030854-F)

<400> 23

tggaaatata atgatatgaa gtaatggta 29

<210> 24

<211> 23

<212> DNA

<213> 人工序列(cg27030854-R)

<400> 24

accaataata ccctcctata acc 23

<210> 25

<211> 24

<212> DNA

<213> 人工序列(cg11584042-F)

<400> 25

gagggaagaa gtgaaagtga tatt 24

<210> 26

<211> 24

<212> DNA

<213> 人工序列(cg11584042-R)

<400> 26

cactcctcaa acaaatccta tcta 24

<210> 27

<211> 21

<212> DNA

<213> 人工序列(cg26947034-F)

<400> 27

gtgatgagtt agtggtttgg t 21

<210> 28

<211> 30

<212> DNA

<213> 人工序列(cg26947034-R)

<400> 28

acatatacaa acctcaaaat taaaataacc 30

<210> 29

<211> 21

<212> DNA

<213> 人工序列(cg18738190-S)

<400> 29

ttgagaaatg ttattgttga t 21

<210> 30

<211> 17

<212> DNA

<213> 人工序列(cg17675043-S)

<400> 30

gggttgtggt aaagagt 17

<210> 31

<211> 20

<212> DNA

<213> 人工序列(cg03372207-S)

<400> 31

agtttgtgtt tggatgtata 20

<210> 32

<211> 25

<212> DNA

<213> 人工序列(cg17740900-S)

<400> 32

gtataataaa tttttttttg atgtt 25

<210> 33

<211> 25

<212> DNA

<213> 人工序列(chr20:11777887-S)

<400> 33

tggaataatt ttaaattggt atttt 25

<210> 34

<211> 24

<212> DNA

<213> 人工序列(cg19283806-S)

<400> 34

atcaaaataa atttctcctt aaac 24

<210> 35

<211> 24

<212> DNA

<213> 人工序列(chr1:207823715-S)

<400> 35

aattacccca tcaaatccta aaac 24

<210> 36

<211> 21

<212> DNA

<213> 人工序列(chr2:105399291-S)

<400> 36

gttttgggag tatagtagtt a 21

<210> 37

<211> 20

<212> DNA

<213> 人工序列(chr6:11044640-S)

<400> 37

aataaatatt cctaaaactc 20

<210> 38

<211> 17

<212> DNA

<213> 人工序列(chr16:67150233-S)

<400> 38

ggttaatgag tagtgga 17

<210> 39

<211> 22

<212> DNA

<213> 人工序列(chr20:46029595-S)

<400> 39

agtttagttt tattggaatg tt 22

<210> 40

<211> 25

<212> DNA

<213> 人工序列(cg27030854-S)

<400> 40

attttttata gtgaaatatt ttatg 25

<210> 41

<211> 22

<212> DNA

<213> 人工序列(cg11584042-S)

<400> 41

ctcaaacaaa tcctatctaa at 22

<210> 42

<211> 19

<212> DNA

<213> 人工序列(cg26947034-S)

<400> 42

attctttaac ctcccttat 19

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号