首页> 中国专利> 一种中国人中风风险的评估方法、装置、设备及介质

一种中国人中风风险的评估方法、装置、设备及介质

摘要

本公开实施例涉及一种中国人中风风险的评估方法、装置、设备及介质,其中该方法包括:获取目标对象的指定基因型检测结果;指定基因型检测结果包括组蛋白去乙酰化酶9基因的SNP位点rs2107595和rs2389995的基因型;其中,目标对象为中国人;获取目标对象的评估参考信息;评估参考信息包括目标对象的个人身份信息、生活状态信息、生理生化信息以及疾病史信息中的多种;根据指定基因型检测结果和评估参考信息计算目标对象的中风概率值;基于中风概率值对目标对象进行中风风险评估。本公开实施例能较为准确地对中国人的中风风险进行评估。

著录项

  • 公开/公告号CN113838576A

    专利类型发明专利

  • 公开/公告日2021-12-24

    原文格式PDF

  • 申请/专利号CN202110803447.2

  • 申请日2021-07-14

  • 分类号G16H50/30(20180101);G16B20/30(20190101);G16B40/00(20190101);C12Q1/6883(20180101);C12N15/11(20060101);

  • 代理机构11710 北京开阳星知识产权代理有限公司;

  • 代理人范彦扬

  • 地址 100191 北京市海淀区学院路37号

  • 入库时间 2023-06-19 13:49:36

说明书

技术领域

本公开涉及数据处理技术领域,尤其涉及一种中国人中风风险的 评估方法、装置、设备及介质。

背景技术

中风是一组以脑部缺血及出血性损伤症状为主要临床表现的疾病, 又称卒中,具有极高的病死率和致残率,为此业内人士对此投入较多 研究,以期望能够提前评估中风风险,以便于能够提前采取干预措施 进行防范。

发明人发现,现有的中风风险评估方法针对中国人中风风险的预 测结果准确度一般。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题,本公 开提供了一种中国人中风风险的评估方法、装置、设备及介质。

本公开实施例提供了一种中国人中风风险的评估方法,所述方法包 括:获取目标对象的指定基因型检测结果;所述指定基因型检测结果 包括组蛋白去乙酰化酶9基因的SNP位点rs2107595和rs2389995的基 因型;其中,所述目标对象为中国人;获取所述目标对象的评估参考 信息;所述评估参考信息包括所述目标对象的个人身份信息、生活状 态信息、生理生化信息以及疾病史信息中的多种;根据所述指定基因 型检测结果和所述评估参考信息计算所述目标对象的中风概率值;基 于所述中风概率值对所述目标对象进行中风风险评估。

可选的,所述根据所述指定基因型检测结果和所述评估参考信息计 算所述目标对象的中风概率值的步骤,包括:通过预先训练得到的机 器学习模型计算所述评估参考信息对应的信息风险预测值;其中,所 述机器学习模型的训练样本标注有样本对象的评估参考信息以及所述 样本对象是否中风的实际结论;根据所述信息风险预测值和所述指定 基因型检测结果计算所述目标对象的中风概率值。

可选的,所述通过预先训练得到的机器学习模型计算所述评估参考 信息对应的信息风险预测值的步骤,包括:采用独热编码对所述评估 参考信息中包含的各个信息进行编码处理,得到所述各个信息对应的 编码值;采用所述机器学习模型对所述各个信息对应的编码值进行处 理,得到信息风险预测值。

可选的,所述机器学习模型为支持向量机,且所述支持向量机基 于线性核函数构建。

可选的,所述根据所述信息风险预测值和所述指定基因型检测结果 计算所述目标对象的中风概率值的步骤,包括:获取预先构建的基因 风险预测表,其中,所述基因风险预测表包含有各个基因组与基因风 险预测值的对应关系;其中,所述基因组为所述rs2107595的基因型和 所述rs2389995的基因型的组合;所述rs2107595的基因型包括TT、TC或CC;所述rs2389995的基因型包括GG、GA或AA;查询所述 基因风险预测表,获得与所述指定基因型检测结果相对应的基因风险 预测值;根据所述信息风险预测值和所述基因风险预测值计算所述目 标对象的中风概率值。

可选的,所述基因风险预测表按照如下步骤构建:确定所述 rs2107595的等位基因T与中风风险呈正相关,并令所述rs2107595的 基因型为TT时取值为1,为TC时取值为0.5,为CC时取值为0;确 定所述rs2389995的等位基因G与中风风险呈负相关,并令所述rs2389995的基因型为GG时取值为-1,为GA时取值为-0.5,为AA时 取值为0;令所述rs2107595的基因型和所述rs2389995的基因型进行 组合,得到多个基因组;对于每个所述基因组,计算该基因组中包含 的所述rs2107595的基因型的取值以及所述rs2389995的基因型的取值 之和,并将计算得到的和值作为该基因组对应的中风风险预测值;基 于各个所述基因组对应的基因风险预测值,构建基因风险预测表。

可选的,所述根据所述信息风险预测值和所述基因风险预测值计算 所述目标对象的中风概率值的步骤,包括:确定所述信息风险预测值 对应的第一权重,以及所述基因风险预测值对应的第二权重;基于所 述第一权重和所述第二权重,对所述信息风险预测值和所述基因风险 预测值进行加权计算,得到风险预测加权值;将所述风险预测加权值 作为所述目标对象的中风概率值。

本公开实施例还提供了一种中国人中风风险的评估装置,包括:基 因获取模块,用于获取目标对象的指定基因型检测结果;所述指定基 因型检测结果包括组蛋白去乙酰化酶9基因的SNP位点rs2107595和 rs2389995的基因型;其中,所述目标对象为中国人;信息获取模块, 用于获取所述目标对象的评估参考信息;所述评估参考信息包括所述 目标对象的个人身份信息、生活状态信息、生理生化信息以及疾病史 信息中的多种;概率计算模块,用于根据所述指定基因型检测结果和 所述评估参考信息计算所述目标对象的中风概率值;风险评估模块, 用于基于所述中风概率值对所述目标对象进行中风风险评估。

本公开实施例还提供了一种电子设备,所述电子设备包括:处理 器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从 所述存储器中读取所述可执行指令,并执行所述指令以实现如本公开 实施例提供的中国人中风风险的评估方法。

本公开实施例还提供了一种计算机可读存储介质,所述存储介质 存储有计算机程序,所述计算机程序用于执行如本公开实施例提供的 中国人中风风险的评估方法。

本公开实施例提供的上述技术方案,能够在一方面获取目标对象 (中国人)的指定基因型检测结果(包括组蛋白去乙酰化酶9基因的 SNP位点rs2107595和rs2389995的基因型);在另一方面获取目标对 象的评估参考信息(包括目标对象的个人身份信息、生活状态信息、 生理生化信息以及疾病史信息中的多种);然后根据指定基因型检测结 果和评估参考信息计算目标对象的中风概率值,最后基于中风概率值 对目标对象进行中风风险评估。发明人经大量研究发现,组蛋白去乙 酰化酶9基因的SNP位点rs2107595和rs2389995的基因型与中国人中 风风险有一定的关联性,因此基于目标对象的上述基因型检测结果结合评估参考信息综合计算目标对象的中风概率值,中风评估所依据的 因素更为全面,所得到的中风概率值更为客观准确,从而基于中风概 率值能够较为准确地对中国人的中风风险进行评估。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的 关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将 通过以下的说明书而变得容易理解。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符 合本公开的实施例,并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前 提下,还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种中国人中风风险的评估方法的流 程示意图;

图2为本公开实施例提供的另一种中国人中风风险的评估方法的 流程示意图;

图3为本公开实施例提供的一种中国人中风风险的评估装置的结 构示意图;

图4为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点,下面将 对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下, 本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开,但 本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书 中的实施例只是本公开的一部分实施例,而不是全部的实施例。

图1为本公开实施例提供的一种中国人中风风险的评估方法的流 程示意图,该方法可以由中国人中风风险的评估装置执行,其中该装 置可以采用软件和/或硬件实现,一般可集成在电子设备中。如图1所 示,该方法主要包括如下步骤S102~步骤S108:

步骤S102,获取目标对象的指定基因型检测结果;指定基因型检测 结果包括组蛋白去乙酰化酶9基因的SNP位点rs2107595和rs2389995 的基因型,且目标对象为中国人。可以理解的是,在亚洲生活的人种 (中国人)的身体特征、日常习惯、生活环境(气候)等都有一定程 度的相似性,基因表达也具有一定程度的相似性,因而可以统一进行 研究。

SNP(Single Nucleotide Polymorphism,单核苷酸多态性)是指在 基因组上单个核苷酸的变异,包括置换、颠换、缺失和插入等。rs2107595 的基因型包括TT、TC或CC;rs2389995的基因型包括GG、GA或 AA。发明人经大量研究发现,中国人的组蛋白去乙酰化酶9基因的SNP 位点rs2107595和rs2389995的基因型与中风风险有一定的关联性;诸 如,在rs2107595中,T等位基因会增强导致中风的风险,在rs2389995 中,G等位基因会对卒中进行保护,也即降低中风的风险。

步骤S104,获取目标对象的评估参考信息;评估参考信息包括目标 对象的个人身份信息、生活状态信息、生理生化信息以及疾病史信息 中的多种。该评估参考信息均为与中风风险相关的信息,换言之,是 可能会导致中风的风险因素。在实际应用中,可以从记录有目标对象 的相关信息的网络系统中提取,还可以向目标对象发问卷,由目标对 象自己填写并上报上述信息等多种方式来获知目标对象的评估参考信 息,获取方式在此不进行限制。

在一些实施例中,个人身份信息包括但不限于ID身份标识和性别; 生活状态信息包括但不限于婚否、居住情况、工作类型、吸烟情况等; 生理生化信息包括但不限于BMI信息(用于衡量胖瘦程度的指标)和 平均血糖水平(诸如采用空腹全血血糖);疾病史信息包括但不限于高 血压和心脏病。发明人经研究发现,以上信息都在一定程度上与中风 风险相关,因而获取上述信息,以便后续评估目标对象的中风风险。

步骤S106,根据指定基因型检测结果和评估参考信息计算目标对象 的中风概率值。

在一些实施方式中,可以根据指定基因型检测结果计算基因风险预 测值,根据评估参考信息计算信息风险预测值,然后将基因风险预测 值和信息风险预测值的加权值作为目标对象的中风概率值;其中,基 因风险预测值和信息风险预测值各自的权重可以根据实际情况自行设 置,诸如,设置二者权重相同均为1/2等,在此不进行限制。也即,上 述方式从遗传角度(指定基因型检测结果)以及目标对象的个人当前 情况(评估参考信息)两方面综合考虑,从而客观地评估目标对象中 风的可能性。

步骤S108,基于中风概率值对目标对象进行中风风险评估。

诸如,可以设置不同的阈值区间,每个阈值区间对应一种中风风险 等级。示例性地,中风概率值位于[0,0.25)时,对应的中风风险等级为 低风险;中风概率值位于[0.25,0.75)时,对应的中风风险等级为正常 风险;中风概率值位于[0.75,1.0)时,对应的中风风险等级为高风险; 中风概率值大于等于1时,对应的中风风险等级为极高风险。可以理 解的是,以上仅为示例性说明,在实际应用中,还可以对上述阈值区 间进行调整,在此不进行限制。

综上所述,在本公开实施例提供的上述中国人中风风险的评估方法 中,由于发明人经大量研究发现,组蛋白去乙酰化酶9基因的SNP位 点rs2107595和rs2389995的基因型与中国人中风风险有一定的关联性, 基于目标对象的上述基因型检测结果结合评估参考信息综合计算目标 对象的中风概率值,中风评估所依据的因素更为全面,所得到的中风概率值更为客观准确,从而基于中风概率值能够较为准确地对中国人 的中风风险进行评估。

在一些实施方式中,上述根据指定基因型检测结果和评估参考信息 计算目标对象的中风概率值的步骤,可以参照如下步骤1~步骤2实现:

步骤1,通过预先训练得到的机器学习模型计算评估参考信息对应 的信息风险预测值;其中,机器学习模型的训练样本标注有样本对象 的评估参考信息以及样本对象是否中风的实际结论。其中,样本对象 为中国人。

通过采用机器学习模型可以快速客观地针对评估参考信息(也即, 对中风风险相关的因素)进行预测,得到信息风险预测值,在一些实 施方式中,机器学习模型可以基于二分类算法实现,得到的信息风险 预测值包括0和1,其中,0表示不易感,1表示易感。此时,信息风 险预测值也可称之为易感判别结果。

在实际应用中,可以根据获得的目标对象的评估参考信息,在一些 实施方式中,评估参考信息包括个人身份信息、生活状态信息、生理 生化信息以及疾病史信息,关于各个信息的取值以下详细阐述如下:

个人身份信息包括ID身份标识和性别,ID身份标识可以采用个人 的身份证号,也可以采用本机服务端自动生成的用于识别不同用户的 标识(也即自动为用户赋予的数字/字符标识);性别直接采用男或女来 表征,实际应用中还可以采用诸如M(Male)表征男,F(Female)表 征女。

生活状态信息包括婚否、居住情况、工作类型和吸烟情况;婚否可 直接采用是或否来表达,或者采用0或1表达,诸如,已婚则对应1, 未婚对应0;居住情况可以采用城市或农村来表达,实际应用中还可以 采用诸如U(Urban)表示城市,R(Rural)表示农村;工作类型可以 采用“未工作”、“被雇佣”、“个体户”、“事业单位”来表征,实际应 用中,还可以分别为上述工作类型的表征方式赋予不同字母或数字, 以便于后续处理;吸烟情况可以采用“从未抽烟”、“刚开始抽烟”、“抽 烟”等,同样,还可以分别为上述吸烟情况的表征方式赋予不同字母 或数字,以便于后续处理。

生理生化信息包括BMI(Body Mass Index)信息和平均血糖水平, 其中,BMI信息即为身体质量指数,是国际上衡量人体胖瘦程度的一 个常用指标,是采用体重的公斤数除以身高米数的平方得到的数字, 可以直接通过数字进行表征,诸如,成年人BMI的正常值在18.5-23.9 之间,如果BMI低于18.5,考虑体重过轻,BMI达到24-27是体重过 重,BMI在28-32之间属于肥胖。如果BMI超过32,就是非常肥胖的 情况。实际应用中,可以根据目标对象的身高和体重来计算其BMI数 值;平均血糖水平可采用空腹全血血糖实现,同样可以采用数值表征。

疾病史信息包括高血压疾病史和心脏病疾病史,均可采用“是”或 “否”来表征,相应的,也可以采用“1”表示“是”,采用“0”表示 “否”。

应当理解的是,以上仅为示例性说明,不应当被视为限制,可以获 取到目标对象的评估参考信息后,为各信息赋予一定的数值,或者对 各信息的表达值进行编码,以便于后续模型处理。为了便于机器学习 模型能够更好地对上述信息进行处理,可以采用独热编码(one-hot编 码)对评估参考信息中包含的各个信息进行编码处理,得到各个信息 对应的编码值,进而采用机器学习模型对各个信息对应的编码值进行 处理,得到信息风险预测值。

独热编码的核心原理在于:使用N位状态寄存器来对N个状态进 行编码,每个状态都有独立的寄存器位,并且在任意时候只有一位有 效。对于每一个特征,如果它有m个可能值,则经过独热编码后,会 变成m个二元特征;以某特征的可选状态是“好、中、差”为例,对该特征进行独热编码,则相应得到100,010,001。并且,这些特征互斥, 每次只有一个激活。因此,数据会变成稀疏的,这样做的好处可以解 决分类器不好处理属性数据的问题,而且在一定程度上也起到了扩充 特征的作用。通过采用独热编码对评估参考信息中的各个信息的取值 进行处理,有助于机器学习模型更便于对评估参考信息进行处理,并 得到较为准确可靠的信息风险预测值。

在一些实施方式中,机器学习模型为支持向量机。优选地,该支持 向量机基于线性核函数构建。

在实际应用中,可以通过系统抽样获取大量的中国人有效样本(诸 如40000人以上),按照指定比例(诸如4:1)随机分为训练集和测试 集,经过对数据进行诸如标注等预处理之后,为了能够得到更优的模型, 可以选择不同核函数类型分别建立模型,核函数类型包括线性核函数、 多项式核函数、高斯核函数等,核函数类型的确定是建立在样本的基 础上,同时也充分考虑到模型各参数的影响,通过实验过程中对参数大 小进行调整,观察预测误差随核权重的变化,最终根据最小的误差来 确定最合适的核函数。本公开实施例中,可以选取较优的线性核来实 现训练的目的,经过测试,基于线性核函数构建的机器学习模型在训 练结束后的预测准确率可高达98.46%。

步骤2,根据信息风险预测值和指定基因型检测结果计算目标对象 的中风概率值。在一些实施方式中,可以参照如下步骤2.1~步骤2.3 实现:

步骤2.1,获取预先构建的基因风险预测表,其中,基因风险预测 表包含有各个基因组与基因风险预测值的对应关系;其中,基因组为 rs2107595的基因型和rs2389995的基因型的组合;rs2107595的基因型 包括TT、TC或CC;rs2389995的基因型包括GG、GA或AA。发明 人经研究发现,在rs2107595中,T等位基因会增强导致中风的风险, 在rs2389995中,G等位基因会对卒中进行保护,也即降低中风的风险, 因此可以为各基因型分别赋予指定的风险预测值,然后基于各个基因 组确定相应的总的基因风险预测值,从而构建基因风险预测表。

步骤2.2,查询基因风险预测表,获得与指定基因型检测结果相对 应的基因风险预测值。

步骤2.3,根据信息风险预测值和基因风险预测值计算目标对象的 中风概率值。

在一些实施方式中,可以首先确定信息风险预测值对应的第一权重, 以及基因风险预测值对应的第二权重,然后基于第一权重和第二权重, 对信息风险预测值和基因风险预测值进行加权计算,得到风险预测加 权值;最后将风险预测加权值作为目标对象的中风概率值。

示例性地,第一权重和第二权重均为1/2,此时可参照如下公式计 算目标对象的中风概率值:

f=1/2*x

其中,f为中风概率值,x

为便于理解,给出了一种基因风险预测表的构建方式,参照如下步 骤a~步骤d实现:

步骤a,确定rs2107595的等位基因T与中风风险呈正相关,并令 rs2107595的基因型为TT时取值为1,为TC时取值为0.5,为CC时 取值为0。也即,在rs2107595中,T等位基因会增强导致中风的风险。

步骤b,确定rs2389995的等位基因G与中风风险呈负相关,并令 rs2389995的基因型为GG时取值为-1,为GA时取值为-0.5,为AA时 取值为0。也即,在rs2389995中,G等位基因会对卒中进行保护,也 即降低中风的风险。

步骤c,令rs2107595的基因型和rs2389995的基因型进行组合,得 到多个基因组。诸如,TT和GG可以构成一个基因组,TT和GA可以 构成一个基因组,TT和AA可以构成一个基因组,依次类推,在此不 再逐一罗列。

步骤d,对于每个基因组,计算该基因组中包含的rs2107595的基 因型的取值以及rs2389995的基因型的取值之和,并将计算得到的和值 作为该基因组对应的中风风险预测值。

步骤e,基于各个基因组对应的基因风险预测值,构建基因风险预 测表。

具体的,可以参照如下表1:

以上表1为例,如图同时存在rs2107595的TT及rs2389995的GG 时,则认为基因风险预测值为0。应当注意的是,上述表1中仅记录了 大于等于0的情况,所以省略了其它情况,诸如省略了CC和GG的组 合、CC和GA的组合、TC和GG的组合等,以上仅为示例,不应当 被视为限制。

基于前述实施方式,本公开实施例提供了另一种中国人中风风险的 评估方法,参照图2所示,该方法主要包括如下步骤S202~步骤S216:

步骤S202,获取目标对象的指定基因型检测结果;指定基因型检测 结果包括组蛋白去乙酰化酶9基因的SNP位点rs2107595和rs2389995 的基因型;

步骤S204,获取目标对象的评估参考信息;评估参考信息包括目标 对象的个人身份信息、生活状态信息、生理生化信息以及疾病史信息;

步骤S206,通过基于线性核函数构建的支持向量机计算评估参考信 息对应的信息风险预测值;

步骤S208,查询预先构建的基因风险预测表,获得与指定基因型检 测结果相对应的基因风险预测值;

步骤S210,确定信息风险预测值对应的第一权重,以及基因风险预 测值对应的第二权重;

步骤S212,基于第一权重和第二权重,对信息风险预测值和基因风 险预测值进行加权计算,得到风险预测加权值;

步骤S214,将风险预测加权值作为目标对象的中风概率值;

步骤S216,基于中风概率值对目标对象进行中风风险评估。

应当注意的是,以上步骤不应当被视为顺序限制,诸如,步骤S202 和步骤S204可以同时执行,或者先执行步骤S202和步骤S208,再执 行步骤S204和步骤S206,最后执行步骤S210~步骤S216等;以上步 骤的具体实现方式可参照前述相关内容,在此不再赘述。

综上所述,发明人在研究发现组蛋白去乙酰化酶9基因的SNP位点 rs2107595和rs2389995的基因型与中风有一定关联性,而目标对象的 实际个人情况(评估参考信息,包括目标对象的个人身份信息、生活 状态信息、生理生化信息以及疾病史信息)也与中风有一定关联性, 因此分别计算出相应的基因风险预测值和信息风险预测值,将两个值 结合在一起综合计算中风概率值,能够从基因层面上(也即遗传信息 层面上)以及个人外在的风险因素层面上对中风风险进行综合评估, 得到更为准确的评估结果。

另外,在此附上发明人对组蛋白去乙酰化酶9基因的SNP位点 rs2107595和rs2389995的基因型与卒中(也即,中风)相关的示例性 研究:

发明人对中国人群中HDAC9(组蛋白去乙酰化酶9)多态性与卒中 风险的关系进行了荟萃分析。从多个数据库检索所有符合条件的脑卒 中病例和健康人进行对照研究,共包括多名(诸如3023名)脑卒中患 者和多名(诸如4362名)健康对照。计算联合优势比(OR)和95% 置信区间(95%CI),以评估rs2107595和rs2389995这两种HDAC9 基因多态性与脑卒中风险之间的关联强度以及总体遗传影响。

在进行荟萃分析之前,使用以下假设来评估统计功效:以上两个 SNP的αerr概率=0.05,OR=1.20(对应于“弱至中度”基因效应), 并根据亚洲某地的1000个基因组计划对于种群中的上述两个SNP,获 得这些SNP的次要等位基因频率(MAF)。在本公开实施例当前涉及 的示例中,rs2107595(MAF=0.301)的功效为100%,rs2389995(MAF =0.180)的功效为100%,功效分析表明,这些收集的样本可以用作识 别中国人群中的以上两个SNP是否与中风相关的基础。

在研究分析中可使用rs2107595,rs2389995的不同遗传模型。发现 rs2107595的T等位基因与缺血性中风的风险增加有关。获得了以下数 据:在等位基因模型中,T vs.C,OR=1.09,95%CI:1.00-1.19,P<0.05。 在共模模型中,TT vs.CC,OR=1.16,95%CI:0.95-1.40,P=0.13; CT vs.CC,OR=1.13,95%CI:1.00-1.27,P<0.05;在主导模型中, TT+CT相对于CC,OR=1.13,95%CI:1.01-1.27,P<0.5;隐性模 型(TT vs.CC+CT,OR=1.09,95%CI:0.91-1.31,P=0.34)。

在所有模型中,rs2389995的G等位基因均与缺血性卒中风险降低 显着相关:等位基因(G vs.A,OR=0.81,95%CI:0.65-1.01,P=0.06); 等位基因(G vs.A,OR=0.81,95%CI:0.65-1.01,P=0.06);共显 性(GG vs.AA,OR=0.71,95%CI:0.50-0.99,P<0.05;AGvs.AA, OR=0.76,95%CI:0.65-0.90,P<0.05);显性(GG+AG vs.AA,OR =0.77,95%CI:0.59–1.00,P<0.05);隐性的(GG vs.AA+AG,OR =0.77,95%CI:0.55-1.08,P=0.13)。

上述结果表明,rs2107595(T/C)多态性与等位基因、显性和显性 模型中的卒中风险增加有统计学关联。此外,在所有遗传模型中, rs2389995(G/A)多态性与中风风险降低显著相关。总之,这项荟萃 分析表明,在中国人群中,HDAC9中rs2107595的T等位基因增加了 中风的风险,而rs2389995的G等位基因降低了中风的风险。

综上所述,在发明人大量研究的基础上,发现HDAC9中rs2107595 的T等位基因增加了中风的风险,而rs2389995的G等位基因降低了 中风的风险,将待评估对象的基因以及个人生活情况(个人身份、生 活状态、生理生化、疾病史)等这些与中风风险相关的因素综合起来 进行评估,极大提升了中风风险的评估准确性和可靠性,有助于待评 估对象根据评估结果提前予以防范。

对应于前述中国人中风风险的评估方法,本公开实施例还提供了一 种中国人中风风险的评估装置,该装置可由软件和/或硬件实现,一般 可集成在电子设备中,参见图3所示的中国人中风风险的评估装置的 结构示意图,主要包括如下模块:

基因获取模块302,用于获取目标对象的指定基因型检测结果;指 定基因型检测结果包括组蛋白去乙酰化酶9基因的SNP位点rs2107595 和rs2389995的基因型;其中,目标对象为中国人。

信息获取模块304,用于获取目标对象的评估参考信息;评估参考 信息包括目标对象的个人身份信息、生活状态信息、生理生化信息以 及疾病史信息中的多种;

概率计算模块306,用于根据指定基因型检测结果和评估参考信息 计算目标对象的中风概率值;

风险评估模块308,用于基于中风概率值对目标对象进行中风风险 评估。

在本公开实施例提供的上述中国人中风风险的评估装置中,由于发 明人经大量研究发现,组蛋白去乙酰化酶9基因的SNP位点rs2107595 和rs2389995的基因型与中国人中风风险有一定的关联性,基于目标对 象的上述基因型检测结果结合评估参考信息综合计算目标对象的中风 概率值,所得到的中风概率值更为客观准确,从而基于中风概率值能够较为准确地对中国人的中风风险进行评估。

在一些实施方式中,概率计算模块306具体用于:通过预先训练得 到的机器学习模型计算所述评估参考信息对应的信息风险预测值;其 中,所述机器学习模型的训练样本标注有样本对象的评估参考信息以 及所述样本对象是否中风的实际结论;根据所述信息风险预测值和所 述指定基因型检测结果计算所述目标对象的中风概率值。

在一些实施方式中,概率计算模块306具体用于:采用独热编码对 所述评估参考信息中包含的各个信息进行编码处理,得到所述各个信 息对应的编码值;采用所述机器学习模型对所述各个信息对应的编码 值进行处理,得到信息风险预测值。

在一些实施方式中,所述机器学习模型为支持向量机,且所述支持 向量机基于线性核函数构建。

在一些实施方式中,概率计算模块306具体用于:获取预先构建的 基因风险预测表,其中,所述基因风险预测表包含有各个基因组与基 因风险预测值的对应关系;其中,所述基因组为所述rs2107595的基因 型和所述rs2389995的基因型的组合;所述rs2107595的基因型包括TT、 TC或CC;所述rs2389995的基因型包括GG、GA或AA;查询所述 基因风险预测表,获得与所述指定基因型检测结果相对应的基因风险 预测值;根据所述信息风险预测值和所述基因风险预测值计算所述目 标对象的中风概率值。

在一些实施方式中,上述装置还包括预测表构建模块,用于:确定 所述rs2107595的等位基因T与中风风险呈正相关,并令所述rs2107595 的基因型为TT时取值为1,为TC时取值为0.5,为CC时取值为0; 确定所述rs2389995的等位基因G与中风风险呈负相关,并令所述 rs2389995的基因型为GG时取值为-1,为GA时取值为-0.5,为AA时 取值为0;令所述rs2107595的基因型和所述rs2389995的基因型进行 组合,得到多个基因组;对于每个所述基因组,计算该基因组中包含 的所述rs2107595的基因型的取值以及所述rs2389995的基因型的取值 之和,并将计算得到的和值作为该基因组对应的中风风险预测值;基 于各个所述基因组对应的基因风险预测值,构建基因风险预测表。

在一些实施方式中,概率计算模块306具体用于:确定所述信息风 险预测值对应的第一权重,以及所述基因风险预测值对应的第二权重; 基于所述第一权重和所述第二权重,对所述信息风险预测值和所述基 因风险预测值进行加权计算,得到风险预测加权值;将所述风险预测 加权值作为所述目标对象的中风概率值。

本公开实施例所提供的中国人中风风险的评估装置可执行本公开 任意实施例所提供的中国人中风风险的评估方法,具备执行方法相应 的功能模块和有益效果。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁, 上述描述的装置实施例的具体工作过程,可以参考方法实施例中的对 应过程,在此不再赘述。

本公开实施例还提供了一种电子设备,电子设备包括:处理器;用 于存储处理器可执行指令的存储器;处理器,用于从存储器中读取可 执行指令,并执行指令以实现上述中国人中风风险的评估方法。示例 性地,图4为本公开实施例提供的一种电子设备的结构示意图。如图4 所示,电子设备400包括一个或多个处理器401和存储器402。

处理器401可以是中央处理单元(CPU)或者具有数据处理能力 和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备 400中的其他组件以执行期望的功能。

存储器402可以包括一个或多个计算机程序产品,所述计算机程 序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器 和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储 器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例 如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存 储介质上可以存储一个或多个计算机程序指令,处理器401可以运行 所述程序指令,以实现上文所述的本公开的实施例的中国人中风风险 的评估方法以及/或者其他期望的功能。在所述计算机可读存储介质中 还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中,电子设备400还可以包括:输入装置403和输出 装置404,这些组件通过总线系统和/或其他形式的连接机构(未示出) 互连。

此外,该输入装置403还可以包括例如键盘、鼠标等等。

该输出装置404可以向外部输出各种信息,包括确定出的距离信 息、方向信息等。该输出装置404可以包括例如显示器、扬声器、打 印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图4中仅示出了该电子设备400中与本公开有 关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除 此之外,根据具体应用情况,电子设备400还可以包括任何其他适当 的组件。

本公开实施例还提供了一种计算机可读存储介质,存储介质存储 有计算机程序,计算机程序用于执行上述中国人中风风险的评估方法。

除了上述方法和设备以外,本公开的实施例还可以是计算机程序 产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行 时使得所述处理器执行本公开实施例所提供的中国人中风风险的评估 方法。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合 来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包 括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式 程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以 完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个 独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执 行、或者完全在远程计算设备或服务器上执行。

此外,本公开的实施例还可以是计算机可读存储介质,其上存储 有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述 处理器执行本公开实施例所提供的中国人中风风险的评估方法。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组 合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质 例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、 装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非 穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、 随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存 储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、 光存储器件、磁存储器件、或者上述的任意合适的组合。

本公开实施例还提供了一种计算机程序产品,包括计算机程序/指 令,该计算机程序/指令被处理器执行时实现本公开实施例中的中国人 中风风险的评估方法。

需要说明的是,在本文中,诸如“第一”和“第二”等之类的关 系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来, 而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系 或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵 盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或 者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有 更多限制的情况下,由语句“包括一个……”限定的要素,并不排除 在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要 素。

以上所述仅是本公开的具体实施方式,使本领域技术人员能够理 解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说 将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精 神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限 制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖 特点相一致的最宽的范围。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号