首页> 中国专利> 2型糖尿病发病危险因素对血糖影响的定量分析方法

2型糖尿病发病危险因素对血糖影响的定量分析方法

摘要

本发明涉及2型糖尿病发病危险因素对血糖影响的定量分析方法,属于生物信息处理及医学领域。本发明首先使用C4.5和EM聚类算法实现重要发病危险因素的选择;再根据性别和年龄对全体人群进行划分,进而利用BP神经网络算法对细化人群进行敏感度计算,最终通过敏感度实现多因素对血糖影响的定量分析。与现有大量统计学方法相比,本发明采用数据挖掘方法,在充分考虑多因素之间相互影响的同时,在细化人群中实现多因素对血糖影响的定量分析,大大提高了定量分析的准确率,并可为个体发病的细化干预提供判定方法。本发明可对个体2型糖尿病发病进行干预指导,不仅可以预防或延缓发病,而且该方法可应用推广到其它疾病危险因素的定量分析。

著录项

  • 公开/公告号CN103198211A

    专利类型发明专利

  • 公开/公告日2013-07-10

    原文格式PDF

  • 申请/专利权人 北京理工大学;

    申请/专利号CN201310074038.9

  • 申请日2013-03-08

  • 分类号G06F19/00(20060101);G06N3/08(20060101);

  • 代理机构

  • 代理人

  • 地址 100081 北京市海淀区中关村南大街5号

  • 入库时间 2024-02-19 19:15:47

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-02-22

    授权

    授权

  • 2013-08-07

    实质审查的生效 IPC(主分类):G06F19/00 申请日:20130308

    实质审查的生效

  • 2013-07-10

    公开

    公开

说明书

技术领域

本发明涉及一种多因素对血糖影响的定量分析方法,属于生物信息处理 及医学领域。

背景技术

2型糖尿病已经成为世界性的一个主要健康问题。预计到2025年,全世 界将有3.8亿人受到糖尿病的困扰。目前,我国已成为仅次于印度的糖尿病 第二大国。据卫生部调查显示,我国糖尿病患者每天约新增3000例,每年约 新增120万例,其中约95%为2型糖尿病患者。2型糖尿病已成为继癌症和 心脑血管病之后,位于第三位严重影响人类健康的慢性病,其病因是环境因 素、遗传因素、生活方式等相互作用的结果。目前已经获得共识的患病危险 因素包括增龄、肥胖超重、血脂、血压水平异常、糖尿病家族史等,多因素 共同作用对血糖水平升高产生影响,进而导致发病。

由于2型糖尿病一旦发病难以治愈,如果在发病前对危险因素进行干预, 能够有效降低发病率,提高生活质量。相关研究大多采用多元回归、元分析、 cox回归等统计学方法,利用相对危险度研究危险因素与是否发病之间的关 系。哈佛大学Hu F B等人的研究表明超重和肥胖是发生2型糖尿病的最重要 因素。通过对比发现,3.4%处于低危险组女性发生糖尿病的相对危险度为 0.09,91%的发病者是由于不健康生活习惯造成的。Mhurchu C N等人采用 cox回归方法报道了亚太地区人群的体重指数和糖尿病发生之间联系,发现 在该地区降低体重指数能有效降低糖尿病的发病率。或采用多元回归算法和 元分析,研究通常用相对危险度说明某一因素是否是发生2型糖尿病相关的 危险因素,给出定性的结论。本发明采用BP神经网络算法计算敏感度,量 化衡量危险因素对血糖变化的影响,通过敏感度反映出危险因素的变化对血 糖变化的影响,用敏感度比较说明危险因素对血糖变化的定量影响程度,是 对血糖变化特点与规律的过程相关因素探索,用于指导相应干预措施,尽早 控制血糖的升高趋势,达到预防控制糖尿病发生的目的。

发明内容

本发明的目的是为解决多因素对血糖影响定量分析的问题,提出一种基 于BP神经网络的定量分析方法。

本发明的设计原理为:使用C4.5和EM聚类算法筛选出主要的危险因素, 用以确定定量分析的对象;对未患有2型糖尿病的全国抽样人群体检数据, 根据性别和年龄进行人群划分;使用BP神经网络算法定量分析危险因素对 血糖变化的影响。本发明在筛选出危险因素的同时对人群进行细化,通过定 量分析多因素对血糖影响,在给出细化人群中多因素对血糖影响量化表示, 且不同细化人群的多因素的量化排序不同,为个体细化干预提供判定方法。

本发明的技术方案是通过如下步骤实现的:

步骤1,获取人群体检数据,形成未患有2型糖尿病的全国抽样人群体 检数据源S。

具体方法为:为通过2001-2008年实测体检数据,得到完整可用的数据 源,对体检数据进行预处理,首先通过数据清理,填充空缺值、识别孤立点、 消除噪声并纠正数据中的不一致;再进行数据变换包括数据格式转换、数据 语义的转换;最后保证在信息不丢失的情况下,通过数据规约删除重复因素 和空缺值过多的因素,得到全国抽样人群体检数据源S={s1,s2,s3,…,sk},其 中k为预处理后体检人的总数。

步骤2,在步骤1的基础上,进行主要危险因素的筛选。具体过程如下:

步骤2.1,数据处理实验参数设定模块。根据数据源S选择进行主要危 险因素筛选的算法,并设定算法的参数。

步骤2.2,EM聚类算法模块。

具体方法为:对数据源S进行聚P类或q类的聚类实验,改变参与实验的 危险因素的数量和种类,观察实验结果,得到能够较好反映出人群特点的聚 类结果,记录参与聚类的危险因素。

步骤2.3,EM聚类、C4.5分类组合实验。

具体方法为:EM聚类实验部分的参与因素为上述聚类实验所得的最佳聚 类因素,进行聚P类或q类的聚类实验,将数据源S按不同人群健康特点分开, 在对不同健康特点的人群分别使用C4.5算法进行分析,分类参与因素为全部l 维危险因素,分类实验的标定门限值分别为R、V、T和Z,得到不同健康特 点人群所对应的分类决策树。

步骤2.4,对实验结果进行统计,得到c维主要危险因素,根据医学认 知,进一步筛选得到u维主要危险因素。步骤3,根据性别和年龄,对经步 骤2得到的全国抽样人群体检数据源S进行划分,生成细化人群。

具体方法为:首先按性别划分,得到男性人群和女性人群;再分别按年 龄大于e岁和小于等于e岁进行划分,共得到d组细化人群。

步骤4,使用经步骤3得到的细化人群分别训练BP神经网络模型,进而 计算出不同危险因素对血糖影响的敏感度,利用敏感度实现定量分析。

步骤4.1,在给定主要危险因素维数u下,使用d组细化人群训练生成d 个BP神经网络模型,每个模型的生成方法为:

步骤4.1.1,选取处理后训练数据的u维危险因素,作为模型的输入,血 糖作为模型的输出,利用信息的正向传播和误差的反向传播训练生成BP神 经网络模型。输入危险因素从输入层经隐含层逐层计算传递到输出层,每一 层神经元只影响下一层神经元的状态,如果输出层没有得到期望输出,则计 算输出层的误差变化值,然后进行反向传播,通过网络将误差信号沿原来的 连接通路反传回来调整各神经元的权值,经过多次迭代,直至达到平均相对 误差小于σ,训练生成BP神经网络模型,计算模型输出平均相对误差。

步骤4.1.2,再把验证数据输入已生成的BP神经网络模型,计算输出血 糖值,通过误差计算得到验证数据的平均相对误差。

步骤4.2,通过BP神经网络模型计算多因素对血糖影响的敏感度。敏感 度是通过分析不同参数组合对模型模拟效果的影响,确定出的模型参数对模 型输出的贡献率或影响程度。

设有n-L-1前向网络(n为BP神经网络模型输入变量的个数,L为BP神 经网络模型的隐含层数目,1为模型输出变量的个数),网络输出有如下形式: y=f(x1,…,xn)(x为BP神经网络模型的输入,y为BP神经网络模型的输出)。 以2个输入危险因素为例,通过对该式求二阶偏导来考察两个输入变量对输 出变量的敏感度。设神经网络的隐层激活函数为对数S型函数

f(x)=11+e-x

通过雅克比矩阵

dydxT=(yx)m×n

式中:T为矩阵的转置运算,m为所用数据源的样本数目,n为输入变量 的个数。把第j个输入xj变化与第j个输出yj=f(xj)改变联系起来意味着网络 输出的敏感度依赖于输入的微小扰动。对于n个输入、具有L个神经元的隐 含层和一个输出层的神经网络,第t个样本上输入变量xi和xk对输出变量y 的敏感度为

Sikt=S2Σj=1Lwijvj1Ijt(1-Ijt)Σj=1Lwkjvj1Ijt(1-Ijt)+S1Σj=1Lwijwkjvj1Ijt(1-Ijt)(1-2Ijt)

式中:S1为输出层激活函数对其输入的一阶导数,S2为输出层激活函数 对其输入的二阶导数。为第t个样本上第j个隐层神经元的响应,vj1为输出 神经元和第j个隐层神经元间的权重,wij为第i个输入神经元和第j个隐层神 经元间的权重,wkj为第k个输入神经元和第j个隐层神经元间的权重。通过 对不同危险因素进行敏感度分析,得到各发病危险因素对血糖变化的定量分 析。

有益效果

相比于基于线性回归、元分析等大量统计学分析方法,本发明采用BP神经 网络的数据挖掘方法,实现对血糖变化的定量分析,具有准确率高的特点。

与群体分析相比,本发明采用人群划分技术,具有更高的准确率,对血糖 变化的分析更有针对性,并为个体的细化干预提供判定依据,以预防或延缓2 型糖尿病的发生。本发明可应用推广到其它疾病危险因素的量化分析,还可应 用于因素干预-判定-因素干预的良性循环中,从而有效提升个体的健康水平。

附图说明

图1为本发明的多因素对血糖影响定量分析方法的原理图;

图2为具体实施方式中数据预处理原理图;

图3为具体实施方式中聚类实验流程图;

图4为具体实施方式中聚类、分类组合实验流程图;

图5为具体实施方式中人群划分方法;

图6为具体实施方式中BP神经网络模型生成原理图;

图7为具体实施方式中发病危险因素敏感度直方图。

具体实施方式

为了更好的说明本发明的目的和优点,下面结合附图和实施实例对本发 明方法的实施方式做进一步详细说明。

以体检中心2007年和2008年9632条实测体检数据作为输入,设计并 部署9组细化人群的验证:(1)针对全部人群数据进行验证,(2)针对男性数据进 行验证,(3)针对女性数据进行验证,(4)针对大于50岁人群数据进行验证,(5 针对小于等于50岁人群数据验证,(6)针对男性大于50岁人群数据验证,(7)针 对男性小于等于50岁人群数据验证,(8)针对女性大于50岁人群数据验证,(9 针对女性小于等于50岁人群数据验证。

训练数据来自2001-2008年实测体检数据,共有59839条未患病体检数 据作为输入,其中男性数据34377条,占57.4%,女性数据25462条,占42.6% 是否患有2型糖尿病按照1999年世界卫生组织(WHO)标准判定。体检者 的具体性别和年龄分布如表1所示。验证数据采用体检中心2007年和200 年9632条实测体检数据。

表1训练数据的性别和年龄分布统计表

对训练数据进行数据预处理如图2和人群划分如图3,得到九组人群,分别 训练生成九个BP神经网络模型如图4,计算平均相对误差:

E=Σi=1m|yi-yiyi|m×100%

式中:E为模型输出的平均相对误差,m为所用数据源的样本数目,y'i为模 型输出的第i个样本血糖值,yi为第i个样本的实际血糖值,分别计算得到每个 模型的平均相对误差。

对验证数据进行同样的数据预处理和人群划分,得到九组人群,分别输入 对应模型,计算各模型输出血糖值,再通过误差计算平均相对误差,来验证模 型的准确性。

表2九组模型输出的平均相对误差表

通过九个BP神经网络模型分别得到九组人群患病危险因素对血糖变化的敏 感度如表3所示,对应的发病危险因素敏感度直方图如图5所示,从左到右依 次为全体人群、男性人群、女性人群、大于50岁人群、小于等于50岁人群、 男性>50岁人群、女性>50岁人群、男性≤50岁人群和女性≤50岁人群的不同 患病危险因素敏感度。

表3九组人群患病危险因素对血糖变化的敏感度表

通过不同人群中危险因素的敏感度比较分析,可以得出以下结果:

1.体重对血糖变化影响

体重是最易引起血糖变化的因素。全人群中体重对血糖变化影响的敏感度为 0.2449。体重对血糖变化的影响程度不仅体现在全人群的敏感度计算中体重敏感 度位列第一;而且体现为在应用性别、年龄进一步划分为8个人群后,在其中6 个人群中体重的敏感度均位于第一位,仅在50岁以上人群中和年龄大于50岁 女性人群中分别位于第二和三位。而后两组也考虑同为年龄大于50岁女性人群 组的特点所致。

2.血脂水平对血糖变化的影响

胆固醇水平变化对血糖变化的影响仅次于体重。全人群中胆固醇水平变化敏 感度为0.2294。在年龄大于50岁和女性人群中,胆固醇水平对血糖影响要高于 年龄小于50岁组和男性。在年龄大于50岁的女性人群中,胆固醇水平对血糖 变化的影响要高于同年龄组男性人群的28%(0.2538vs.0.1985)。全人群中甘油 三酯水平对血糖变化影响位于第四位(0.1227),远较胆固醇水平的影响要低47% (0.2294vs.0.1227)。但在男性人群,特别是年龄大于50岁男性人群中,甘油 三酯水平对血糖变化影响(0.1970)明显增加60%。

3.年龄对血糖变化的影响

在全人群中,年龄对血糖变化的影响敏感度为0.1657,位于第三位。男性比 女性对年龄因素要敏感(0.2192vs.0.0383)4.7倍。

在全人群中,以上三个因素对血糖变化影响的敏感度达到了目前检测患病危 险因素影响的64%。如果考虑到甘油三酯对血糖变化的敏感度为0.1227,体重、 血脂水平(胆固醇和甘油三酯)和年龄三个因素对血糖变化的影响可以到77%, 三者分别约为25%,35%和17%。总体而言,体重、血脂水平(胆固醇和甘油 三酯)和年龄因素是影响血糖变化的主要因素。

4.性别对血糖变化影响

在全人群中,性别的敏感度仅为0.0091,性别因素对血糖变化的影响在全人 群中作用不大,这也符合糖尿病患病率在性别之间差距不大的现象。但考虑到 年龄因素后,性别对血糖变化的影响还是有一定作用的。在大于50岁人群中性 别对血糖水平影响的提高了近2.5倍,敏感度提高到0.0315。

不同年龄组中性别因素对血糖变化的具体影响表现为:

1)在大于50岁男性和女性组中,血脂水平变化影响体现有所不同。男性对 于甘油三酯水平变化更为敏感(0.1970vs.0.1659),而胆固醇和高密度脂蛋白水 平变化对于女性血糖影响更大(0.2538vs.0.1985;0.1974vs.0.1437)。

2)在小于50岁男性组中,体重因素表现出最高的影响程度(0.2911),分别 高出全人群组、单纯男性组和男性高于50岁组影响程度的19%,18%和32%。 胆固醇和高密度脂蛋白水平变化对于女性血糖影响在小于50岁女性组中依然存 在,且性别因素在高密度脂蛋白水平上的影响比年龄大于50岁组程度更明显 (0.1515vs.0.0371)。

进一步得到如下结论:基于BP神经网络的定量分析方法,利用敏感度量化 衡量危险因素对血糖变化的影响程度,实现了从定性分析到定量计算的转变, 得到了不同患病危险因素对血糖变化影响的敏感度。(1)体重变化最易引起血糖 变化,其次是胆固醇、年龄和甘油三酯,它们对血糖变化影响的敏感度达到目 前检测患病危险因素影响的77%,体重、血脂水平(胆固醇和甘油三酯)和年 龄分别约占25%、35%和17%。(2)年龄对血糖变化的影响敏感度为0.1657, 位于第三位。男性比女性对年龄因素要敏感(0.2192vs.0.0383)4.8倍。(3)性 别因素对血糖变化的影响在全人群中作用不大,敏感度为0.0091,但考虑年龄 因素后,性别对血糖变化有一定作用。在大于50岁人群中性别对血糖水平的影 响明显些,敏感度为0.0315。大于50岁人群中,男性甘油三酯对血糖水平的影 响比女性高19%;体重对男性血糖水平的影响比女性高14%,女性胆固醇水平 对血糖变化的影响比男性高28%;小于等于50岁人群中,高密度脂蛋白对血糖 变化的保护作用明显。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号