技术领域
本发明涉及一种基于网格化协变量因素的患病风险等级评估方法,本发明属于信息处理技术领域。
背景技术
随着大数据时代的到来,各个领域之间的交流越来越频繁,信息交叉更加密集,信息共享更加方便。在这些海量数据中,往往蕴含着许多的潜在价值,挖掘和探索这些数据的潜在价值是非常有意义的。其中,人类社会发展过程中,疾病的预防和治疗是人们永恒的话题,与人类有着密切关系的疾病相关数据研究,显得格外重要。目前研究地区疾病风险的方法中,未考虑患病地区的周边地域对本地区某疾病患病的影响。每种疾病都有它们各自的特点,利用一种基于网格化协变量因素的患病风险等级评估方法,将可以更精确、全面地对研究区域,某种疾病的患病风险等级作出量化评估,进而在疾病大规模爆发前,对疾病预防作出判断和抉择。这个方法具有较高的使用价值。
发明内容
本发明要解决的技术问题在于提出一种患病风险等级评估的方法,针对某种疾病特点,根据历史病例数据,评估研究区域不同网格疾病的患病风险等级。为解决上述技术问题,本发明采用如下技术方案:一种基于网格化协变量因素的患病风险等级评估方法,通过将研究区域网格化划分,建立模型,将影响患病的协变量因素考虑到网格内风险变量中,更加全面精确的评估研究区域不同网格疾病的患病风险等级。
具体可分为以下几个步骤:获取研究区域疾病数据、网格化处理、构建层次贝叶斯模型、确定参数的先验分布、计算后验分布、划分网格空间的患病风险等级并可视化。如图1所示。
S1:首先网格化处理
S1.1建立网格
对研究患病风险区域进行网格划分,以行政区、街道或重点关注的区域划分为一个网格,进行划分并编号。如图2所示,针对一个正方形研究区域,进行网格划分(可按行政区,街道等对空间进行划分)。建立网格,有益于我们对研究区域不同的位置进行疾病数据的收集,以及对研究区域细化,更精确的表示区域的相关信息。
S1.2数据网格化预处理
整理统计不同网格内实际患病人数、对疾病有影响的协变量因素及其大小。以便更好的表示各网格的患病信息,得到更加精确的研究区域患病风险的计算和判别。
S2:建立模型
S2.1模型假设:假定网格i的某传染病患病人数为Y
Y
根据泊松分布的性质有
E(Y
e
其中,m=1,2,分别表示男性人群,女性人群。
p
S2.2研究区域相对风险:α表示研究区域内各网格的平均相对风险
S2.3网格空间非结构随机效应项:与各个网格的空间位置无关,U(i) 用于表示其它对θ
S2.4网格空间结构化效应项:S(i)是一个空间结构化随机效应项,表示该疾病患病的空间效应,考虑了空间邻近网格之间的相互关系,θ
S2.5网格空间协变量因素项:X
根据上面所假设的模型,模型的数学表达式为
以log(θ
取对数的目的是保证θ
根据模型的推导,考虑空间项以及与空间相关的社会经济协变量因素项,研究区域的各网格患病风险的变量为RR,记作:
S2.6对模型中的未知参数指定先验分布。
网格平均患病风险α认为服从区间为整个数轴上的均匀先验分布。因为对患病有影响的协变量效应的方向和强度没有确切的先验预期,各协变量因素对应的回归系数认为服从模糊先验分布——期望为0,方差为10000的正态分布。期望为0表示假定各协变量因素对患病风险这一因变量没有影响,方差较大可以用来表示对先验的高度不确定;网格空间非结构化随机效应项U(i)认定为服从期望为0,方差为
各参数的先验分布
α~df lat() (3-1)
β
S[1:N]~car.normal(adj[],weights[],num[],tau) (3-3)
其中,adj[]为邻近网格编号,weight[]为近邻网格的权重矩阵,num[] 为各网格的实际患病人数,tau是超参数
σ
tau~dgamma(0.5,0.0005) (3-6)
S3得到模型中各参数的先验分布后,进行参数后验分布的计算,模型运算使用OpenBUGS软件(WinBUGs的优化版),它是一款通过MCMC算法来分析复杂统计模型的统计软件,从参数的后验分布中生成样本。计算流程如下:
S3.1首先在OpenBUGS平台编写模型程序,通过Specification中的cheak model检查模型是否存在语法错误
S3.3数据加载和编译:将前面收集整理的各网格病例数据进行导入和编译,通过load data按钮和compile按钮检查数据是否按正确语法导入。
S3.4初始值设定:对建立的模型中的相关参数进行后验分布的估计计算前,对各参数的初始值进行赋值,如果不设定初值,OpenBUGS将会对各参数默认赋初值。
S3.5模型退火:为了消除初始值对抽样的影响,通过调整Sample Monitor Tool中beg参数,表示抛去前beg次抽样。
S3.6患病风险变量监控:考虑疾病风险变量的计算结果,将变量名RR 设定到node参数中,并且选出参数估计需要的置信区间
S3.7模型迭代:设置迭代的次数和步长,对模型进行迭代运算。
S3.8患病风险变量结果输出:模型迭代结束后,查看在模型迭代前指定需要研究统计的变量RR(i),获得RR(i)的后验分布统计量。包括RR(i) 的平均数、由模拟引起的参数均值的方差(即蒙特卡洛模拟的误差)、中位数、 Gibbs抽样的起点以及运算中一共抽样的样本数,参数的核密度图、迭代轨迹图以及迭代历史图等统计结果。
S3.9收敛性判别:通过迭代轨迹图和迭代历史图,观察迭代轨迹和迭代历史是否趋于稳定,验证模型的收敛性。
S4网格空间患病风险等级划分
确定患病风险变量,对患病风险的均值,以适合风险值的精度进行分段划分。设定变量均值的分段点。按分段值从小到大进行等级范围划分,确定患病风险等级,得到不同网格的患病风险等级。风险等级评估的结果可借助 OpenBUGS进行可视化。在OpenBUGS平台中GeoBUG模块,导入研究区域地图。选择Map Tool菜单中选择研究区域的地图,在variable中选RR(i)这个变量,设置RR(i)均值的分段点和不同分段区间的绘图颜色,点击plot进行绘图。
本发明的有益效果是:充分考虑了研究区域的不同网格内各自的经济人文因素,提升了研究区域患病风险评估的精确度。
附图说明
图1是本发明具体步骤概括图
图2是本发明流程图
图3是网格划分示例图
图4是网格1空间风险变量的核密度图
图5是网格1空间风险变量的迭代轨迹图
图6是网格1空间风险变量的迭代历史图
图7是研究地区各网格的风险等级可视化结果图
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面通过附图和具体实施例,对本发明作进一步详细说明。
本发明提供一种基于网格化协变量因素的患病风险等级评估方法,具体步骤如下:
得到苏格兰地区唇癌疾病数据,对该地区各区域进行唇癌发病风险等级评估
S1:首先网格化处理
S1.1建立网格
对苏格兰地区区域进行网格划分,以行政区区域为划分依据,划分网格,得到56个网格并编号。
S1.2数据网格化预处理
整理统计不同网格内实际患病人数,对唇癌有影响的协变量因素——特殊人群,即各网格内农业、渔业、林业人口所占当地总人口的比例。如表1 所示
S2:建立模型
模型假设:网格1的唇癌患病人数Y
根据泊松分布的性质有
E(Y
e
其中,m=1,2,分别表示男性人群,女性人群。
p
表1是研究网格的各个病例以及协变量因素数据
确定研究区域相对风险,网格空间非结构随机效应项,网格空间结构化效应项。针对研究区域,进行网格划分,分作56个网格,由此得到各网格之间的邻接矩阵。为56x56的矩阵,如式④
网格空间协变量因素项:此实例中取特殊人群的比例(当地农业、渔业、林业人口所占当地总人口的比例)作为协变量因素则针对第1个网格对患病风险有影响的协变量因素X
根据上面所假设的模型,模型的数学表达式为:
以log(θ
考虑空间项以及与空间相关的社会经济协变量因素项,研究区域网格1 的患病风险的变量为RR
对模型中的未知参数指定先验分布。
网格平均患病风险α认为服从区间为整个数轴上的均匀先验分布,各协变量因素对应的回归系数认为服从模糊先验分布——期望为0,方差为10000 的正态分布。网格空间非结构化随机效应项U(i)认定为服从期望为0,方差为
各参数的先验分布
α~df lat() ①
β
S[1:N]~car.normal(adj[],weights[],num[],tau) ③
其中,adj[]为邻近网格编号,weight[]为近邻网格的权重矩阵,num[] 为各网格的实际患病人数,tau是超参数
σ
tau~dgamma(0.5,0.0005) ⑥
S3得到模型中各参数的先验分布后,进行参数后验分布的计算,模型运算使用OpenBUGS软件(WinBUGs的优化版),从参数的后验分布中生成样本。计算流程如下:
S3.1首先在OpenBUGS平台编写模型程序。
S3.2检查模型:通过Specification中的cheak model检查模型,检查模型是否存在语法错误
S3.3数据加载和编译:将前面收集整理的各网格病例数据进行导入和编译,通过load data按钮和compile按钮检查数据是否按正确语法导入。
S3.4初始值设定:对建立的模型中的相关参数进行后验分布的估计计算前,对各参数的初始值进行赋值,分别为tau=1,b=0,beita1=0,u=0。
S3.5模型退火:为了消除初始值对抽样的影响,通过调整Sample Monitor Tool中beg参数,抛去前1000次抽样。
S3.6患病风险变量监控:考虑疾病风险变量的计算结果,将变量名RR 设定到node参数中,选择参数估计的置信区间为95%
S3.7模型迭代:设置迭代次数为10000,步长为100,对模型进行迭代运算。
S3.8患病风险变量结果输出:指定变量RR(i),获得RR(i)的后验分布统计量。这里以RR(1)为例,得到RR(1)的平均数为4.926、蒙特卡洛模拟的误差为0.01858、中位数为4.76、Gibbs抽样的起点为1000以及运算中一共抽样的样本数为10000,以及参数的核密度图、迭代轨迹图以及迭代历史图等统计结果,分别如图3,图4,图5所示。
S3.9收敛性判别:观察迭代轨迹图和迭代历史图,其迭代轨迹和迭代历史几乎稳定,模型收敛。
S4网格空间患病风险等级划分
确定患病风险变量,对患病风险的均值,以0.5的间隔进行分段划分。设定变量均值的分段点。按分段值从小到大进行等级范围划分,确定患病风险等级,如表2所示。
表2是风险等级及其范围
得到不同网格的患病风险等级。风险等级评估的结果借助OpenBUGS 进行可视化。如图6所示。
机译: 道路沉降风险等级评估装置,道路沉降风险等级评估方法以及用于道路沉降风险等级评估的计算机程序
机译: 分布范围广泛的估计风险评分,可降低协变量失衡的概率不利地影响随机试验结果
机译: 龋齿患病风险评估方法null