首页> 中文学位 >数据挖掘预测模型在焦炉工肺癌高危个体筛查中的应用
【6h】

数据挖掘预测模型在焦炉工肺癌高危个体筛查中的应用

代理获取

目录

声明

摘要

英文缩略词表

1 引言

2 材料与方法

2.1 材料

2.1.1 血清的收集与保存

2.1.2 主要试剂与仪器

2.2 实验方法

2.2.1 CEA测定

2.2.2 NSE测定

2.2.3 胃泌素测定

2.2.4 血清钙的测定

2.2.5 唾液酸的测定

2.2.6 血清铜、锌的测定

2.3 质量控制

2.4 数据挖掘模型的建立

2.4.1 数据归一化处理

2.4.2 ANN模型

2.4.3 决策树C5.0模型

2.4.4 支持向量机模型(SVM)

2.4.5 模型评价

2.5 统计学方法

3 结果

3.1 人群流行病学资料

3.2 6项指标检测结果

3.2.1 职业人群组及正常对照血清CEA、NSE、GAS、Cu和Zn测量标准曲线

3.2.2 暴露组和对照组6项血清肿瘤标志的检测结果

3.2.3 工龄和工种对暴露组六项指标的影响

3.3 神经网络、决策树和支持向量机的结果

3.3.1 ANN结果

3.3.2 决策树结果

3.3.3 SVM模型的预测结果

3.3.4 神经网络、决策树和SVM预测结果的比较

3.4 ANN模型、C5.0模型和SVM模型对暴露组的预测分析

4 讨论

4.1 6种肿瘤标志在焦炉工人中表达水平

4.2 数据挖掘模型的预测评价

4.3 数据挖掘预测模型对暴露组预测结果的讨论

4.4 研究的局限性

5 结论

参考文献

综述 数据挖掘在肺癌早期预警的应用及焦炉工人暴露研究进展

个人简历在学期间发表的学术论文与研究成果

致谢

展开▼

摘要

目的
  由于肺癌发病率及死亡率逐年增长,已成为严重威胁人类健康的恶性肿瘤,也成为亟待解决的公共卫生难题。数据挖掘技术在解决大样本和多参数问题的优势使其在医学领域得到广泛研究。本课题组近年来一直致力于肺癌辅助诊断的研究,筛选出癌胚抗原(carcinoembryonicantigen,CEA)、神经元特异性烯醇化酶(neuronspecificenolase,NSE)、胃泌素(gastrin)、唾液酸(sialicacid,SA)、铜锌比值(Cu/Zn)和血清钙离子等6种肺癌标志组成肺癌生物标志群,并应用人工神经网络(artificialneuralnetwork,ANN)技术建立了肺癌辅助诊断系统。此研究将探讨这6项指标作为焦炉作业工人暴露标志的可能性;同时重建ANN模型,并与决策树C5.0模型和支持向量机(supportvectormachine,SVM)模型比较;并尝试将模型用于焦炉工人高危个体的筛选,对其应用性进行初试,为后续研究建立队列。
  对象与方法
  1.研究对象:暴露组为安阳钢铁集团有限公司焦化厂的焦炉作业工人183例。建模样本包括111例正常对照样本、93例肺良性疾病患者和117例肺癌样本,该样本均取自郑州大学第一附属医院,为课题组前期工作所得。
  2.实验方法:采用放射免疫法检测CEA、NSE和胃泌素,原子吸收分光光度法检测血清铜、血清锌的浓度,运用课题组改进的间苯二酚显色法测定唾液酸,血清钙浓度由全自动化分析仪测定。
  3.数据挖掘:样本按3∶1的比例随机分成训练集和预测集,运用ANN技术、C5.0技术和SVM建模,然后对预测样本进行预测,并结合诊断试验评价指标及ROC曲线对这三种模型的预测结果进行比较,3种模型均采用SPSSClementine12.0软件实现。
  4.运用SPSS21.0软件进行统计学分析。根据具体的资料分布类型选择统计学检验方法,定性资料组间比较用x2检验。检验水准α=0.05。
  结果:
  1.暴露组和对照组中CEA、Cu/Zn和Ca差异有统计学意义(P<0.05),其中暴露组CEA水平和Cu/Zn高于对照,血清钙水平则低于对照组。工龄对CEA水平有影响,工龄超过16年组CEA水平比小于16年组高(P<0.05),未发现炉侧、炉顶和炉底工人间的差异。
  2.数据挖掘模型及其评价:ANN模型的灵敏度、特异度和准确度分别是90.91%、97.92%和93.81%,表明其有良好的重现性。C5.0和SVM模型灵敏度、特异度和准确度分别为93.94%、91.67%、88.8%和90.91%、93.75%和91.36%;三者ROC曲线下面积(AUC)及其95%置信区间分别为0.969(0.916-1.000)、0.944(0.892-0.996)和0.947(0.897-0.997),但差异无统计学意义(P>0.05)。
  3.数据挖掘模型预警结果:ANN模型将01252号归类到肺癌预警对象;SVM模型将01085号和01239号样本分类到肺癌预警对象;C5.0模型则是将01073号、01144号、01145号、01178号、01238号和01239号归类到肺癌预警对象。但目前体检结果尚需进一步证实,建议后期作为重点对象进行追踪观察。
  结论
  1.焦炉作业工人血清CEA升高,且随工龄增长而升高,可作为早期健康损害的效应标志进行研究。
  2.数据挖掘中的ANN技术、C5.0技术及SVM结合6项肿瘤标志群建立的智能模型可用于焦炉作业工人中肺癌高危个体的预警,为课题组进一步深入研究提供依据。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号