肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着医疗信息技术和生物科技的迅猛发展，生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分，临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。在某些重点专科医院，临床数据的积累已达到百TB的规模，而在组学研究领域更是达到了PB级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平等具有重大潜在价值。然而，随着海量数据的不断累积和应用需求的更加复杂化，临床与组学数据存储和挖掘面临着许多新的问题，制约了其更好地实际应用。
　　为研究适合临床与组学大数据存储和挖掘的高效方法，本文以对人类危害极大的肿瘤、心血管疾病为例，深入分析了两类疾病在诊治和愈后管理过程中，如何充分利用已有数据提高诊断正确率、确定科学的治疗方案，使大多数医生均成为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存储，高速并行访问及高效挖掘算法等问题提出了一些解决方案。
　　首先，在深入分析临床与组学大数据组成和技术特性的基础上，本文将分散、异构、多源、非结构化的数据分为文档数据、小文件和大文件三类，并以NoSQL作为存储底层，MapReduce作为计算引擎，构建了面向并行数据挖掘的分布式存储模型MSPM（Medical Storage Platform for Mining）。该模型实现了三类数据的一体化集成存储和统一规则访问，并适于并行化的数据分析和挖掘。同时，借助NoSQL的自动分片和副本集机制，可满足应用对高可扩展性、高可靠性的需求。
　　然后，针对MSPM模型存在的两个主要性能瓶颈进行了优化。为应对集群系统失衡问题，提出了综合应用组合调优片键和FDO-DT（Double Threshold based on Frequence of Data Operation）算法的改进策略，解决了数据自动分片耗时长、开销大的问题，并实现了数据存储与读写的双均衡；为解决频繁访问原始大文件造成的系统性能不佳问题，设计了大文件特征库，通过医学文档关键信息抽取、元信息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中，并由对库的访问转移一部分对大文件的直接操作，显著节约了系统总开销。
　　最后，为解决经典Apriori算法在医疗大数据挖掘中，面临的类型复杂、属性高维，开销大，结果针对性差等问题，设计了改进的Apriori-M-DB算法。通过以键值对形式统一存储，实现了对复杂异构类型数据的挖掘。并通过MapReduce化，一次扫描选取所有候选项集和兴趣集约束计数等，提高了挖掘的效率和针对性。

著录项

作者
李伟;
展开▼
作者单位

国防科学技术大学;

展开▼
授予单位国防科学技术大学;
学科计算机科学与技术
授予学位硕士
导师姓名刘光明;
年度 2015
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.13;
关键词
医疗大数据; 临床大数据; 组学大数据; 数据存储; 数据挖掘;

相似文献

中文文献
外文文献
专利

1. 融合临床与组学数据的重大疾病生命组学协作网络平台建设初探 [J] . 高东平 ,王士泉 ,戴阿咪 . 中国数字医学 . 2017,第008期
2. 科技部印发《关于发布“十一五”国家高技术研究发展计划（863计划）生物和医药技术领域“常见重大疾病全基因组关联分析和药物基因组学研究”重点项目课题申报指南的通知》 [J] . . 中国医药生物技术 . 2009,第2期
3. 基于专病队列的重大疾病临床样本生命组学数据库建设 [J] . 李伟 ,王士泉 . 中华医学图书情报杂志 . 2017,第006期
4. 肿瘤影像组学信息挖掘与临床应用 [J] . 冯琪 ,丁忠祥 . 健康研究 . 2019,第005期
5. 肿瘤和心血管疾病单病种知识库建模技术研究 [J] . 林婕 . 中国卫生信息管理杂志 . 2015,第002期
6. 肿瘤和心血管疾病单病种大数据知识库建模技术研究 [C] . 林婕 . 2014中国卫生信息技术交流大会 . 2014
7. 基于组学及临床数据的疾病lncRNA挖掘方法研究 [A] . 吴晓亮 . 2015

肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅