首页> 中文学位 >肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究
【6h】

肿瘤、心血管重大疾病临床与组学大数据存储及挖掘技术研究

代理获取

目录

声明

第一章 绪论

1.1 研究背景

1.2 课题研究的意义和难点

1.3 本文的主要工作和创新

1.4 论文的组织结构

第二章 临床与组学大数据组成、特性及应用需求分析和相关研究工作

2.1 临床与组学大数据的组成

2.2 典型数据的技术特性分析

2.3 临床与组学大数据应用需求分析

2.4 主要问题及相关研究

2.5 本文的研究思路和计划

2.6 本章小结

第三章 面向数据分析和挖掘的临床与组学大数据存储模型设计及实现

3.1临床与组学数据传统存储模式面临的挑战

3.2 面向数据分析和挖掘的临床与组学大数据存储模型设计

3.3 各类数据的存储实现

3.4 实验和分析

3.5 本章小结

第四章 面向并行数据挖掘的分布式存储模型MSPM性能优化

4.1 MSPM模型主要性能瓶颈分析

4.2 基于FDO-DT算法的负载均衡优化

4.3 基于动态特征库的系统访问性能优化

4.4 本章小结

第五章 基于MSPM的数据关联规则优化算法Apriori-M-DB的设计与实现

5.1 数据关联规则算法

5.2 SAAP:Apriori算法的并行化实现

5.3 基于SAAP的Apriori-M-DB算法的设计与实现

5.4实验与分析

5.5本章小结

第六章 总结与展望

6.1 工作总结

6.2下一步工作展望

致谢

参考文献

作者在学期间取得的学术成果

展开▼

摘要

随着医疗信息技术和生物科技的迅猛发展,生物医疗行业的数据量呈爆炸式增长。作为生物医疗数据最重要的组成部分,临床与组学数据是指在疾病的诊治和组学分析中产生的电子病历、检查报告、影像、信号数据、基因序列数据等。在某些重点专科医院,临床数据的积累已达到百TB的规模,而在组学研究领域更是达到了PB级。这些数据的挖掘应用将对研究疾病发生发展规律、提高诊治水平等具有重大潜在价值。然而,随着海量数据的不断累积和应用需求的更加复杂化,临床与组学数据存储和挖掘面临着许多新的问题,制约了其更好地实际应用。
  为研究适合临床与组学大数据存储和挖掘的高效方法,本文以对人类危害极大的肿瘤、心血管疾病为例,深入分析了两类疾病在诊治和愈后管理过程中,如何充分利用已有数据提高诊断正确率、确定科学的治疗方案,使大多数医生均成为“有丰富医疗经验的高价值”医生。对数据应用过程中面临的多源异构集成存储,高速并行访问及高效挖掘算法等问题提出了一些解决方案。
  首先,在深入分析临床与组学大数据组成和技术特性的基础上,本文将分散、异构、多源、非结构化的数据分为文档数据、小文件和大文件三类,并以NoSQL作为存储底层,MapReduce作为计算引擎,构建了面向并行数据挖掘的分布式存储模型MSPM(Medical Storage Platform for Mining)。该模型实现了三类数据的一体化集成存储和统一规则访问,并适于并行化的数据分析和挖掘。同时,借助NoSQL的自动分片和副本集机制,可满足应用对高可扩展性、高可靠性的需求。
  然后,针对MSPM模型存在的两个主要性能瓶颈进行了优化。为应对集群系统失衡问题,提出了综合应用组合调优片键和FDO-DT(Double Threshold based on Frequence of Data Operation)算法的改进策略,解决了数据自动分片耗时长、开销大的问题,并实现了数据存储与读写的双均衡;为解决频繁访问原始大文件造成的系统性能不佳问题,设计了大文件特征库,通过医学文档关键信息抽取、元信息提取、挖掘结果动态俘获等将大文件的各类常用信息集成在库中,并由对库的访问转移一部分对大文件的直接操作,显著节约了系统总开销。
  最后,为解决经典Apriori算法在医疗大数据挖掘中,面临的类型复杂、属性高维,开销大,结果针对性差等问题,设计了改进的Apriori-M-DB算法。通过以键值对形式统一存储,实现了对复杂异构类型数据的挖掘。并通过MapReduce化,一次扫描选取所有候选项集和兴趣集约束计数等,提高了挖掘的效率和针对性。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号