首页> 中文学位 >基于XML电子病历的索引策略应用与研究
【6h】

基于XML电子病历的索引策略应用与研究

代理获取

目录

文摘

英文文摘

声明

绪论

第一章 基于XML电子病历的相关简介

第一节XML

第二节XML相关处理技术

1.1.XPath[20]

1.2 XQuery[20]

1.3 DTD

1.4XML Schema

第三节电子病历

第四节XML电子病历的预处理技术

第五节XML电子病历存储技术

1.1平面文件法[34]

1.2关系数据库法

1.3对象管理器法[38]

1.4 Native XML数据库法

第六节电子病历搜索引擎[39]

第七节小结

第二章基于XML电子病历的索引技术

第一节值索引[65]

第二节节点索引[50]

第三节路径索引[69]

第四节结构索引[66]

第五节倒排索引

1.1 Containldx方法

1.2 Posldx方法

1.3 ExtContainldx方法

1.4 Schemaldx方法

第六节小结

第三章一种支持实时更新的混合索引策略

第一节传统的混合索引策略

1.1相关概念

1.2基本思想

第二节改进的混合索引策略

1.1相关概念

1.2基本思想

1.3结构索引的改进

1.4倒排索引的改进

1.5引进更新策略

第三节小结

第四章索引系统的实现

第一节建立索引系统

1.1电子病历预处理

1.2对电子病历的解析和分词

1.3构建XML文档树

1.4创建结构索引

1.5创建倒排文档

第二节实验环境

第三节实验数据集

第四节实验效果

1.1索引空间开销

1.2 时间代价比较

第五节小结

第五章总结

参考文献

附录

攻读学位期间承担的科研任务与主要成果

致谢

个人简历

展开▼

摘要

电子病历的标准化、集成化、网络化一直是我国医院信息系统改革的三大问题。正在发展的XML技术有强大的可扩充性、灵活性和有与生俱来的网络特性,可以成功地解决了电子病历表示和存储问题。但是如何快速处理已固有的电子病历(静态的电子病历)和日趋更新的电子病历(动态的电子病历),还有待于我们进一步研究。 本文首先介绍了基于XML电子病历的相关技术,然后着重对基于XML的电子病历的索引技术进行研究,讨论和分析了半结构化数据索引技术的原理和特点。接着,改进了传统混合索引策略的同时,引入了的更新策略,使其适应基于XML电子病历快速地实时更新。最后,通过实验证实了它的可行性和优越性。 XML具有便于长期保存病历、信息交换和查询,强大的可扩充、灵活性和与生俱来的网络背景。因此,完全以XML来描述电子病历可以达到不依赖于任何一种开发语言、任何一种数据库,是目前存储电子病历的最佳选择。同时,我们必需考虑到,日趋网络化的电子病历具有时时更新的特性,应该构造一个好的索引策略,来减少电子病历查询和处理的时间。所以,基于XML的电子病历的索引策略是值得我们研究的。 本文首先对课题的研究背景和国内外研究背景作了简单介绍,并概述了研究意义和内容,然后对基于XML电子病历的概念和相关技术进行一一介绍。从目前电子病历的索引技术出发,对当前几种索引技术方法进行了较为详细的概述。针对当前索引技术的缺点,结合结构索引和倒排索引的优点,使用一种混合索引。同时,为了减少空间和时间开销,对传统的混合索引策略进行改进;同时,针对网络化电子病历,引进了更新策略。以适应基于XML电子病历的实时更新。主要研究工作如下: 绪论介绍了课题的背景,阐述了国内外研究情况,并概述了论文的意义和主要工作。传统的混合索引策略可同时支持对包含路径和关键词的查询表达式检索,但它仅支持静态数据集合,而网络上的信息却是动态的,所谓动态的数据集合就是指对集合本身而言支持记录的插入、删除和更新操作。对于每天发展变化的网络来说,为使用户及时得到网络化电子病历的更新信息,如何建立索引策略是论文的主要工作。 第一章电子病历是记录有关病人健康和医护状况的终身电子信息载体,具有“全、准、快、易”优点。本章介绍了电子病历概念及其体系结构的同时,还概述了良构型(Well-formed)和有效型(Valid)的XML,是SGML,的一个子集,又是对HTML的补充。具有XML具有平台无关性、存储格式不受显示格式的制约等优点。介绍了电子病历的四种存储技术和分析它们的优缺点,得出Native XML数据库法以自然方式存储和处理XML数据,没有因数据模型的转化带来的信息丢失和性能下降,故用该方法存储电子病历是最佳的。同时,概述了基于XML电子病历处理相关技术,比如XPath,XQquery,DTD等;最后,论述了电子病历的搜索引擎,指出了它主要指标有响应时间、查全率、查准率和相关度等,说明了创建索引的过程。 第2章详细介绍了当前基于XML电子病历的索引技术,包括值索引、节点索引、路径索引、结构索引、倒排索引。其中,结构索引是利用XML文档树的层次性,通过分析、解读文档的层次,进行文档划分、关键词的索引和用户的查询,达到更准确地掌握文本所表达思想和信息。倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址,是由属性值来确定记录的位置,而不是由记录来确定属性值。同时,也介绍了若干种著名的倒排索引方法。 第3章首先介绍了结构摘要、双拟关系、Dewey编码的概念,引出了混合索引策略,即结构索引和倒排索引相结合,来提高查全率、查准率和相关度。针对电子病历传统混合索引中的结构索引策略,是对基于XML电子病历的文档树的结点进行Dewey编码,保持了结构关系上的信息,保存了整个文档的位置关系;同时,引入双似关系,保留了唯一路径,使具有相同路径的文本数据都集中在该路径的节点之中,避免了相同标签路径的重复访问缺陷,大幅度地提高了性能。在混合索引中的倒排索引策略,用开散列表(OpenHashTable)来存储词典,且使其总是驻留内存,实现快速地查询关键字。针对动态的电子病历,混合索引策略是在改进的基础上,再引进了更新策略,适应了实时更新的电子病历的混合索引策略。在讲解的过程中,在附录中还给出了索引系统实现的主要算法,如Dewey编码算法,倒排索引结构的创建算法,倒排索引缓存区的LRU替换算法和动态电子病历的混合索引算法。 第4章首先,介绍了建立索引系统过程。(1)电子病历预处理,包括信息的格式支持与转换以及信息过滤。(2)对XML电子病历文档进行解析,输出文档DOM树;对解析后的DOM树中所有的文本内容节点进行分词。(3)建XML文档树。分词后的每一个特征词都作为XML文档树中的叶子节点,实现XML文档向XML文档树的映射,构建了XML文档树。(4)对XML电子病历文档树的结点进行Dewey编码,通过编码直接判断结点之间的结构关系。XML电子病历的文档树的进行编码后,引入双拟关系,大大减少索引构造的时空开销。 接着,说明实验环境和所使用的实验数据集。 最后,通过实验验证了效果。对电子病历进行Dewey编码,同时,引入双拟关系,大大减少索引构造的时空开销。在更新变化中的XML电子病历中,分别使用传统和改进的混合索引,随机抽取43K,452K,824K关键字进行查询,证实了新索引策略在查询方面,相对旧策略更加有效。 第5章对本文进行总结。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号