概率XML文档的查询研究

代理获取

页面导航

目录
摘要
著录项
相似文献
相关主题

摘要

随着数据采集和处理技术的不断发展和进步，使得人们对不确定性数据的认识逐步加深，对不确定性的概率数据的研究也获得了广大科研工作者的更加广泛的关注。XML是由W3C所发布的一种标记语言。XML所具有的灵活特性非常适合描述、表示、存储，不确定性数据，利用XML表示不确定性数据正越来越多的应用于各个不同的领域中，进而导致概率XML文档的数量呈现出急剧增长的态势。使用传统的XML聚类和查询技术处理海量概率XML文档所造成的时空消耗令人无法接受。尽管针对不确定XML聚类和查询的技术的研究已经有很多，但仍有一些方面需要进行改进和完善。
　　针对概率XML文档的查询研究，本文深入研究了当前已提出的方案，分析了其中存在的问题，并对这些问题提出了针对性的改进策略。本文所做的工作有:
　　第一，直接聚类XML文档精度较高但存在时空消耗大等缺点，利用聚类DTD文档的时空消耗较小的优势，提出了基于DTD的XML文档聚类方法WSDTD。DTD文档可以从一定程度上反应出XML文档的内容和结构，通过聚类XML文档对应的DTD间接聚类XML文档。定义DTD文档对应的树形结构的结构相似度和语义相似度，用K-Means聚类算法对DTD文档树进行聚类，达到对XML文档聚类的目的，从而有效地缩小了查询范围，为海量XML文档查询奠定基础。
　　第二，针对概率XML文档的特点，本文设计了概率XML文档的查询算法pTwigList。在TwigList算法的基础上，加入了Top-K关键字查询思想，进行了三次阈值过滤，对存在概率较低或非法的查询结果予以舍弃，形成了pTwigList算法。并辅以改进的区域编码，这样就能达到查询概率XML文档的目的。
　　第三，通过仿真实验验证本文所提出WSDTD和pTwigList的有效性。实验采取了查询时间来衡量查询效率。仿真实验分成两个部分，第一部分用来验证先使用WSDTD算法聚类，后使用pTwigList进行查询的时间消耗小于直接对海量XML文档进行pTwigList查询。第二部分用来验证pTwigList算法在不同的测试用例下、不同的K值下、不同的文件大小下的有效性。通过与其他算法的结果对比，验证方法有效减少了查询时间。结果表明，本文提出的方案减少了概率XML查询时间。

著录项

作者
杨学峰;
展开▼
作者单位

哈尔滨工程大学;

展开▼
授予单位哈尔滨工程大学;
学科计算机科学与技术
授予学位硕士
导师姓名高伟;
年度 2016
页码
总页数
原文格式 PDF
正文语种中文
中图分类 TP311.131;
关键词
可扩展标记语言文档; 查询技术; 数据聚类; 算法设计;

相似文献

中文文献
外文文献
专利

1. 基于XML文档中XPath查询与结构研究 [J] . 陈琛 . 电子技术与软件工程 . 2015,第014期
2. 概率XML文档实例生成算法研究 [J] . 朱燕 ,马海涛 . 燕山大学学报 . 2013,第005期
3. 基于特征类型概率剪枝查询的算法研究 [J] . 占美星 ,范少帅 ,周鹏 . 科技风 . 2019,第029期
4. 大数据环境下支持概率数据范围查询索引的研究 [J] . 朱睿 ,王斌 ,杨晓春 . 计算机学报 . 2016,第010期
5. 基于概率的反向 K最近邻高效查询算法研究 [J] . 任长安 ,李嘉学 . 计算机应用研究 . 2015,第002期
6. XML文档数据查询方法的研究 [C] . 陈战胜 . 中国计算机用户协会网络应用分会2011年第十五届网络新技术与应用年会 . 2011
7. 概率XML文档中Twig查询处理算法的研究与实现 [A] . 刘潘 . 2010

概率XML文档的查询研究

目录

摘要

著录项

相似文献

相关主题

期刊订阅