首页> 中文学位 >XML重复对象检测系统的设计与实现
【6h】

XML重复对象检测系统的设计与实现

代理获取

目录

文摘

英文文摘

声明

1 绪 论

2 重复对象检测系统总体设计

3 重复对象检测系统的实现

4 实验及结果分析

5 总结和展望

致 谢

参考文献

展开▼

摘要

随着Internet和信息技术的高速发展,XML文档作为数据存储介质应用范围越来越广泛,XML数据的重复元素检测问题已经引起了从事数据库和Internet应用等研究人员的大量关注。而XML数据结构的多样性,给XML元素相似性判断带来很大困难。为了有效的清除XML数据中的重复元素,研究了XML重复元素识别规则,设计和实现了重复XML元素检测系统。
   研究了重复XML元素判定标准、相似字符串识别和XML元素相似度计算等问题,分析出XML重复元素检测的关键是如何有效地处理结构多样性的问题和如何处理父、子元素间的依赖关系,并设计实现了重复XML元素检测系统。检测系统主要由文档预处理模块、相似字符串识别模块和元素相似度计算模块组成。
   在检测系统实现方面,给出了一种自顶向下、多重过滤的检测方法。通过对XML数据存储结构的分析,给出了重复XML元素对象的定义;通过文档预处理在一定程度上解决了XML结构多样性的问题;通过设计多种过滤条件,有效的降低了检测字符串相似度和XML元素相似度的计算量;通过自顶向下的遍历解决了XML元素父子元素间的依赖关系。设计实现了Dirty XML Generator(DXG)工具,用来生成实验数据。
   为了说明检测系统的正确性和过滤条件的有效性,通过DXG工具往XML数据内引入了结构错误和字符串错误两种类型的脏数据,对每个过滤条件都进行了单独的分析,对检测系统的正确性和效率也进行了分析。最终说明了所有过滤条件都是有效而且高效的,检测系统检测的结果也和预先引入的脏数据一致。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号